- 发布日期:2025-02-02 19:22 点击次数:137
中科院院士鄂维南、字节 AI 实验室总监李航领衔,推出高级论文搜索 Agent。
名为PaSa,两个 Agent 分别执行多轮搜索和判断论文是否满足查询要求的任务,模仿人类复杂学术搜索行为。
现在就有 Demo 可玩。
只需提供研究主题或描述想法,它就会迅速展开搜索并按相关度自动排列组织顺序。
点击标题卡,不用跳转页面,就能显示论文作者和摘要,再点击带有跳转链接的标题就能查看完整论文:
更重要的是其召回率和精准性。
实验中,PaSa 在召回率和精确率等指标上显著优于谷歌、谷歌学术、Google with GPT-4o、ChatGPT 等基线模型。
在 AutoScholarQuery 测试集,与最强基线 PaSa-GPT-4o 相比,PaSa-7b 的召回率提高了 9.64%;在团队创建的数据集 RealScholarQuery 上,与最佳基于 Google 的基线 Google with GPT-4o 相比,PaSa-7b 在召回率 @20、召回率 @50 和召回率 @100 上分别提升 37.78%、39.90% 和 39.83%。
磕盐党狂喜~
两个 Agent 组成
目前学术搜索系统,如谷歌学术搜索,常难以有效处理复杂的查询,导致研究人员需花费大量时间手动文献搜索。
比如询问" Which studies have focused on non-stationary reinforcement learning using value-based methods, specifically UCB-based algorithms? "。
(哪些研究聚焦于非平稳强化学习中基于值的方法,特别是基于 UCB 算法的研究)
虽然利用 LLM 来增强信息检索的研究越来越多,但学术搜索不仅需要检索,还需要深入阅读论文和检查引用,完成全面的文献调查。
为此,研究团队开发了 PaSa 系统,主要包含两个大模型 Agent:Crawler(爬虫)、Selector(选择器)。
Crawler 负责处理用户查询,生成多个搜索命令,并检索相关论文。
具体来说,它执行一个基于 token 的马尔可夫决策过程(MDP)。动作空间 A 对应于 LLM 的词汇表,其中每个 token 代表一个动作。LLM 充当策略模型,Agent 的状态由当前的 LLM 上下文和论文队列定义。
Crawler 使用三个注册函数进行操作:
[ Search ] 用于生成搜索查询并调用搜索工具
[ Expand ] 用于展开论文的特定章节并提取其中的引用
[ Stop ] 用于重置上下文到用户查询和队列中的下一篇论文。
当动作与函数名称匹配时,将执行相应的函数,进一步修改 Agent 的状态。
例如,如下图所示,Agent 首先接收用户查询,将其纳入其上下文并开始执行动作。如果生成的 token 是 [ Search ] ,则 LLM 继续生成搜索查询,Agent 调用搜索工具来检索论文,然后将这些论文添加到论文列表中。
如果 token 是 [ Expand ] ,则 LLM 继续从其上下文中的当前论文中提取子节名称。Agent 随后使用解析工具提取该子节中引用的所有论文,并将它们添加到论文列表中。
如果 token 是 [ Stop ] ,则 Agent 将其上下文重置为用户查询以及论文队列中下一篇论文的信息,这些信息包括标题、摘要以及所有部分的概述。
Selector 则负责仔细阅读每篇论文,评估是否满足用户查询要求。
它接收两个输入:一个学术查询和一篇研究论文(包括其标题和摘要),
生成两个输出:
一个单一的决策 token,可以是" True "或" False ",表示论文是否满足查询,以及一个理由,包含 m 个支持该决策的 token。理由有两个目的:通过联合训练模型生成决策和解释来提高决策准确性,并通过在 PaSa 应用中提供推理来提高用户信任。
实验中优于所有基线
团队使用包含来自 AI 顶会收录论文的 35k 个细粒度学术查询及其对应论文的合成数据集 AutoScholarQuery,通过强化学习优化 PaSa。
此外,还开发了一个收集真实世界学术查询的基准数据集—— RealScholarQuery,用于在更现实的场景中评估 PaSa 的性能。
实验中,Crawler 和 Selector 均基于 Qwen2.5-7b,最终的 Agent 称为 PaSa-7b。
如下表 5 所示,PaSa-7b 在 AutoScholarQuery 测试集上优于所有基线。
与最强的基线 PaSa-GPT-4o 相比,PaSa-7b 的召回率提高了 9.64%,精度相当。此外,PaSa-7b 中 Crawler 的召回率比 PaSa-GPT-4o 高 3.66%。
与最佳的基于 Google 的基线 Google with GPT-4o 相比,PaSa-7b 在召回率 @20、召回率 @50 和召回率 @100 上分别实现了 33.80%、38.83% 和 42.64% 的提升。
团队还观察到,在推理过程中使用多个 Crawler 集成可以提升性能。具体来说,在推理过程中运行两次 Crawler,使 AutoScholarQuery 上的 Crawler 召回率提高了 3.34%,最终使整个 PaSa 系统的召回率提高了 1.51%,同时保持精度相似。
为了在更现实的场景中评估 PaSa,团队在 RealScholarQuery 上评估了其有效性。如表 6 所示,PaSa-7b 在真实世界的学术搜索场景中表现出更大的优势。与 PaSa-GPT-4o 相比,PaSa-7b 的召回率提高了 30.36%,精度提高 4.25%。
与 RealScholarQuery 上最佳的基于 Google 的基线 Google with GPT-4o 相比,PaSa-7b 在召回率 @20、召回率 @50 和召回率 @100 上分别超过 Google 37.78%、39.90% 和 39.83%。
此外,PaSa-7b-ensemble 进一步将 Crawler 召回率提高了 4.32%,使整个系统的召回率提高了 3.52%。
鄂维南、李航领衔
PaSa 由中科院院士、北大教授鄂维南,字节跳动 AI 实验室总监 * 李航领衔提出。
鄂维南,中科院院士、" AI for Science "概念的提出者。
15 岁就被中科大录取,可以进"少年班"的他还是选择了进数学系学习纯数学。
而在大四之时,由于希望"自己学的东西真正有用,而不是只有高深",他突然改变方向,决定改读应用数学。
我的内心深处是属于入世的,想跟社会跟技术产生一点联系,我不是那种能一辈子待在象牙塔里的人。
最终,他一路从中国科学院、UCLA 完成硕博士学位(博士期间的导师为著名应用数学家 Bjorn Engquist 教授)。
博士毕业之后几年,鄂维南进入普林斯顿高等研究院和纽约大学的库朗研究所,分别担任研究员和教授。并在 1999 年即 36 岁之时成为普林斯顿大学数学系和应用数学及计算数学研究所教授,转年加入北大。
2011 年,48 岁的鄂维南当选中国科学院院士。
其贡献包括:
与合作者一起把偏微分方程、随机分析及动力系统的理论进行巧妙结合,用于研究随机 Burgers 方程、随机 passive scalar 方程、随机 Navier-Stokes 方程和 Ginzburg-Landau 方程等,证明不变测度的存在性和唯一性,分析稳定解的特性,并在此基础上解决了 Burgers 湍流模型中一些存有争议的问题。
与合作者一起构建一种十分有效的数值方法——弦方法,使之成为研究物理、生物和化学领域中稀有事件的一个重要手段。
提出设计与分析多物理模型的多尺度方法的一般框架等等。
从 2014 年开始,鄂院士的职业生涯迎来又一个转折,他开始正式进入机器学习领域,并在 2018 年提出" AI for Science "的概念。
李航,字节跳动 AI 实验室总监之一,同时当选三大国际顶级学会(ACL,IEEE,ACM) Fellow。
他的主要研究方向包括信息检索、NLP、统计机器学习和数据挖掘。
他在日本京都大学电气工程系获得硕士学位,并于东京大学计算机科学博士毕业,曾担任日本 NEC 公司中央研究所研究员、微软亚洲研究院高级研究员与主任研究员、华为技术有限公司诺亚方舟实验室首席科学家。
论文链接:https://arxiv.org/abs/2501.10120
demo:https://pasa-agent.ai/