不确定性消解推理能力

搜索文档
刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3
量子位· 2025-07-07 15:43
WebSailor团队 投稿 量子位 | 公众号 QbitAI 在互联网信息检索任务中,即使是很强的LLM,有时也会陷入"信息迷雾"之中:当问题简单、路径明确时,模型往往能利用记忆或一两次搜索 就找到答案;但面对高度不确定、线索模糊的问题,模型就很难做对。 举个例子,我们平常问一个直白的问题(比如"某城市的人口是多少"),搜索引擎一查即可。 但如果问题被设计得非常复杂,比如"这首与南美某首都密切相关的乐曲,其歌词作者在21世纪初获颁当地荣誉称号,其旋律创作者曾就读于 哥伦比亚西部的一所著名艺术学院。这首乐曲叫什么?",人类和AI都很难直接找到入口。 这类问题需要阅读许多网页、抽丝剥茧地拼凑线索,逐步把迷雾拨开,才能找到答案。这超出了人类有限记忆和注意力的负荷,也远远超出了 普通开源模型的能力范围。 有没有办法让开源的大模型也掌握这种拨云见日的本领? 阿里巴巴通义实验室最新提出的方案WebSailor通过一整套创新的post-training方法,大幅提升了开源模型在复杂网页推理任务上的表现。 此前开源的Agent在类似BrowseComp这样复杂的、超越人类能力边界的基准上几乎为零,WebSailor成为首个 ...