DR Tulu
搜索文档
Nature和Science同时报道了一篇论文,试图根治AI幻觉
36氪· 2026-02-05 20:24
模型架构与性能突破 - 开源模型OpenScholar仅拥有80亿参数,在科学文献综述任务上击败了旗舰模型,标志着从依赖参数记忆到依赖外部知识库精准调用的范式转移[1][4] - OpenScholar通过外接一个包含4500万篇开放获取论文的数据库,采用“检索-重排序-生成与反馈”的严密流程来根治幻觉问题,其自我审查机制确保每条论述都有文献背书[5] - 在ScholarQABench基准测试中,OpenScholar-8B不仅正确率超越当时的旗舰模型,更将推理成本降低两个数量级至约0.003美元/次[6] - 性能数据显示,OpenScholar-8B在单篇论文任务上的多项正确率(Corr)和引用率(Cite)指标均显著优于同等参数规模的Llama3-8B,甚至在某些任务上接近或超越700亿参数的大模型[7] 技术演进与深度研究能力 - 迭代版本DR Tulu针对长篇幅、多维度的深度研究任务,其核心突破在于引入了“演化评分规则的强化学习”,使模型能动态生成针对当前问题的评分细则[9] - DR Tulu具备更强的研究规划能力,能像成熟研究员一样制定大纲、分头检索并综合多源信息撰写长篇报告,其8B参数版本的表现已可媲美当时的旗舰专有模型[9][10] - 该系列模型代码和权重完全开源,旨在打破科技巨头对顶级科研AI工具的垄断,推动研究工具的民主化[15] 行业影响与意义 - 该研究证明在特定领域,一个连接了大型知识库的小模型,比一个参数庞大但可能产生幻觉的大模型更可靠,挑战了行业对模型参数的盲目崇拜[4][8] - 研究主导者Akari Asai是检索增强生成领域的活跃研究者,其哲学是让模型学会拥抱外部世界而非死记硬背,这一理念正通过其开源工作影响行业[15] - 该技术方向将AI从参数竞赛中解放出来,赋予其查阅、验证和反思的能力,有望成为科学家在浩瀚知识海洋中进行研究的强大助手[16]