量子位

搜索文档
搜索Agent最新高效推理框架:吞吐量翻3倍、延迟降至1/5,还不牺牲答案质量丨南开& UIUC研究
量子位· 2025-05-29 09:08
大语言模型(LLM)驱动的搜索智能体,通过动态拆解问题、交错执行"思考"(推理)和"查 找"(检索)来解决复杂任务,展现了惊人能力。 SearchAgent-X团队 投稿 量子位 | 公众号 QbitAI AI越来越聪明,但如果它们反应慢,效率低,也难以满足我们的需求。 然而,这种深度交互的背后,也隐藏着显著的效率痛点。 处理复杂任务时,查得慢、查得不准,都会拖慢整个流程。 来自南开大学和伊利诺伊大学厄巴纳-香槟分校的研究人员深入剖析了这些效率瓶颈,并提出 了一套名为 SearchAgent-X 的高效推理框架。 实践表明,SearchAgent-X实现了 1.3至3.4倍 的吞吐量提升, 延迟降至原来的 1/1.7至 1/5 ,同时不牺牲最终的答案质量。 解析搜索智能体中的两大效率瓶颈因素 研究者发现,看似简单的检索环节,隐藏着两大关键的效率制约因素: 检索精度:并非"越高越好"的微妙平衡 直觉上,检索越准,LLM获取信息质量越高,效率也应该越高。但实际情况是 非单调关系 过低精度 LLM需更多轮检索和推理弥补,总时间增加。 过高精度 检索本身计算资源消耗巨大,拖慢整体速度。 研究表明,系统吞吐量随近似检索 ...
DeepSeek新版R1直追OpenAI o3!实测来了:“小版本升级”着实不小
量子位· 2025-05-29 09:08
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI DeepSeek终于还是在端午节前来炸场了: △ 图源:@flavioAd 也能做对难倒o3、Gemini 2.5 pro、Claude 4等一众顶流大模型的数字新难题" 9.9-9.11=? "了。 R1更新新版本 DeepSeek-R1-0528 ,看名字你可能以为是个小版本更新,但实际上—— "在LiveCodeBench上几乎与OpenAI o3-high相当!" "讲真这其实就是R2吧。" 不怪网友们惊呼声一片,看第一波实测结果,就知道事情并不简单。 新版R1的小球弹跳实验,与旧版对比结果如下: 新模型已经在HuggingFace上释出,依然是MIT协议。 | 8 main v | DeepSeek-R1-0528 | | Q | | --- | --- | --- | --- | | | · 1 contributor | 9 History: 11 commits | | | | msr2000 Add files using upload-large-folder tool | 174da7f | | | | VERIFIED | | | ...
开源AI开发生态大洗牌:低代码平台逆袭,传统LLM框架日渐式微
量子位· 2025-05-28 15:28
报告+图谱,也让这句"大模型开发生态,是一场现实世界的黑客松",在现场被开发者一遍遍讨论。 是的,在介绍最新的开源生态报告时,蚂蚁开源委员会副主席王旭,就是这么感叹的—— 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 终于!当前的大模型开发生态,被一份报告、完整全景图谱讲清楚了。 就在第十届527蚂蚁技术日上,蚂蚁通过Coding范式、数据、模型部署等角度,对现有开源生态进行了全面完整的大剖析,从数据的视角揭示 了大模型开源生态的演进规律,如果你是大模型开发者或者潜在的开发者, 几乎研究好这份报告可能就够了 。 但这还不够,在报告出炉之前的周末,蚂蚁还发布了2025大模型开源生态全景图,涵盖19个技术领域、135个项目,进一步给出了大模型开 发生态的参考系。 大模型开发生态,是一场现实世界的黑客松。 大模型开源生态,为何是一场实时直播的黑客马拉松? 在去年的QCon(全球软件开发大会)上的报告和量子位的MEET 2025大会中,蚂蚁对开源社区给出了这样的判断: 开源社区的数据可以说既不全面,也不超前于时代,但是,它是跳出公司的一个客观视角。 今年的技术日上,蚂蚁针对开源生态又发布了新的报告,以及新的 ...
5小时满帧玩王者原神!只需2499元拥有电竞级体验,一加手机开大:三块芯片
量子位· 2025-05-28 13:59
白交 发自 成都 量子位 | 公众号 QbitAI 这年头,为了让你玩好游戏,手机厂商直接塞进三块芯片。 生怕你打游戏输得不服气(bushi)。 一加最新手机Ace5至尊系列,配备了由9400系列旗舰芯、灵犀触控芯和电竞Wi-Fi芯片组成的「电竞三芯」。 据说,这是行业首套游戏全链路芯片级硬件解决方案。 得益于这三款芯片,一加Ace5至尊版在安兔兔跑分上达到了3225260,是 目前所有天玑芯片手机的最高分 。 像玩一些这种《王者荣耀》《原神》《崩坏:星穹铁道》重载场景,可以实现 5小时+满帧运行 。 王者里团战打龙也是很顺畅了。 不过平均帧率接近满帧,现在已经不能代表很好的游戏体验了。真实环境中,即便手机是满帧,但仍然会出现卡顿的现象。 由于体验过好,一加 Ace 5 至尊版还成为2025 年《和平精英》职业赛事 PEL 指定用机,真·电竞级手机认证。 此次发布一共发布两款机型,一加 Ace 5 至尊版定价为2499元起,一加 Ace 5 竞速版售价1799元起。 一加直接塞进三块芯片 这三块芯片术业有专攻,它们分别从性能、触控、网络方面来提升游戏体验。 首先来看性能。 此次它搭载了天玑9400+,拥有第二 ...
北大校友王虹,将任法国高等研究所常任教授!2/3前辈为菲尔兹奖得主
量子位· 2025-05-28 13:59
量子位 | 公众号 QbitAI 破解挂谷猜想 的中国女数学家 王虹 ,又有新动向。 这一次,这位出身北大数学系的90后,将 加入法国高等研究所(IHES),担任常任教授 。 什么概念?目前,法国高等研究所只有7位常任教授,5位来自数学领域,另外2位是物理学 家。 鱼羊 发自 凹非寺 这5位数学家每一位都在数学界声名赫赫,包括分别在1998年和2022年获得数学最高奖—— 菲尔兹奖的Maxim Kontsevich和Hugo Duminil-Copin,2018年菲尔兹奖获得者Peter Scholze的合作者Dustin Clausen等等。 再算上历任IHES数学常任教授,13人中共有8人是菲尔兹奖获得者。 官方公布的消息显示: 王虹将于2025年9月1日正式入职。这是IHES和纽约大学的联合任职,她在担任IHES数学常 任教授的同时,也将担任纽约大学柯朗数学科学研究所数学教授。 菲尔兹奖获得者Hugo Duminil-Copin第一时间欢迎了他的新同事: 欢迎王虹加入成为我们的教职员工! 她在纽约大学关于这一成果的讲座,现场被挤得水泄不通: △ 图源:纽约大学 我希望她能在IHES享受我一直珍视的:宁静 ...
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择
量子位· 2025-05-28 12:22
大模型推理优化技术 - 核心观点:AutoThink通过省略号提示词+多阶段强化学习,使大模型具备根据题目难度自主切换思考模式的能力,实现"按需思考"的智能推理[2][5][6] - 行业痛点:当前主流推理模型(如DeepSeek-R1/Claude 3.7/Qwen3)存在过度思考问题,导致简单问题消耗过多计算资源,复杂问题可能因冗余推理降低准确率[3][4] 技术实现路径 - 最小干预设计:仅需在prompt中加入省略号"…"即可触发模型自主选择思考模式,未训练时已能实现随机模式切换[9][10] - 三阶段强化学习: 1) 阶段一通过动态奖励平衡防止模式坍缩,维持思考多样性[16][17] 2) 阶段二放开限制优化准确率,模型自主发展出难度感知能力[18] 3) 阶段三引入长度感知奖励,压缩冗余推理同时保持性能[19][20] 性能提升数据 - 在DeepSeek-R1-Distill-Qwen-1.5B模型上,AutoThink-Stage3实现51.7%准确率,较标准提示提升3.1个百分点,同时减少51.8%的Token消耗[23] - 对已强化学习的DeepScaleR模型仍能额外节省10%计算资源,证明该方法具备模型普适性[21] 行为模式分析 - 难度匹配:模型在Math类简单题思考比例仅28.1%,复杂题(如AMC23)思考比例升至67%,呈现显著正相关性[29] - 内部机制:不思考模式仍保留"Calculate/Check"等关键词,表明其进行快速内部推理而非随机猜测[28] 行业应用前景 - 该技术已集成至ScienceOne智能科研平台,将用于训练其基座大模型S1-Base[39] - 当前局限包括奖励规避和推理预算控制问题,后续将重点优化[41]
阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%
量子位· 2025-05-28 12:22
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 既能提升模型能力,又不显著增加内存和时间成本 ,LLM第三种Scaling Law被提出了。 对于 1.6B模型 ,能实现性能接近4.4B模型, 内存占用仅为后者的1/22,延迟增加量为1/6 。 由此提出假设:并行计算的规模(如路径数量)可能是提升模型能力的关键因素,而非仅依赖参数规模或推理时间的串行扩展(如生成更多 token)。 并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。 这就是阿里通义团队提出的 PARSCALE 。 目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。 阿里通义团队提出的新范式受CFG(无分类器引导)双路径推理机制的启发。 他们将CFG的并行思想从 " 生成阶段的推理优化 " 扩展为 " 训练和推理全流程的「计算缩放」 "。 让我们来扒一扒技术细节。 将CFG的并行思想扩展到计算缩放 PARSCALE对于CFG双路径的灵感迁移 CFG 通过同时运行有条件生成(输入提示词)和无条件生成(不输入提示词)两条路径,再通过加权平均融合结果,提升生 ...
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
量子位· 2025-05-28 12:22
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 大模型做数独,总体正确率只有15%??? 继出场自带十篇完整学术论文的 史上首个"AI科学家" 之后,Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。 这次,Sakana AI公布了一个AI模型 解决数独问题能力的排行榜 。 问题集是该公司推出的 全新基准Sudoku-Bench ,包含了 从简单的4x4到复杂的9x9现代数独 问题,旨在考验大模型 创造性推理能力 。 榜单显示,大模型不仅总体正确率只有 15% ,在9×9的现代数独中,即使是高性能模型 o3 Mini High ,正确率也只有2.9%。 | 3 | oluvuu-pollull lesauci kvalu | | --- | --- | | Model | Puzzles Solved | | O3 Mini High | 14.0% | | Gemini 2.5 Pro | 11.0% | | Qwen 3 235B A22B | 8.0% | | Qwen 3 30B A3B | 7.0% | | Grok 3 Mini | 6.0% | ...
港科大Apple新研究:Tokens使用量减少,模型推理还更强了
量子位· 2025-05-28 12:22
Laser团队 投稿 量子位 | 公众号 QbitAI 1+1等于几? 这一研究也在引起了讨论: 现在的大推理模型(LRMs)已经展现出了非凡的推理能力。但是面对这样最简单的数学问题,现有的LRMs仍需要花费1400+的tokens来思 考。 那么有办法让LRMs在推理思考时更快更强吗? 来自港科大、港城、滑铁卢大学和Apple的研究人员,最近提出了 Laser系列新方法 ,实现了更好的模型效率和准确率平衡,做到了两者的 共同显著提升。 经过Laser和它的进阶方法Laser-D、Laser-DE训练后的模型,相较于训练前模型或者其他方法训练的模型,在准确率(Accuracy)和 Tokens使用效率(Efficiency)上,同时取得了显著的提升。 例如在知名复杂数学推理基准AIME24上,Laser-D和Laser-DE方法能够让模型在减少Tokens使用量 63% 的情况下,还继续提升 6.1 的性 能。 同时,研究人员还发现,经过训练的模型的思考过程里,冗余的"self-reflection"的比例大大降低,呈现出了一种更加健康的思考模式。 那么,Laser是如何让大模型推理又快又好的呢? 三大创新实 ...
Claude 4破解困扰人类4年系统bug,30年码龄程序员200小时没搞定,GPT-4.1/Gemini-2.5也做不到
量子位· 2025-05-28 12:22
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 30年码龄程序员4年都没搞定的bug,Claude Opus 4只用几个小时轻松破解了。 全程只需 30个prompt+1次重启 。 而人类在过去4年花了至少200个小时,都没找到这个bug在哪。 一位资深C++程序员的分享,最近火了。 要知道,他曾在FAANG (指Meta、亚马逊、苹果、奈飞、谷歌硅谷五巨头) 担任工程师,如今也是团队中"定海神针"一样的人物。 这个bug不仅困扰他,包括 GPT-4.1、Gemini-2.5以及Claude-3.7 也找不到。 有围观的程序员表示,这种剧情他也经历过! 一个月没解决的bug,用o1-Pro十分钟就搞定了。 Anthropic的开发者关系主管也留言表示,这样的故事可能会越来越常见。 6万行代码重构后出现"白鲸bug" 故事的主角名叫ShelZuuz。 因此,他把这个bug称为 "白鲸bug" 。 这是参考了文学作品《白鲸》中,哈克船长执着半生都在追逐一头行动诡异的白鲸。 这位老哥自称有30年C++开发经验,在目前的团队里承担"技术支援"的角色,大家卡了一周的问题,他当场就能解决。 从他在Reddit上的资 ...