量子位

搜索文档
让AI学着“看菜下碟”!港中大等新框架让推理长度减少90%,准确率反增17%
量子位· 2025-05-30 13:01
核心观点 - 香港中文大学与新加坡国立大学Show Lab联合提出TON框架,使视觉语言模型(VLM)能自主判断是否需要显式推理,显著提升效率[2] - TON框架灵感来自人类决策过程,对简单问题直接作答,对复杂问题生成详尽推理[3][4] - 实验显示TON在不牺牲准确率前提下,平均推理输出长度最多减少90%,部分任务准确率提升17个百分点[10][11][12] 框架设计 - 核心创新在于引入"是否思考"的决策模块,将推理与否作为独立技能学习[4] - 采用两阶段训练机制: - 第一阶段通过"思想丢弃"技术随机清空50%训练数据的推理步骤,教会模型直接回答格式[6] - 第二阶段用GRPO强化学习优化,模型自主探索何时跳过推理以最大化奖励[6] - 训练中采用"反向思考"策略构造高质量思考数据辅助学习[6] 实验结果 效率提升 - CLEVR数据集推理文本长度减少87%(从306降至28)[13] - GeoQA数据集推理长度减少65%(从924降至96)[13] - AITZ任务输出长度从3k缩减至900,节省60%token消耗[14][26] 准确率表现 - CLEVR准确率提升5个百分点至98.5%[13] - GeoQA准确率提升14个百分点至51%[13] - Qwen-2.5-VL-7B模型在AITZ任务准确率提升22个百分点[14] 应用价值 - 推理效率提升带来更快响应速度和更低算力消耗,适用于实时互动场景[19] - GUI导航任务中自适应跳过不必要步骤,解码效率提升60%[26] - 更接近人类"按需思考"模式,提升模型通用性和可靠性[19][21]
波士顿动力机器人进厂打工现逆天操作!3D感知+实时追踪,人类捣乱完全不带怕的
量子位· 2025-05-29 15:19
西风 发自 凹非寺 量子位 | 公众号 QbitAI 波士顿动力带机器人看世界,Altas重磅升级了! 现在,它具备 3D空间感 知 和 实时物体 追 踪 能力,可以自主执行更复杂的工业任务。 请看Altas在汽车工厂打工VCR: 小哥故意将汽车零部件丢在地上,只见它 36 0°转动头部环 顾四周 ,随后成功识别并将其放入正确位置: (就是偷感好重,笑死) 故意移动装置位置,它也能 精准感知到变化 : 然后依旧稳稳地将零部件放入槽内: 头部和腰部都可360°旋转,干起活来那叫一个麻利: 据介绍,Altas的一系列功能升级源于波士顿动力团队对Altas感知系统进行的全新设计,融合了2D与3D感知技术、物体位姿追踪,以及基 于物理特性的精确校准方案。 网友看到该新成果后纷纷叫好。光是官方在YouTube上发布的视频就引来了 十余万人 围观,点赞量近8 k 。 网友纷纷表示Altas能够观察到物品掉落还会环顾四周观察,这个能力非常炫酷。 除此之外,关于全新能力具体实现,官方发布了技术Blog。 背后技术解析 波士顿动力团队表示,拿起一个汽车零件并将其放入正确的插槽,这一看似简单的任务对于机器人来说实际上并不容易。 ...
视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源
量子位· 2025-05-29 15:19
金磊 整理自 凹非寺 量子位 | 公众号 QbitAI 一个新的Benchmark,竟让大模型在 复杂 视频推理 这事儿上 统统不及格! 这就是腾讯ARC Lab和香港城市大学最新推出的 Video-Holmes —— 如其名,它可以说是视频推理界的 "福尔摩斯测试" , 通过让多模态大模型参与 " 推理杀人凶手 " , " 解析作案意图" 等高难度的推理任 务,以展现他们复杂视频推理能力的边界 。 而且Video-Holmes可以说是规避了现在业内已有的Benchmark痛点,即视频源和问题都偏简单,没法反映推理模型和非推理模型之间的差 距。 值得一提的是,这个Benchmark的 "一键测评懒人包" ,目前已经上线到了GitHub和HuggingFace,有做视频推理相关的小伙伴,可以去挑 战一下了(地址见文末)。 让大模型全军覆没的新Benchmark 正如刚才提到的,现有视频推理基准(如 VCR-Bench、MVBench 等)主要评估模型的视觉感知和接地能力。 举个例子 。 在这个例子中,为了寻找男人真正的死因,模型需要 主动思考 需要关注的视觉信息,并通过 逻辑关联 分散在不同视频片段中的多个相关 ...
华为攻克AI推理「想太多」问题!新方法让大模型推理提速60%,准确率还高了
量子位· 2025-05-29 15:19
S-GRPO的全称为序列分组衰减奖励策略优化( S erial- G roup Decaying- R eward P olicy O ptimization),旨在提升大语言模型 (LLM)的推理效率和准确性,解决 冗余思考 问题。 S-GRPO团队 投稿 量子位 | 公众号 QbitAI AI回答问题太慢太长且无用,有没有能让大模型提前停止思考的方法? 华为提出了首个在Qwen3上还有效的高效推理方法—— S-GRPO ,突破了思维链 「冗余思考」 瓶颈。 通过 "串行分组 + 衰减奖励" 的设计,在保证推理准确性的前提下,让模型学会提前终止思考, 推理提速60% ,生成更精确有用的答案。 S-GRPO适合作为当前Post Training(训练后优化)范式中的最后一步,在确保模型预先存在的推理能力不受损害的情况下, 使能模型在思 维链的早期阶段即可生成质量更高的推理路径,并在思考充分后隐式地提前退出 。 S-GRPO对单条完整推理路径进行分段截断 OpenAI o1, Deepseek-R1等推理模型依赖Test-Time Scaling law解决复杂的任务。 然而,过长的思维链序列的生成也显著增加了 ...
视频实时生成可交互! 两位自动驾驶大牛创业世界模型:40毫秒/帧,无需任何游戏引擎,人人免费可玩
量子位· 2025-05-29 15:19
一水 发自 凹非寺 量子位 | 公众号 QbitAI 李飞飞押注的世界模型领域,迎来两位自动驾驶大牛创业新成果! 无需任何游戏引擎,AI能以40毫秒/帧想象并实时生成视频。 40毫秒/帧啥概念? 人类眨一次眼都需要100~400毫秒,所以现在AI几乎可以一瞬间创造视频了。 而且无需高端显卡,玩家可以实时观看,并与AI生成的世界交互了。 就像是在 探索一个平行宇宙 的感觉~ 那么,新玩家Odyssey究竟有哪些亮点呢? 世界模型≠视频模型 一上来,Odyssey就在最新官方博客中解释: 世界模型≠视频模型 。 他们认为,乍一看世界模型好像是视频生成模型的完美应用,但后者的架构、参数和数据集实际上并不适用于前者。 而除了产品迅速引人关注,更值得说道的还是其背后研发公司。 两位联合创始人 Oliver Cameron 和 Jeff Hawke 均在自动驾驶领域有着深厚从业背景,虽然公司成立不到2年,但一亮相就获得了资本青 睐。 迄今为止,Odyssey已从EQT Ventures、谷歌GV和Air Street Capital等投资机构筹集了 2700万美元 (约合人民币1.9亿),皮克斯创始 人/图灵奖得主Ed ...
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
量子位· 2025-05-29 12:42
梦晨 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 复刻DeepSeek-R1的长思维链推理,大模型强化学习新范式RLIF成热门话题。 UC Berkeley团队共同一作 Xuandong Zhao 把这项成果称为: 大模型无需接触真实答案,仅通过优化自己的信心,就能学会复杂推理。 具体来说,新方法完全不需要外部奖励信号或标注数据,只需使用模型自身的置信程度作为内在奖励信号。 与使用外部奖励信号GRPO相比,新方法在数学任务上不需要标准答案也能提升基础模型性能,在代码任务上表现得更好。 几乎同一时间,另外一篇论文《RENT: Reinforcement Learning via Entropy Minimization》也验证了相似的结论。 作者表示两者的主要区别在于使用 KL散度 和 最小化熵 衡量自信程度。 Dropbox工程副总裁看后表示: Confidence is all you need 。 "自信"驱动的强化学习 长期以来,训练大模型主要依赖两种方式: 要么需要大量人工标注(如ChatGPT的RLHF),要么需要可验证的标准答案(如DeepSeek的RLVR)。 前者成本高昂且可能引入偏 ...
英伟达再创历史纪录!Q1收入增长69%,数据中心贡献89%,游戏业务大涨42%
量子位· 2025-05-29 12:42
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 英伟达最新一季度财报出炉,不出所料,依旧亮眼。 而这一切还是在H20芯片受到出口限制影响下实现的。 财报公布后,英伟达股价盘后跳涨。 据了解,英伟达最强性能GB300芯片及相关组件在今年5月开始生产,在第三季度正式推出。这意味着接下来英伟达的营收和毛利率表现更加 值得期待。 但在出口限制的影响下,H20芯片的损失也在扩大,预计下一财季将达到80亿美元。 数据中心、游戏业务均创历史新高 总收入为 441.1亿美元 ,环比增长 12% ,同比增长 69% 。 非GAAP毛利率为 60.5% ,若排除 H20库存相关费用 ,毛利率可达 71.3% 。 数据中心收入占比最大,达到 391亿美元 ,环比增长 10% ,同比增长 73% 。 游戏业务收入为 38亿美元 ,创历史新高,环比增长 48% ,同比增长 42% 。 英伟达2026财年Q1的汇报期为2025年1月30日-2025年4月27日,本次财报表现超出预期。 2026财年Q1营收环比增长12%、同比大涨69%。 研发投入依旧上涨,同比增长46.7%,环比增长7.4%。 在业务划分上,英伟达主要包括四部分。 ...
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
量子位· 2025-05-29 12:42
LIFEBench团队 投稿 量子位 | 公众号 QbitAI 你是否曾对大语言模型(LLMs)下达过明确的 "长度指令" ? 比如,"写一篇10,000字的长文,详细分析某个议题。"看似简单的要求,实际却往往让这些模型"力不从心": 不是生成内容不足,就是重复啰嗦,甚至直接罢工拒绝生成。 一篇最新研究论文 《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》 对这一问题 进行了深入探讨,提出了一个全新的基准测试集 LIFEBENCH,系统评估大语言模型在长度指令遵循方面的表现。 研究结果揭示:这些看似无所不能的模型在长度指令,特别是长文本生成任务中,表现不尽人意。 当模型被明确要求生成特定长 度的文本时,大多数模型表现糟糕。 接下来,让我们一起来看看这篇论文是如何揭示这些"瓶颈"的! LIFEBENCH:专注长度指令遵循的基准测试 LIFEBENCH,全称" L ength In struction F ollowing E valuation Bench mark",是一套专门评估大语言模型在长度指令下表 ...
不懂建模也能做角色!VAST升级AI神器,一手实测来了:一键拆建/魔法笔刷/万物绑骨
量子位· 2025-05-29 12:42
允中 发自 凹非寺 量子位 | 公众号 QbitAIn 而Tripo Studio作为一站式解决方案,其核心优势在于通过拓扑优化、智能贴图及部件级编辑等功能模块的协同运作,使输出模型在游戏开 发、工业设计等多场景下,可直接替代传统DCC建模软件的繁杂工序,实现从生成到应用的全链路效率提升。 智能部件分割:一键拆建,建模不再是整体大拉锯 多少用户在评论区高呼的 一键拆分 功能终于来了,真正是3D打印和游戏制作用户的福音。 背后的算法就是之前曾分享过 Tripo开源月全家桶的Holopart 。 视频、图片生成模型发展近三年,仍然在轨道编辑与图层操作方面有巨大的局限性,Tripo Studio率先实现了3D模态下的精准可控编辑。这 一突破不仅显著提升了创作效率,更开拓了巨大的商业应用空间。 AI建模界的"作弊神器"真的来了! 3D大模型明星初创VAST推出的Tripo Studio此次大升级—— 四大核心功能:智能部件分割、贴图魔法笔刷、智能低模生成、万物自动绑骨等。给人一种感受是, AI终于懂得建模了 。不是那种只会给你 乱糊一个模型出来的AI,而是每个功能都直击过去建模流程里的痛点。 过去想做个角色模型只能外 ...
奖励是假的,能让Qwen提升25%性能却是真的!
量子位· 2025-05-29 09:08
RLVR技术突破 - 使用虚假奖励信号进行RLVR训练仍能显著提升Qwen模型性能 在MATH-500基准上绝对准确率提升约25% 与真实奖励效果仅相差几个百分点[1][3][18] - 虚假奖励类型包括错误标签奖励(提升24.6%)、随机奖励(提升21.4%)和格式奖励 均能激发模型推理能力提升[18][20] - 该现象颠覆传统认知 表明RLVR性能提升可能独立于奖励信号正确性 而是通过激活预训练中的潜在推理能力实现[4][12] Qwen模型特异性表现 - 虚假奖励增益仅见于Qwen2 5-Math系列模型 其他模型如Llama、OLMo2-7B性能无变化或下降[19][24] - Qwen2 5-Math-7B独特依赖代码推理策略 65%回答包含Python代码片段 虚假奖励RLVR可将其频率提升至90%[23][27] - 模型差异源于预训练策略 Qwen的代码推理行为与答案准确率正相关 但该模式在其他模型中可能损害性能[23][25] 实验设计与机制分析 - 团队设计五类奖励函数梯度测试 包括真实奖励、多数投票奖励、格式奖励、随机奖励和错误奖励 形成监督强度递减序列[20] - GRPO方法裁剪偏差可能诱导随机奖励产生有益训练信号 增加代码推理行为[28] - 研究推测错误推理+正确答案或正确推理+错误答案的组合可能在其他模型中复制类似增益[32] 行业影响与研究方向 - 现有RLVR研究需扩展至非Qwen模型验证 避免单一模型优化带来的局限性[33] - 技术社区反应强烈 建议RLVR研究员重新评估围绕奖励函数构建的研究路径[6] - 项目由华盛顿大学NLP团队主导 开源代码与论文提供完整实验复现路径[34]