机器之心
搜索文档
注意力机制大变革?Bengio团队找到了一种超越Transformer的硬件对齐方案
机器之心· 2026-01-07 13:16
文章核心观点 - 一篇学术研究提出了一种名为“滑动窗口循环”的新方法,通过硬件对齐的矩阵运算来优化线性递归模型,旨在解决大语言模型在处理长序列时面临的“内存墙”和计算效率问题,并在实验中展现出显著的训练速度与模型质量提升 [1][31][32] 研究背景与挑战 - Transformer模型虽占主导,但线性递归或状态空间模型等竞争者旨在提升计算性能和效率 [1] - 现有线性递归方法在GPU上的实际表现受限于内存带宽和全局同步带来的高昂通信成本,未能充分发挥硬件潜力 [1][4][6] - 数据移动导致的瓶颈是长文本大模型训练和推理中亟待解决的“内存墙”问题 [7] 核心解决方案:滑动窗口循环与B2P算法 - 研究核心是提出了“滑动窗口循环”(SWR),通过策略性截断计算视界来换取高吞吐量,其锯齿状窗口结构能自然对齐硬件工作负载 [11] - 开发了“块两步”(B2P)算法及对应的CUDA内核,将计算分为两个阶段:线程束并行处理本地块,再利用共享内存在相邻块间传递状态并进行低秩补偿 [14][15] - 该设计确保输入数据只需从显存读取一次,中间通信发生在芯片内部,实现了接近恒定的O(1)算法深度和极佳的硬件利用率 [15] Phalanx层设计与性能 - 基于B2P算法设计了名为Phalanx的新型计算层,可作为滑动窗口注意力或线性递归层的替代品 [20] - Phalanx层参数化极简,通过Sigmoid函数保证递归系数在稳定区间内,并采用基于头的参数共享模式,与Tensor Core的计算模型契合 [20][22] - 在1.3B参数模型的测试中,Phalanx+Attention混合模型在4K到32K上下文长度间,实现了10%到40%的端到端训练提速 [23][24] - 在模型精度上,Phalanx在1:1混合比下达到10.85的困惑度,优于Transformer++基准的10.95 [25][26] - 在8K上下文训练中,Phalanx混合模型比传统的SWA/Attention混合架构快28%,在短序列下也比纯注意力模型提升10%的训练吞吐量 [28] 行业意义 - 该研究为下一代长文本模型架构指明方向:真正的效率提升源于对底层计算硬件物理特性的深刻理解与对齐,而不仅仅是算法复杂度降低 [31] - 随着LLM向超大规模上下文演进,这种硬件感知的算子设计将成为构建更强大AI系统的核心基石 [33]
近十年后谷歌与波士顿动力再「牵手」,这次要为人形机器人注入「灵魂」
机器之心· 2026-01-07 08:49
合作公告与核心目标 - 波士顿动力与谷歌DeepMind在CES 2026上宣布达成全新AI合作伙伴关系,旨在为人形机器人开启新的人工智能时代[1] - 合作计划将谷歌DeepMind的前沿Gemini Robotics AI基础模型与波士顿动力全新的Atlas人形机器人进行深度整合[6] - 合作重点在于赋能人形机器人完成多种工业任务,并有望成为制造业转型的重要推动力,首个重点应用领域是汽车行业[7] 合作背景与互补性 - 波士顿动力计划打造全球能力最强大的人形机器人,需要合作伙伴为其建立全新的视觉-语言-动作模型,而DeepMind在构建可靠、可扩展的模型方面被视为最合适的团队[9] - 波士顿动力在机器人动力学、平衡控制等方面声名远播,但在能感知、推理、学习和决策的机器人“大脑”方面是短板[9] - 谷歌DeepMind近年来在机器人AI基础模型上进展显著,其Gemini Robotics模型旨在赋予机器人感知环境、理解指令、规划行动和与人交互的能力[9] - 此次合作是强强联手:DeepMind为机器人注入“灵魂”和智能,波士顿动力则提供一流的硬件平台[10] 技术整合与行业影响 - 联合研究工作预计将在未来数月内启动,并在两家公司内部同步展开[8] - 观点认为,Gemini Robotics的基础能力与Atlas硬件相结合,代表了前沿模型与物理驱动的融合,将重新定义具身智能的扩展定律,通用智能体是合乎逻辑的结果[12] - 合作描绘了人机共存、共创未来的新纪元愿景[15][16] 历史渊源与市场期待 - 谷歌与波士顿动力并非首次交集,谷歌曾在2013年12月通过并购将波士顿动力收入麾下,但约三年半后将其出售给软银集团[14] - 此次合作被视为技术条件成熟后的回归,谷歌凭借以Gemini为代表的大模型体系重夺AI领先地位,而波士顿动力则完成了新一代Atlas机器人的形态与能力重构[14] - 市场期待看到一场“智能正面对决”,例如由Gemini驱动的Atlas机器人对阵中国阵营的宇树或优必选人形机器人[13]
曾对AI嗤之以鼻,如今2周生成7万行代码:Rust大佬与Claude联手打造新语言Rue
机器之心· 2026-01-07 08:49
文章核心观点 - 资深开发者Steve Klabnik利用AI(Claude)作为核心编程工具,在极短时间内(约两周)开发了一门名为Rue的新编程语言,代码量约70,000行[8] - 该实践表明,在软件开发领域,生成式AI已成为高效且可靠的生产力工具,能够将人类开发者的角色从具体编码(泥瓦匠)提升至顶层设计与架构(建筑师)[21] - Rust语言因其编译器的严格性,能够有效弥补AI生成代码可能存在的逻辑与安全缺陷,从而成为AI编程时代的理想搭档[17][19] 开发者心态与工具使用转变 - Steve Klabnik从AI怀疑论者转变为AI编程工具的重度使用者,2025年其编写的大部分代码实际由Claude完成[3] - 他认为AI并非让外行变成大师,而是一种类似Vim的高阶工具,其价值上限取决于使用者的软件工程原理知识[10] - 他将AI定位为代码的具体实现者,而自己则负责顶层设计、架构决策和代码审查[14] Rue编程语言的技术定位 - Rue是一门旨在探索“中间地带”的新编程语言,目标是兼顾无垃圾回收(GC)的内存安全(如Rust)与易于上手的开发体验(如Go或脚本语言)[6] - 其技术定位是做出妥协,不追求C语言级别的极致性能,愿意牺牲少量运行效率以换取更符合直觉的开发体验[6] - 项目目前处于早期阶段,是开发者的业余兴趣项目,尚无构建庞大社区或成为下一个Rust的明确计划[20] AI与Rust的协同效应 - Rust编译器以严格著称,能阻止许多在其他语言(如Python或C)中可运行但会导致崩溃的代码通过编译[13] - 这一特性恰好弥补了AI生成代码容易产生微小但致命逻辑错误(幻觉)的短板[17] - 在AI编程工作流中,Rust编译器充当了第一道严苛的质检员,只要代码通过编译,内存安全、类型匹配等一大类错误即被排除,这使得开发者能放心让AI编写数万行代码[17][19] - OpenAI联合创始人Greg Brockman的帖子也从侧面印证了Rust与AI协作的实践价值[12]
独家解读|2025年AI五大趋势与底层数据革命
机器之心· 2026-01-06 17:38
文章核心观点 - 2025年人工智能的发展重心正发生根本性转移,从追求模型规模转向构建其理解与解决复杂现实问题的能力,高质量数据成为定义AI能力的新基石[1] - 数据堂作为人工智能数据服务的前沿探索者,深度参与并支撑着这场变革的每一个关键环节[1] 趋势一:多语种TTS与全双工交互 - 语音合成技术正同时向两个深度智能化维度演进:一是为合成语音注入情感、个性与文化适配性;二是从单向反应升级为支持实时打断、重叠对话与上下文连贯的全双工自然交互[3] - 训练数据的重心正经历双重跃迁:一方面需构建服务于音色、韵律、情感和风格精细控制的“表现力语料库”;另一方面为实现全双工交互,迫切需要多通道、真实、带有自然打断与话题转换的对话语音数据[4] - 数据堂提供可直接用于模型训练的成熟数据集,包括100万小时多语种自然对话语音数据集、300万条前端文本库、2000小时多情感普通话合成数据集以及1万小时全双工多语种自然对话数据集[7] - 依托覆盖全球200+语种及方言的庞大语音资源网络与专业声优库,数据堂能够为各类定制化项目提供强大支持[7] 趋势二:多模态大模型 - 以DeepSeek-OCR模型的开源为标志性事件,揭示了多模态大模型发展的核心方向:推动AI从处理单一模态信息,迈向对图像、文本、表格、图表、GUI界面等多元信息进行统一理解、关联分析与深度推理的新阶段[9] - 训练数据必须能够刻画不同模态元素之间的复杂关联与深层语义逻辑,朝着跨模态语义对齐、深度结构化与语义图谱化的方向演进[10] - 数据堂提供覆盖多模态认知全链条的高质量数据,包括千万级OCR数据、百万级GUI界面、多领域专业文档、300万组涵盖动作、场景、建筑等的图文理解数据,以及20万组OCR问答及图像视频编辑数据[12] 趋势三:大模型的深度演进 - 当前大模型的发展呈现出两条清晰且并行的路径:一方面持续追求更强大的通用推理与复杂常识能力;另一方面驱动模型向金融、法律、生物医药等垂直领域深入,追求高度的专业精度与可靠性[14] - 高质量训练数据的需求正高度集中于金融、法律、生物医药及科学研究等知识密度高、容错率低的专业领域,核心已转变为获取能直接赋能模型专业推理与精准判断能力的关键数据资产[15] - 数据堂提供从标准化数据产品到深度定制服务的完整解决方案,包括5000万条新闻文本、3亿条STEM试题等高质量无监督数据,以及70万组指令微调与150万条安全内容等SFT指令微调数据[17] - 数据堂组建了覆盖十余个领域的超500人专家团队,已成功支持超100个大模型数据项目[17] 趋势四:具身智能 - 具身智能成为2025年焦点,旨在突破传统大模型缺乏物理交互经验、无法建立真实世界因果认知的本质缺陷[19] - 具身智能的核心在于让AI通过数据习得物理世界的因果规律,这需要严格对齐时序的高维交互数据,完整融合多视角视频、高精度力/触觉传感器流、动作指令序列及最终任务结果[20] - 数据堂提供从标准化数据集到深度定制采集的完整服务,目前已构建数亿组3D环境数据、第一人称任务视频、机器人抓取数据集等在内的完整体系[22] - 数据堂在全球布局超过20个专业采集场,单个面积最大超4000平方米,部署有包括人形机器人、机械臂、机械狗在内的70余台各品牌机器人[22] - 数据堂专业标注平台与团队能够完成从感知数据的目标检测、分割,视频分割,任务描述,COT等全类型标注任务[23] 趋势五:自动驾驶的技术范式转移 - 2025年,自动驾驶系统正经历一场深刻的技术范式变革,核心架构正从传统的“感知-规划-控制”模块化设计,向数据驱动的“端到端”一体化模型演进[25] - 新一代的VLM/VLA多模态大模型路径提出了颠覆性需求,训练数据必须实现视觉、语言与行动三者在时序上的精细对齐与深度耦合,催生了对高质量、强逻辑的标注数据的极度依赖[26] - 数据堂能够对驾驶场景同步执行端到端的精确坐标标注与粗粒度的语义说明标注,并融合场景描述、决策依据、反思过程等深度逻辑,构建“感知-决策”闭环的训练数据对[28] - 基于高效的标注工具及成熟的流程管理,数据堂具备稳定的规模化标注产能,其中车辆路线判断与行驶意图等关键任务的量产交付能力均达到每月40万组[28]
刚刚,智元提出SOP,让VLA模型在真实世界实现可扩展的在线进化
机器之心· 2026-01-06 17:38
文章核心观点 - 通用机器人需要颠覆“出厂即巅峰”的传统电子产品设定,成为能在真实部署中持续学习和进化的生命体[2][3] - 智元具身研究中心提出的SOP框架是一种颠覆性的机器人学习新范式,通过构建“多机平行现实”与“云端集中进化”的闭环,实现了机器人在真实世界中的分布式持续学习[4][6][13] - SOP框架通过在线、集群、并行的集团军作战模式,解决了传统机器人后训练离线、单机、顺序的瓶颈,让智能进化不再止步于出厂时刻[9][10][13] 行业痛点与范式转变 - 当前具身智能面临尴尬真相:基于互联网数据预训练的模型是“理论巨人”,一旦进入充满未知的物理世界,常因环境变化(分布偏移)而束手无策[2] - 传统机器人后训练是一条离线、单机、顺序的漫漫长路,导致机器人探索慢、迭代慢,且容易在学习新任务时遗忘旧能力[9] - 通用机器人的出路不应是“静态标品”,而应是能在真实部署中、在每一次失败和纠正中持续变强的生命体[3] - SOP框架改变了整个通用机器人系统的生命周期,部署不再是技术迭代的终点,而是更大规模学习的起点[43][44] SOP框架技术原理 - SOP即可扩展在线后训练,是业界首次在物理世界的后训练中深度整合在线、分布式和多任务机制[6] - 框架将VLA模型的后训练从“单机单打独斗”转变为“在线、集群、并行”的集团军作战,构建“多机平行现实→云端集中学习→模型即时回流”的超级闭环[13] - 多台机器人组成集群共享同一VLA策略,在同一时间开启多个“平行现实”,大幅拓宽真实世界中状态-动作分布的覆盖面,避开单机学习的局部瓶颈[14][17] - 系统采用Actor-Learner分离架构,通过消息队列解耦数据生产与消费,具备“零配置”的弹性水平扩展能力,新机器人可即插即用[20] - 内置动态采样器,能根据任务实时训练损失自动加大对当前薄弱环节的在线数据训练权重,实现群体智能的实时同步[23] - 通过多任务并行学习,巧妙化解了传统单机在线训练面临的灾难性遗忘矛盾,确保了VLA的通用性不会因针对某一任务的性能提升而受损[24] 实验验证与性能表现 - 实验基于智元精灵G1机器人平台进行,该机器人拥有双臂14个自由度,配备“三目”RGB视觉系统,具备执行精细微操的硬件基础[26] - 在极具挑战性的任务中(如杂货补货涉及500多种商品、叠柔软衣物、协同开冰柜门),SOP结合在线多机方案全面碾压了传统单机或离线方法[29][31] - 在叠衣服和组装纸盒的长程评估中,SOP系统实现了超过36小时的连续运行且无性能衰减[34] - 在叠衣服任务中,SOP将系统吞吐量直接翻倍,从每小时21件提升至45件[34] - 扩展性实验显示清晰的Scaling Law:随着分布式集群规模扩大,模型性能呈近乎线性增长[35] - 在3小时总训练时长限制下,四机并行学习的最终成功率达到92.5%,比单机提升12个百分点[36][37] - 要达到80%性能基准线,单机需174分钟,四机仅需72分钟,训练速度达到原来的2.4倍[36][37] - 训练成本优势显著:当预训练数据从80小时增至160小时,仅带来4%的性能提升;而SOP仅用3小时在轨经验,就换来了约30%的性能提升[41] - 最终性能上限仍被预训练模型的初始规模所锚定,在线学习是既有知识的超级优化器,而非大规模预训练的完全替代品[41] 产业影响与未来展望 - SOP范式转变意味着机器人可以带着尚不完美的初始模型上线,极大地降低了产业落地门槛[44] - 部署就是通往完美之路,机器人的每一次任务执行、每一次失败后的纠正都能转化为宝贵的训练数据[44] - 随着更多机器人走入真实世界,分布式集群规模将呈指数级增长,将见证前所未有的群体智能增长速度[45] - SOP让众多机器人的经验共同驱动智能快速成长,是通用机器人走向大规模真实世界部署的关键一步[47]
别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?
机器之心· 2026-01-06 17:38
空间智能研究现状与隐忧 - 2025年,随着“空间智能”成为大模型竞逐的新高地,通用大模型和专家模型在室内空间推理基准上不断刷新SOTA [2] - 然而,模型训练数据(如ScanNet++、ARKitScenes)与测试基准高度同源,存在数据“近亲繁殖”的隐忧,近期模型分数的飙升可能并非真正习得空间几何推理能力,而是对特定室内数据分布的过拟合 [2] 现有研究的数据局限 - 当前空间智能研究大多过度依赖室内场景,这受限于源数据集的匮乏 [4][5] - 少数可用的室外数据集多基于自动驾驶视角,与第一人称行人视角存在本质差异 [5] - 对室内数据的过度依赖导致训练集与测试集高度同源,且室内场景过强的语义先验难以公平评估模型的空间感知和推理能力 [6] 新基准OSI-Bench的推出 - 为解决上述问题,中国科学院大学机器学习与感知实验室联合微软亚洲研究院及苏黎世联邦理工大学发布了全新空间智能基准OSI-Bench [2] - 该基准基于自采开放世界中带有准确3D标注的视频数据,旨在提供对空间智能的真正诊断能力 [2] - OSI-Bench摒弃从现有数据集二次提取的路径,完全基于多传感器平台采集的原始视频流,数据自带精确3D信息,覆盖公园、步行街、古建筑、校园等丰富多样的开放世界场景 [11] OSI-Bench的核心优势与任务设计 - 室外开放世界的核心优势在于其复杂性与随机性,语义先验变得微弱,迫使模型回归到真正的视觉空间推理,从而评估其真实空间能力 [9] - 通过Human-in-the-loop流程,从20小时的视频素材中生成约9000条高质量问答,涵盖9种任务 [12] - 任务被系统性地划分为空间智能的三个层级:相对关系(针对空间位置的定性判断)、静态尺度(针对静态空间物理量的定量估算)、动态尺度(引入时间维度的动态物理量估计) [12][14] 主流模型在OSI-Bench上的评测结果 - 评测结果表明,当下的开源与闭源SOTA多模态大语言模型在OSI-Bench的任务上普遍失败 [13] - 尽管Gemini-2.5-Pro在一众模型中取得相对显著优势,但其整体表现仍远低于人类水平 [15] - 人类在评测中的平均得分(Rank Avg)为66.8,而表现最佳的闭源模型Gemini-2.5-Pro得分为53.1,开源模型InternVL3.5-38B得分为31.4 [15] 模型能力提升的“虚假繁荣” - 研究聚焦于2025年发布新版本并在室内基准VSI-Bench上取得巨大提升的两个模型家族:Qwen-VL与InternVL系列 [16] - 这两个系列在加入更多空间数据训练后,其同尺寸新旧版本在VSI-Bench上的得分显著上升了约24.1分,性能几乎翻倍,但这种惊人的增长并未出现在OSI-Bench上 [16] - 在绝对距离任务上,更新后的各尺寸模型在VSI-Bench上一致涨点,却在OSI-Bench上一致退步,由于两个基准的提问模版完全相同,这直接证明模型在室内基准上的提升是对特定场景分布的过拟合,而非习得可泛化的空间智能 [16] 模型依赖语言先验的“捷径” - 当面对空间任务时,模型倾向于走“捷径”,即利用语言先验知识基于平均值进行猜测,而非进行费力的视觉几何推理 [19] - 盲测实验结果显示,模型在有/无视觉输入的情况下的得分差距极小,表明视觉输入并未被有效用于推理 [22] - 在包含“反常场景”(物体尺寸被特意调整至违背常理)的合成数据测试中,当语言先验失效时,模型的性能出现了断崖式下跌,而人类的空间判断力并未受太大影响 [23] 研究总结与行业影响 - OSI-Bench暴露了现有大模型在空间智能层面与实际应用需求之间的巨大鸿沟,并对当前模型是否真正具备可泛化的空间能力提出了质疑 [26] - 研究呼唤一种全新的空间智能范式,需要真正赋予模型在空间中感知、在空间中思考的工具与能力,而非仅仅依赖数据驱动的分布拟合 [27] - OSI-Bench的基准与评测代码已全部开源,未来将持续开源更多带有高精度3D信息的开放世界视频数据,以推动空间智能从室内场景走向复杂的开放世界 [28]
开源1万小时具身智能数据,这家公司是为了什么?
机器之心· 2026-01-06 17:38
文章核心观点 - 简智机器人开源了名为“10Kh RealOmni-Open DataSet”的具身智能数据集,其规模超过1万小时、接近百万clips,是行业最大规模、泛化程度最高的开源数据集合,旨在通过数据共享加速整个具身智能行业的发展 [1] 数据集概况与规模 - 数据集总体规模超过1万小时,接近百万clips,体量已超越许多具身公司自身储备的数据 [1] - 数据集聚焦10个常见家庭任务,每项技能都有超过1万Clips的数据覆盖,是单个技能数据量行业最多的集合 [4] - 数据存储总容量为95 TB [5] - 数据集中99.2%为双手、长程任务,平均clips长度为1分37秒(210.0秒) [5] 数据质量与特性 - 数据采集画面分辨率为1600*1296,帧率为30fps,使用大视场角鱼眼相机,保证全方位录制环境与操作细节 [4][5] - 通过高精度IMU硬件和云端重建,将操作轨迹精度提升至亚厘米级别(轨迹真值误差小于1cm),远超行业常见的厘米级精度 [4][13] - 数据模态丰富,包含夹爪开合角度、位移等信息,并具备触觉阵列空间数据(分辨率1毫米) [4][5] - 数据来自3000个真实家庭规模采集,场景、目标和人员操作自然多样,弥补了传统“数采工厂”方案过于单一的问题 [7] 数据生产链条与方法论 - 公司构建了从采集设备到云端平台,再到数据二次迭代的完整闭环数据生产链条 [9] - **采集设备 (Gen DAS Gripper)**:全栈自研ISP图像处理与CMOS传感器,保证图像高质量;易于快速部署,无需场地布置;基于车规级IMU实现双手设备同步,异构数据时间误差小于1ms;具备超强压缩能力,将数据体积压缩至原大小的2%,并支持分钟级快速上传 [11][12][13] - **中枢数据平台 (Gen Matrix)**:具备高精度轨迹还原与环境重建能力(轨迹真值误差小于1cm);能对分散设备数据进行同步与清洗;具备自动化标注、切片等高并发处理能力 [13] - **自动化数据产线 (Gen ADP)**:将标注、加工流程自动化,可在2小时内完成从采集到处理的全过程,实现数据规模化、自动化生产 [13] - 凭借该数据生产体系,公司在2个月内积累了近百万小时规模的数据,且数据量每天以接近万小时规模增长 [9][13] 开源动机与行业影响 - 开源大规模高质量数据能快速填补数据鸿沟、统一技术标准、降低研发门槛、推动生态协同与自主可控,加速具身智能从实验室走向规模化落地 [16] - 公司后续计划继续加强数据基建,推出更多有益于行业的数据与服务,旨在形成“数据共享 — 模型优化 — 场景落地 — 数据反哺”的正向循环 [16]
黄仁勋CES放出大杀器:下一代Rubin架构推理成本降10倍
机器之心· 2026-01-06 08:31
文章核心观点 - 英伟达在CES 2026上发布了下一代全栈AI技术平台,旨在引领计算行业革新,其核心包括全新的Rubin AI超级计算平台、面向自动驾驶的开源视觉-语言-动作模型Alpamayo 1,以及针对物理人工智能(机器人)的全套开源模型与框架 [1][5][33] 下一代AI超级计算平台:Rubin - 推出全新NVIDIA Rubin平台,包含六款协同设计的芯片:Vera CPU、Rubin GPU、NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU和Spectrum-6 Ethernet Switch,目标是构建成本、性能与安全性全面领先的AI超级计算机 [8] - Rubin平台引入五项创新,包括第六代NVLink、Transformer引擎、机密计算、RAS引擎和Vera CPU,其每Token推理成本比前代Blackwell平台低高达10倍,训练MoE模型所需的GPU数量减少4倍 [13] - 平台提供两种主要形态:Vera Rubin NVL72机架级解决方案(集成72个Rubin GPU和36个Vera CPU)和HGX Rubin NVL8服务器主板(通过NVLink连接8个Rubin GPU)[18] - 第六代NVLink每个GPU提供3.6TB/s带宽,Vera Rubin NVL72机架总带宽高达260TB/s;Rubin GPU为AI推理提供50 petaflops的NVFP4计算能力;机架模块化设计使组装维护速度比Blackwell快高达18倍 [17] - Rubin平台已全面投产,基于该平台的产品将于2026年下半年通过合作伙伴上市;首批云服务提供商包括AWS、Google Cloud、微软、OCI及CoreWeave等;服务器合作伙伴包括思科、戴尔、HPE等;Anthropic、Meta、OpenAI等AI实验室计划利用该平台 [19][20] 面向自动驾驶的开源模型与生态:Alpamayo - 发布NVIDIA Alpamayo系列开源AI模型、仿真工具及数据集,旨在加速下一代基于推理的L4级自动驾驶汽车开发 [21][23] - Alpamayo 1是全球首个面向自动驾驶的开源大规模推理视觉语言动作模型,拥有100亿参数,通过视频输入生成行驶轨迹及展示决策逻辑的推理痕迹 [30] - 该模型并非直接车端运行,而是作为“教师模型”供开发者微调和蒸馏,以融入其自动驾驶技术栈;模型权重和推理脚本已开源 [30][31] - 配套开源工具包括:完全开源的端到端高保真仿真框架AlpaSim,以及超过1700小时驾驶数据的物理AI开源数据集,涵盖广泛地域和稀有复杂场景 [31] - 该生态已获得行业支持,包括Lucid、捷豹路虎、Uber等出行领军者;英伟达演示了奔驰新款CLA在旧金山的全自动驾驶,并提及吉利和小米等国内厂商将接入其智能驾驶模型 [32] 物理人工智能与机器人开源生态 - 推出针对物理人工智能的全新开源模型、框架及AI基础设施,旨在加速机器人开发全生命周期,推动构建能快速学习多项任务的通用型专家机器人 [35][36] - 发布多款开源模型,包括:世界模型Cosmos Transfer 2.5与Predict 2.5、推理视觉语言模型Cosmos Reason 2、以及专为人形机器人设计的推理视觉语言动作模型Isaac GR00T N1.6 [40][41] - 发布全新开源框架以简化机器人开发流程:Isaac Lab-Arena框架用于模拟环境中大规模机器人策略评估和基准测试;云原生编排框架OSMO用于统一管理从合成数据生成到测试的工作流 [43][45] - 与Hugging Face合作,将Isaac和GR00T技术集成到LeRobot开源机器人框架中,连接英伟达的200万机器人开发者与Hugging Face的1300万AI构建者 [48] - 多家人形机器人开发商已采用NVIDIA Jetson Thor机器人计算机,包括NEURA Robotics、Richtech Robotics、逐际动力、LG电子、波士顿动力等,以增强机器人导航和操作能力 [50][51]
检索做大,生成做轻:CMU团队系统评测RAG的语料与模型权衡
机器之心· 2026-01-06 08:31
文章核心观点 - 卡内基梅隆大学的研究表明,在检索增强生成系统中,扩大检索语料规模可以有效提升系统性能,并且可以在一定程度上替代扩大生成模型参数所带来的收益,为在有限算力下提升RAG系统提供了更具性价比的路径[4][22] - 研究揭示了语料扩容带来的性能提升主要源于提高了答案证据被检索到的覆盖率,而非显著增强了模型利用证据的能力[15][19] - 研究指出,语料扩容的收益存在边际递减现象,尤其是在语料规模达到较高水平后,继续无上限扩容并不划算,需要结合成本进行精细的预算分配[4][13] 实验设计与方法 - 研究采用全因子设计,严格控制变量,仅让检索语料规模和生成模型规模变化,其余设置保持一致[8] - 检索语料使用ClueWeb22-A英文子集,总计包含约2.64亿真实网页文档,并随机均衡切分为12个分片,通过激活不同数量的分片来控制语料规模[9] - 生成端选用Qwen3模型家族的不同尺寸,覆盖从0.6B到14B的参数规模,并在三个开放域问答基准上进行评测[9] 关键发现:语料规模与模型规模的替代关系 - 实验结果显示明确的补偿效应:通过扩大检索语料,较小规模的模型可以达到甚至超过更大模型在较小语料下的表现[10] - 研究定义了“补偿阈值”,即小模型需要多少倍语料才能追平大模型在1个分片下的成绩。例如,在Natural Questions数据集上,0.6B模型需要约5倍语料才能追平1.7B模型在1个分片下的表现[11][12] - 这种追平趋势在TriviaQA与WebQuestions数据集上同样存在,表明语料扩容在多数设置下都能将性能缺口缩小一个甚至两个模型档位[12] 性能增长形态与工程启示 - 性能提升曲线呈现共同规律:从无检索到有检索的第一步带来最显著的提升,随后收益逐步下降,并在约5到6倍语料规模附近出现饱和趋势[13] - 对于工程实践,这意味着检索能力的从无到有带来最大增益,但在较高语料规模处继续无上限扩容的性价比不高[13] - 当推理资源受限时,优先考虑扩大检索语料与提升覆盖率,常常能让中等规模生成模型达到接近更大模型的表现[20] 性能提升的机制解释 - 语料扩容提升性能的核心机制是提高了检索到包含标准答案字符串的证据片段的概率,即提高了“黄金答案覆盖率”[16] - 研究定义了“上下文受益成功率”和“利用率”指标,实验显示,不同模型将可用证据转化为正确答案的效率整体相近且在不同语料规模下保持稳定[19] - 因此,语料扩容带来的关键收益主要体现在提高含答案证据进入上下文的概率,而非显著提升模型对既有上下文的利用能力[19][22]
空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没
机器之心· 2026-01-05 16:54
多模态大语言模型空间智能评测基准MMSI-Video-Bench的发布 - 上海人工智能实验室InternRobotics团队联合多所高校推出全新空间智能视频基准MMSI-Video-Bench,旨在全面检验多模态大模型在真实世界中的空间理解与推理能力 [2] - 该基准旨在解决现有评测体系的两类问题:依赖模板生成导致问题多样性不足,以及仅聚焦单一任务与受限场景,难以全面评估模型能力 [2] - 空间理解能力被视为多模态大语言模型走向真实物理世界、成为“通用型智能助手”的关键基础 [2] 基准的核心特点与设计 - **全面系统的题型设计**:基准构建了覆盖感知、推理与决策全过程的空间智能评测体系 [7] - 基础空间感知能力考察:包括**空间构建**(理解全局空间布局、实体与场景状态属性、两两空间位置关系)和**运动理解**(感知长时运动过程,包括实体、相机及交互运动)[6][8] - 高层决策能力考察:包括基于视频信息的**规划能力**和对未来状态的**预测想象能力**[6][8] - 扩展任务范畴:考察**跨视频推理能力**,包含跨时间的记忆更新能力和多视角信息整合能力,以覆盖现实中的复杂情形 [6] - **极具挑战性的问题设计**:所有问题由11位平均研究年限超过2.5年的3D视觉研究员精细设计,确保清晰准确且具有高挑战性 [10] - 所有受测模型表现均吃力,表现最好的Gemini 3 Pro准确率仅为**38%**[10] - 该基准创造了目前最高的**人类-AI性能差距**,约**60%**(人类水平为**96.4%**)[10][14] - **丰富多样的视频数据来源**:视频数据来源于**25个公开数据集**及**1个自建数据集**,涵盖机器人操作、室内外场景、自然风光、体育活动及电影片段等多种类型 [11] - **特定领域针对性测评**:得益于场景与任务的全面性,基准可划分出**室内场景感知**、**机器人**、**定位**三大子基准,用于针对性测评模型特定能力 [12] 主流模型评测结果与能力瓶颈分析 - **整体成绩单**:研究团队评测了**25个主流多模态模型**,整体得分普遍偏低 [14] - 表现最优的模型为Gemini 3 Pro,准确率为**38.0%**,与人类水平(**96.4%**)存在接近**60%**的显著差距 [14] - 开源模型中,QwenVL2.5-72B在“Sufficient-Coverage”设置下平均得分为**31.8%**,InternVL2.5-8B为**28.7%**[16] - **核心能力短板**:实验结果不仅证实了模型在**空间构建能力**上的不足,更全面揭示了在**运动理解、规划、预测以及跨视频推理**等能力上的明显瓶颈 [14] - **预测**是所有任务类型中挑战性最高的主任务 [15] - **相机-实体之间的空间关系建模**是难度最高的细分类别 [15] - 即便是经过专门空间任务微调的模型,其能力也未能有效泛化到该基准 [15] - **错误类型分析**:研究团队将模型错误归纳为五大类型,以定位性能受限的关键原因 [17] 1. **细致定位错误**:精细视觉感知失效,如目标遗漏混淆或时间点-事件对应关系错误 [17] 2. **ID匹配错误**:跨帧过程中难以保持一致的实体身份跟踪 [17] 3. **潜在逻辑推断错误**:在需要依赖隐含线索或常识知识的推理任务中失败 [17] 4. **提示输入对齐错误**:未能将提示信息与视频信息正确结合进行推理 [17] 5. **几何推理错误**:在空间几何关系理解上存在偏差,对相对位置或距离关系判断错误 [17] - **关键瓶颈定位**:对代表性模型的错误分析表明,**几何推理错误是最为普遍、影响最大的错误类型**[19] - **空间构建任务**的低表现主要源于几何推理能力不足 [19] - **运动理解任务**中,模型难以在快速、细微或长时间跨度的运动中保持精确定位 [21] - **规划与预测任务**中,模型除几何推理错误外,还往往无法有效理解提示输入并将其与视频信息进行联合推理 [21] - **跨视频推理任务**的失败主要源于多目标跨视频定位的复杂性,以及模型难以利用潜在线索完成推理 [21] 辅助方法尝试与未来研究方向 - **辅助方法效果有限**:研究尝试引入**3D空间线索**(通过3D重建模型生成全局图像作为额外输入)以及采用**思维链**技术引导规范推理,但均未能带来显著的性能提升 [22][24][27] - **揭示的关键事实**:上述结果揭示了两个关键事实 [27] - 如何设计模型真正“可理解、可利用”的空间线索,仍是一个开放且极具挑战性的问题 [27] - 当前模型的失败并非由于缺乏显式推理步骤,而是受限于**底层推理能力本身仍然不足**[27] - **基准价值与意义**:MMSI-Video-Bench是一个高质量、高挑战性且系统全面的评测基准,其评测结果清晰揭示了当前模型与人类表现的显著差距,明确了模型的关键能力瓶颈,并为未来空间智能模型的技术演进指明了研究方向 [26]