机器之心
搜索文档
多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案
机器之心· 2026-01-07 15:10
文章核心观点 - 研究团队提出了一种全新的生成式多模态推理范式,并发布了模型DiffThinker,该模型将推理过程重构为图像到图像的生成任务,在视觉空间中直接生成推理路径,从而在复杂的长程、视觉中心任务上实现了对现有顶尖多模态大模型的性能碾压 [2][3][24] 从「以文思考」到「以图思考」 - 传统多模态大模型依赖文本思维链进行推理,难以精确追踪视觉信息的变化,在处理长程任务时容易“看走眼” [2][9] - 近期的“Thinking with Image”范式虽能操作图像,但难以扩展到复杂长程任务,且多轮交互开销巨大 [3] - DiffThinker的核心理念是让推理回归视觉空间,基于Qwen-Image-Edit,配合Flow Matching训练,直接生成图像答案 [11] DiffThinker的四大核心特性 - **高效推理**:相比于多模态大模型动辄生成数千个Token的长思维链,DiffThinker在训练和推理效率上均表现出色,且准确率更高 [15] - **可控推理**:通过固定步数的欧拉求解器,能够以确定的计算预算完成推理,避免了多模态大模型输出长度不可预测、可能陷入死循环的问题 [17] - **原生并行推理**:扩散模型的优势使其能在视觉空间中同时探索多条潜在路径,并随着去噪过程逐步收敛到最优解,实现“边画边推理” [17] - **协同推理**:可与多模态大模型合作,由DiffThinker生成多个候选视觉解,再由多模态大模型进行逻辑验证,实验显示这种组合实现了“1+1>2”的性能超越 [18] 实验结果:碾压级的性能 - 研究团队在四个领域(序列规划、组合优化、约束满足、空间配置)的七大任务上进行了系统评测 [20][23] - DiffThinker在所有任务上的平均得分高达87.4,显著优于顶尖闭源模型:GPT-5(21.1)和Gemini-3-Flash(41.3)[20] - DiffThinker也大幅超越了经过相同数据微调的开源基线模型Qwen3-VL-32B(62.9)[20] - 具体性能提升表现为:相比GPT-5提升+314.2%,相比Gemini-3-Flash提升+111.6%,相比Qwen3-VL-32B基线提升+39.0% [3] 视频生成 vs 图像生成 - 团队开发了DiffThinker-Video版本,但实验发现其在推理准确率上反而不如图像生成模型,且推理时间增加了近一倍(从1.1秒增加到2.0秒)[22] - 这表明在当前算力与模型架构下,“以图思考”仍是比“以视频思考”更高效的路径 [22]
大模型最难的AI Infra,用Vibe Coding搞定
机器之心· 2026-01-07 13:16
文章核心观点 - 传统的“氛围编程”(Vibe Coding)在应对AI基础设施(AI Infra)等复杂系统开发时,存在上下文丢失、决策偏离和质量不稳定三大痛点,根源在于缺乏持久化、结构化的决策管理机制[3][4] - 为解决上述问题,文章提出并实践了“文档驱动的氛围编程”新范式,通过系统化的设计文档将关键决策前置、结构化和持久化,使开发者专注于高层设计,AI负责实现细节,从而高效、高质量地完成复杂系统开发[5][6][7] - 该新范式在阿里巴巴团队开发的、面向Agentic RL的GPU资源调度系统(一个数万行代码的分布式训练系统)中成功应用,通过“时分复用”方案解决了GPU利用率挑战,并在生产级集群上验证了其显著性能提升[9][14][45] AI编程范式演进与挑战 - “氛围编程”(Vibe Coding)因其“聊一聊就能生成代码”的体验,在简单任务上提升了开发效率,成为开发者新宠[2] - 但在AI Infra等复杂系统(动辄数万行代码、成百上千个相互关联的决策点)开发中,传统氛围编程面临三大困境:1) 上下文丢失:对话历史被压缩,关键设计决策在多轮交互中被遗忘;2) 决策偏离:AI自主做出的技术决策容易偏离开发者意图;3) 质量不稳定:相同需求在不同时间可能得到截然不同的实现方案[3][4] - 这些问题的根源在于当前对话式编程缺乏对复杂决策进行持久化、结构化管理的机制[4] 文档驱动的氛围编程方法论 - 核心理念是将复杂系统的关键决策前置到设计阶段,通过结构化设计文档体系化、持久化地记录所有决策点,让开发有章可循,大幅降低复杂度门槛[5][6] - 设计文档作为关键工具,实现了开发者与AI在关键决策上的对齐,直接解决了传统氛围编程的三大痛点:持久化文档消除上下文丢失,明确决策避免AI偏离意图,规范和代码逻辑确保质量稳定[24] - 该方法带来了工作方式的根本转变:开发者从编码、调试等执行层面,转向与AI讨论设计、通过文档明确决策直至完全对齐,然后由AI负责实现[24] - 与传统开发和单纯氛围编程相比,文档化氛围编程在理解架构、设计方案、编码效率与质量、团队协作等方面展现出综合优势[26] 方法论实施:组织、审阅与分步开发 - **内容组织**:设计文档需系统性地跟进自顶向下的决策点,并层次化拆解,形成决策体系。文档模板需包含迭代版本记录和代码实施进度[31][32] - **审阅修改**:建立了系统化的多轮迭代审阅流程以确保文档质量。利用工具(如iFlow CLI)将常见审阅场景的指令固化为Prompt模板,以应对理解困难、修改一致性、内容爆炸、AI过度设计、逻辑错误隐蔽性等挑战[28][33][35] - **分步实施**:实施分为两个阶段:1) 规划阶段:将设计拆解为依赖有序的小步骤(通常每步包含3-5个相互关联的方法),并绘制依赖图;2) 增量开发循环:AI按步骤读取设计并生成代码,开发者审查后提交,循环直至完成[36][37][39] 防御性编程与系统健壮性 - 在分布式AI训练等复杂系统中,微小的错误可能引发级联故障,而AI编程倾向于主动进行错误处理,有时反而会掩盖真实错误信息[40] - 新范式将防御性思维前置到设计阶段:在关键节点设置验证点,构建标准化的错误处理模式库,并利用AI自动生成健壮的防御代码[40] - 具体措施包括:1) 维护统一的验证模式库(如检查整数范围、出口条件检查等),遵循单一定义、多处复用原则;2) 在设计文档中用标准化注释标注验证需求;3) AI实施时自动将标注展开为具体验证逻辑;4) 对于超过10行的复杂验证,定义独立的验证函数[41][42][44] 应用案例:Agentic RL的GPU资源调度优化 - **业务挑战**:在Agentic RL采样过程中,智能体执行任务的时间呈长尾分布,导致经典的“落后者效应”,即必须等待最慢的样本完成,造成GPU资源闲置和浪费,成为性能瓶颈[12] - **方案对比**:业界主流方案存在缺陷:1) 共置方案:rollout和training严格串行,阶段内和阶段间均存在资源闲置;2) 异步分离方案:静态分配rollout和training专用GPU,引入“双边空泡”问题,即两侧GPU都可能出现闲置[13] - **创新方案**:提出“时分复用”方案,其核心是基于rollout对GPU资源需求动态波动的洞察,设计智能资源调度机制:在采样需求低谷期分配部分GPU执行训练任务,实现需求波动与资源调度的匹配[14] - **技术实现**:采用两阶段流程:1) 全力采样阶段:所有GPU协同处理大多数样本;2) 并行执行阶段:当采样完成度达标后,系统缩容,释放固定GPU转入训练模式,同时长尾样本迁移至剩余GPU继续处理。训练完成后立即扩容,回收所有GPU准备下一轮采样[14] - **方案价值**:该策略将训练的快速执行特性与rollout需求波动在时间维度巧妙匹配,提升了整体GPU资源利用效率,但显著增加了系统复杂度[15][18] 方案性能验证与结果 - **实验配置**:在生产级大规模集群(160卡GPU)上验证,使用Qwen3-235B-A22B模型(235B参数),设置最大交互轮数100轮,最大token长度64K,batch size为512[46] - **性能对比**:与采用128卡training、32卡rollout静态分配的baseline(异步分离方案)相比,采用动态调度的时分复用方案使rollout吞吐率提升了3.5倍[47] - **任务完成率**:Baseline方案因rollout资源受限(仅32卡),采样速度慢,导致大量任务触发超时限制。时分复用方案通过动态释放更多GPU用于rollout,显著加快采样速度,完全避免了超时,提升了训练稳定性和样本利用效率[50] - **系统开销**:分析表明,时分复用方案引入的额外参数同步开销(在160卡间进行)在整体训练时间中占比极小。缩容操作(释放rollout模型参数)的实测开销在秒级,未成为性能瓶颈[53][55]
OpenAI前CTO首个创业产品Tinker,这里全量升级开放了,还有羊毛可薅
机器之心· 2026-01-07 13:16
行业趋势:从预训练到后训练的范式转移 - 大模型能力突破的核心战场正从预训练转向后训练,特别是强化学习[3] - 强化学习能以低数据量实现模型能力的大幅跃升,例如DeepSeek‑R1仅通过RL训练,在AIME数学推理基准上的pass@1从15.6%提升至77.9%[3] - 行业正经历从“作坊式炼丹”到“工业化微调”的升级[1] 核心技术创新:算法与基础设施解耦 - OpenAI前CTO创立的Thinking Machines Lab推出的Tinker,将大模型训练抽象为forward、backward、optimizer step等一系列基本原语[1] - 该创新分离了算法设计与分布式训练基础设施的关联,把训练大模型变成了简单的“函数调用”[1] - 潞晨云微调SDK基于Tinker SDK构建,实现了算法设计与基础设施的解耦,开发者只需定义数据与Loss函数,底层复杂工程由平台全托管[4] 产品核心功能与优势 - 提供从监督微调到强化学习的全链路训练原语,包括Forward & Backward、Optimizer Step、Sample (Rollout)、Save State[6] - 开发者可在本地Jupyter Notebook或IDE中,使用标准Python语法像搭积木一样自由组合训练逻辑[8] - 采用控制面与计算面分离设计,通过统一API Server管理跨地域GPU集群,支持多云部署[10] - 基于Future模式的异步API支持非阻塞调用,用户无需等待GPU计算完成即可执行后续逻辑[10] - 具备智能队列系统,资源洪峰期任务进入持久化队列,等待期间0计费,仅对实际计算Token收费[12] 颠覆性商业模式:按Token计费 - 引入Serverless架构,推行“按Token计费”模式,颠覆传统云主机的“包机/时租”模式[13][15] - 用户只需为Prefill、Sample和Train产生的有效计算Tokens量付费,其他如本地调试、环境配置、数据预处理等环节全部免费[18] - 提供了具体模型的计价示例,例如Qwen3-4B模型的Prefill价格为¥0.42/百万Token,Sample和Train价格为¥1.4/百万Token[17] - 该模式大幅降低了实验成本,实测跑通一个包含Rollout采样、Reward评分和PPO更新的完整RL流程,总算力成本仅8.61元[18] 提升人力效能与工作流变革 - 将原本需要运维、Infra、平台和算法工程师紧密配合的庞大团队,简化为一个算法工程师的独立闭环,带来颠覆性的人力效能比提升[5][8] - 为科研场景降低实验复现成本,研究人员可进行“白盒级”探索,无需关心底层分布式实现[19] - 助力创业与独立开发极速验证MVP,从pip install到跑通一个包含1000条样本的微调实验仅需数分钟,实现低成本试错[20] - 支持金融、医疗等垂直领域的工业级落地,允许工程师自由定义Loss逻辑与强化学习奖励函数,实现端到端定制[21] 产品易用性与生态 - 使用极简,仅需三步:安装SDK、初始化客户端、定义训练循环并运行[23] - 目前已支持Qwen3系列模型,包括4B、8B、14B、32B[23] - 平台提供开箱即用的HPC-AI Cookbook,包含DeepSeek-R1 GRPO算法、基于Verifier的数学推理等复杂RL场景的完整代码实现,开发者可复制“配方”快速启动[24] - 前150名注册用户可获得30元Token使用额度进行体验[5][28]
注意力机制大变革?Bengio团队找到了一种超越Transformer的硬件对齐方案
机器之心· 2026-01-07 13:16
文章核心观点 - 一篇学术研究提出了一种名为“滑动窗口循环”的新方法,通过硬件对齐的矩阵运算来优化线性递归模型,旨在解决大语言模型在处理长序列时面临的“内存墙”和计算效率问题,并在实验中展现出显著的训练速度与模型质量提升 [1][31][32] 研究背景与挑战 - Transformer模型虽占主导,但线性递归或状态空间模型等竞争者旨在提升计算性能和效率 [1] - 现有线性递归方法在GPU上的实际表现受限于内存带宽和全局同步带来的高昂通信成本,未能充分发挥硬件潜力 [1][4][6] - 数据移动导致的瓶颈是长文本大模型训练和推理中亟待解决的“内存墙”问题 [7] 核心解决方案:滑动窗口循环与B2P算法 - 研究核心是提出了“滑动窗口循环”(SWR),通过策略性截断计算视界来换取高吞吐量,其锯齿状窗口结构能自然对齐硬件工作负载 [11] - 开发了“块两步”(B2P)算法及对应的CUDA内核,将计算分为两个阶段:线程束并行处理本地块,再利用共享内存在相邻块间传递状态并进行低秩补偿 [14][15] - 该设计确保输入数据只需从显存读取一次,中间通信发生在芯片内部,实现了接近恒定的O(1)算法深度和极佳的硬件利用率 [15] Phalanx层设计与性能 - 基于B2P算法设计了名为Phalanx的新型计算层,可作为滑动窗口注意力或线性递归层的替代品 [20] - Phalanx层参数化极简,通过Sigmoid函数保证递归系数在稳定区间内,并采用基于头的参数共享模式,与Tensor Core的计算模型契合 [20][22] - 在1.3B参数模型的测试中,Phalanx+Attention混合模型在4K到32K上下文长度间,实现了10%到40%的端到端训练提速 [23][24] - 在模型精度上,Phalanx在1:1混合比下达到10.85的困惑度,优于Transformer++基准的10.95 [25][26] - 在8K上下文训练中,Phalanx混合模型比传统的SWA/Attention混合架构快28%,在短序列下也比纯注意力模型提升10%的训练吞吐量 [28] 行业意义 - 该研究为下一代长文本模型架构指明方向:真正的效率提升源于对底层计算硬件物理特性的深刻理解与对齐,而不仅仅是算法复杂度降低 [31] - 随着LLM向超大规模上下文演进,这种硬件感知的算子设计将成为构建更强大AI系统的核心基石 [33]
近十年后谷歌与波士顿动力再「牵手」,这次要为人形机器人注入「灵魂」
机器之心· 2026-01-07 08:49
合作公告与核心目标 - 波士顿动力与谷歌DeepMind在CES 2026上宣布达成全新AI合作伙伴关系,旨在为人形机器人开启新的人工智能时代[1] - 合作计划将谷歌DeepMind的前沿Gemini Robotics AI基础模型与波士顿动力全新的Atlas人形机器人进行深度整合[6] - 合作重点在于赋能人形机器人完成多种工业任务,并有望成为制造业转型的重要推动力,首个重点应用领域是汽车行业[7] 合作背景与互补性 - 波士顿动力计划打造全球能力最强大的人形机器人,需要合作伙伴为其建立全新的视觉-语言-动作模型,而DeepMind在构建可靠、可扩展的模型方面被视为最合适的团队[9] - 波士顿动力在机器人动力学、平衡控制等方面声名远播,但在能感知、推理、学习和决策的机器人“大脑”方面是短板[9] - 谷歌DeepMind近年来在机器人AI基础模型上进展显著,其Gemini Robotics模型旨在赋予机器人感知环境、理解指令、规划行动和与人交互的能力[9] - 此次合作是强强联手:DeepMind为机器人注入“灵魂”和智能,波士顿动力则提供一流的硬件平台[10] 技术整合与行业影响 - 联合研究工作预计将在未来数月内启动,并在两家公司内部同步展开[8] - 观点认为,Gemini Robotics的基础能力与Atlas硬件相结合,代表了前沿模型与物理驱动的融合,将重新定义具身智能的扩展定律,通用智能体是合乎逻辑的结果[12] - 合作描绘了人机共存、共创未来的新纪元愿景[15][16] 历史渊源与市场期待 - 谷歌与波士顿动力并非首次交集,谷歌曾在2013年12月通过并购将波士顿动力收入麾下,但约三年半后将其出售给软银集团[14] - 此次合作被视为技术条件成熟后的回归,谷歌凭借以Gemini为代表的大模型体系重夺AI领先地位,而波士顿动力则完成了新一代Atlas机器人的形态与能力重构[14] - 市场期待看到一场“智能正面对决”,例如由Gemini驱动的Atlas机器人对阵中国阵营的宇树或优必选人形机器人[13]
曾对AI嗤之以鼻,如今2周生成7万行代码:Rust大佬与Claude联手打造新语言Rue
机器之心· 2026-01-07 08:49
文章核心观点 - 资深开发者Steve Klabnik利用AI(Claude)作为核心编程工具,在极短时间内(约两周)开发了一门名为Rue的新编程语言,代码量约70,000行[8] - 该实践表明,在软件开发领域,生成式AI已成为高效且可靠的生产力工具,能够将人类开发者的角色从具体编码(泥瓦匠)提升至顶层设计与架构(建筑师)[21] - Rust语言因其编译器的严格性,能够有效弥补AI生成代码可能存在的逻辑与安全缺陷,从而成为AI编程时代的理想搭档[17][19] 开发者心态与工具使用转变 - Steve Klabnik从AI怀疑论者转变为AI编程工具的重度使用者,2025年其编写的大部分代码实际由Claude完成[3] - 他认为AI并非让外行变成大师,而是一种类似Vim的高阶工具,其价值上限取决于使用者的软件工程原理知识[10] - 他将AI定位为代码的具体实现者,而自己则负责顶层设计、架构决策和代码审查[14] Rue编程语言的技术定位 - Rue是一门旨在探索“中间地带”的新编程语言,目标是兼顾无垃圾回收(GC)的内存安全(如Rust)与易于上手的开发体验(如Go或脚本语言)[6] - 其技术定位是做出妥协,不追求C语言级别的极致性能,愿意牺牲少量运行效率以换取更符合直觉的开发体验[6] - 项目目前处于早期阶段,是开发者的业余兴趣项目,尚无构建庞大社区或成为下一个Rust的明确计划[20] AI与Rust的协同效应 - Rust编译器以严格著称,能阻止许多在其他语言(如Python或C)中可运行但会导致崩溃的代码通过编译[13] - 这一特性恰好弥补了AI生成代码容易产生微小但致命逻辑错误(幻觉)的短板[17] - 在AI编程工作流中,Rust编译器充当了第一道严苛的质检员,只要代码通过编译,内存安全、类型匹配等一大类错误即被排除,这使得开发者能放心让AI编写数万行代码[17][19] - OpenAI联合创始人Greg Brockman的帖子也从侧面印证了Rust与AI协作的实践价值[12]
独家解读|2025年AI五大趋势与底层数据革命
机器之心· 2026-01-06 17:38
文章核心观点 - 2025年人工智能的发展重心正发生根本性转移,从追求模型规模转向构建其理解与解决复杂现实问题的能力,高质量数据成为定义AI能力的新基石[1] - 数据堂作为人工智能数据服务的前沿探索者,深度参与并支撑着这场变革的每一个关键环节[1] 趋势一:多语种TTS与全双工交互 - 语音合成技术正同时向两个深度智能化维度演进:一是为合成语音注入情感、个性与文化适配性;二是从单向反应升级为支持实时打断、重叠对话与上下文连贯的全双工自然交互[3] - 训练数据的重心正经历双重跃迁:一方面需构建服务于音色、韵律、情感和风格精细控制的“表现力语料库”;另一方面为实现全双工交互,迫切需要多通道、真实、带有自然打断与话题转换的对话语音数据[4] - 数据堂提供可直接用于模型训练的成熟数据集,包括100万小时多语种自然对话语音数据集、300万条前端文本库、2000小时多情感普通话合成数据集以及1万小时全双工多语种自然对话数据集[7] - 依托覆盖全球200+语种及方言的庞大语音资源网络与专业声优库,数据堂能够为各类定制化项目提供强大支持[7] 趋势二:多模态大模型 - 以DeepSeek-OCR模型的开源为标志性事件,揭示了多模态大模型发展的核心方向:推动AI从处理单一模态信息,迈向对图像、文本、表格、图表、GUI界面等多元信息进行统一理解、关联分析与深度推理的新阶段[9] - 训练数据必须能够刻画不同模态元素之间的复杂关联与深层语义逻辑,朝着跨模态语义对齐、深度结构化与语义图谱化的方向演进[10] - 数据堂提供覆盖多模态认知全链条的高质量数据,包括千万级OCR数据、百万级GUI界面、多领域专业文档、300万组涵盖动作、场景、建筑等的图文理解数据,以及20万组OCR问答及图像视频编辑数据[12] 趋势三:大模型的深度演进 - 当前大模型的发展呈现出两条清晰且并行的路径:一方面持续追求更强大的通用推理与复杂常识能力;另一方面驱动模型向金融、法律、生物医药等垂直领域深入,追求高度的专业精度与可靠性[14] - 高质量训练数据的需求正高度集中于金融、法律、生物医药及科学研究等知识密度高、容错率低的专业领域,核心已转变为获取能直接赋能模型专业推理与精准判断能力的关键数据资产[15] - 数据堂提供从标准化数据产品到深度定制服务的完整解决方案,包括5000万条新闻文本、3亿条STEM试题等高质量无监督数据,以及70万组指令微调与150万条安全内容等SFT指令微调数据[17] - 数据堂组建了覆盖十余个领域的超500人专家团队,已成功支持超100个大模型数据项目[17] 趋势四:具身智能 - 具身智能成为2025年焦点,旨在突破传统大模型缺乏物理交互经验、无法建立真实世界因果认知的本质缺陷[19] - 具身智能的核心在于让AI通过数据习得物理世界的因果规律,这需要严格对齐时序的高维交互数据,完整融合多视角视频、高精度力/触觉传感器流、动作指令序列及最终任务结果[20] - 数据堂提供从标准化数据集到深度定制采集的完整服务,目前已构建数亿组3D环境数据、第一人称任务视频、机器人抓取数据集等在内的完整体系[22] - 数据堂在全球布局超过20个专业采集场,单个面积最大超4000平方米,部署有包括人形机器人、机械臂、机械狗在内的70余台各品牌机器人[22] - 数据堂专业标注平台与团队能够完成从感知数据的目标检测、分割,视频分割,任务描述,COT等全类型标注任务[23] 趋势五:自动驾驶的技术范式转移 - 2025年,自动驾驶系统正经历一场深刻的技术范式变革,核心架构正从传统的“感知-规划-控制”模块化设计,向数据驱动的“端到端”一体化模型演进[25] - 新一代的VLM/VLA多模态大模型路径提出了颠覆性需求,训练数据必须实现视觉、语言与行动三者在时序上的精细对齐与深度耦合,催生了对高质量、强逻辑的标注数据的极度依赖[26] - 数据堂能够对驾驶场景同步执行端到端的精确坐标标注与粗粒度的语义说明标注,并融合场景描述、决策依据、反思过程等深度逻辑,构建“感知-决策”闭环的训练数据对[28] - 基于高效的标注工具及成熟的流程管理,数据堂具备稳定的规模化标注产能,其中车辆路线判断与行驶意图等关键任务的量产交付能力均达到每月40万组[28]
刚刚,智元提出SOP,让VLA模型在真实世界实现可扩展的在线进化
机器之心· 2026-01-06 17:38
文章核心观点 - 通用机器人需要颠覆“出厂即巅峰”的传统电子产品设定,成为能在真实部署中持续学习和进化的生命体[2][3] - 智元具身研究中心提出的SOP框架是一种颠覆性的机器人学习新范式,通过构建“多机平行现实”与“云端集中进化”的闭环,实现了机器人在真实世界中的分布式持续学习[4][6][13] - SOP框架通过在线、集群、并行的集团军作战模式,解决了传统机器人后训练离线、单机、顺序的瓶颈,让智能进化不再止步于出厂时刻[9][10][13] 行业痛点与范式转变 - 当前具身智能面临尴尬真相:基于互联网数据预训练的模型是“理论巨人”,一旦进入充满未知的物理世界,常因环境变化(分布偏移)而束手无策[2] - 传统机器人后训练是一条离线、单机、顺序的漫漫长路,导致机器人探索慢、迭代慢,且容易在学习新任务时遗忘旧能力[9] - 通用机器人的出路不应是“静态标品”,而应是能在真实部署中、在每一次失败和纠正中持续变强的生命体[3] - SOP框架改变了整个通用机器人系统的生命周期,部署不再是技术迭代的终点,而是更大规模学习的起点[43][44] SOP框架技术原理 - SOP即可扩展在线后训练,是业界首次在物理世界的后训练中深度整合在线、分布式和多任务机制[6] - 框架将VLA模型的后训练从“单机单打独斗”转变为“在线、集群、并行”的集团军作战,构建“多机平行现实→云端集中学习→模型即时回流”的超级闭环[13] - 多台机器人组成集群共享同一VLA策略,在同一时间开启多个“平行现实”,大幅拓宽真实世界中状态-动作分布的覆盖面,避开单机学习的局部瓶颈[14][17] - 系统采用Actor-Learner分离架构,通过消息队列解耦数据生产与消费,具备“零配置”的弹性水平扩展能力,新机器人可即插即用[20] - 内置动态采样器,能根据任务实时训练损失自动加大对当前薄弱环节的在线数据训练权重,实现群体智能的实时同步[23] - 通过多任务并行学习,巧妙化解了传统单机在线训练面临的灾难性遗忘矛盾,确保了VLA的通用性不会因针对某一任务的性能提升而受损[24] 实验验证与性能表现 - 实验基于智元精灵G1机器人平台进行,该机器人拥有双臂14个自由度,配备“三目”RGB视觉系统,具备执行精细微操的硬件基础[26] - 在极具挑战性的任务中(如杂货补货涉及500多种商品、叠柔软衣物、协同开冰柜门),SOP结合在线多机方案全面碾压了传统单机或离线方法[29][31] - 在叠衣服和组装纸盒的长程评估中,SOP系统实现了超过36小时的连续运行且无性能衰减[34] - 在叠衣服任务中,SOP将系统吞吐量直接翻倍,从每小时21件提升至45件[34] - 扩展性实验显示清晰的Scaling Law:随着分布式集群规模扩大,模型性能呈近乎线性增长[35] - 在3小时总训练时长限制下,四机并行学习的最终成功率达到92.5%,比单机提升12个百分点[36][37] - 要达到80%性能基准线,单机需174分钟,四机仅需72分钟,训练速度达到原来的2.4倍[36][37] - 训练成本优势显著:当预训练数据从80小时增至160小时,仅带来4%的性能提升;而SOP仅用3小时在轨经验,就换来了约30%的性能提升[41] - 最终性能上限仍被预训练模型的初始规模所锚定,在线学习是既有知识的超级优化器,而非大规模预训练的完全替代品[41] 产业影响与未来展望 - SOP范式转变意味着机器人可以带着尚不完美的初始模型上线,极大地降低了产业落地门槛[44] - 部署就是通往完美之路,机器人的每一次任务执行、每一次失败后的纠正都能转化为宝贵的训练数据[44] - 随着更多机器人走入真实世界,分布式集群规模将呈指数级增长,将见证前所未有的群体智能增长速度[45] - SOP让众多机器人的经验共同驱动智能快速成长,是通用机器人走向大规模真实世界部署的关键一步[47]
别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?
机器之心· 2026-01-06 17:38
空间智能研究现状与隐忧 - 2025年,随着“空间智能”成为大模型竞逐的新高地,通用大模型和专家模型在室内空间推理基准上不断刷新SOTA [2] - 然而,模型训练数据(如ScanNet++、ARKitScenes)与测试基准高度同源,存在数据“近亲繁殖”的隐忧,近期模型分数的飙升可能并非真正习得空间几何推理能力,而是对特定室内数据分布的过拟合 [2] 现有研究的数据局限 - 当前空间智能研究大多过度依赖室内场景,这受限于源数据集的匮乏 [4][5] - 少数可用的室外数据集多基于自动驾驶视角,与第一人称行人视角存在本质差异 [5] - 对室内数据的过度依赖导致训练集与测试集高度同源,且室内场景过强的语义先验难以公平评估模型的空间感知和推理能力 [6] 新基准OSI-Bench的推出 - 为解决上述问题,中国科学院大学机器学习与感知实验室联合微软亚洲研究院及苏黎世联邦理工大学发布了全新空间智能基准OSI-Bench [2] - 该基准基于自采开放世界中带有准确3D标注的视频数据,旨在提供对空间智能的真正诊断能力 [2] - OSI-Bench摒弃从现有数据集二次提取的路径,完全基于多传感器平台采集的原始视频流,数据自带精确3D信息,覆盖公园、步行街、古建筑、校园等丰富多样的开放世界场景 [11] OSI-Bench的核心优势与任务设计 - 室外开放世界的核心优势在于其复杂性与随机性,语义先验变得微弱,迫使模型回归到真正的视觉空间推理,从而评估其真实空间能力 [9] - 通过Human-in-the-loop流程,从20小时的视频素材中生成约9000条高质量问答,涵盖9种任务 [12] - 任务被系统性地划分为空间智能的三个层级:相对关系(针对空间位置的定性判断)、静态尺度(针对静态空间物理量的定量估算)、动态尺度(引入时间维度的动态物理量估计) [12][14] 主流模型在OSI-Bench上的评测结果 - 评测结果表明,当下的开源与闭源SOTA多模态大语言模型在OSI-Bench的任务上普遍失败 [13] - 尽管Gemini-2.5-Pro在一众模型中取得相对显著优势,但其整体表现仍远低于人类水平 [15] - 人类在评测中的平均得分(Rank Avg)为66.8,而表现最佳的闭源模型Gemini-2.5-Pro得分为53.1,开源模型InternVL3.5-38B得分为31.4 [15] 模型能力提升的“虚假繁荣” - 研究聚焦于2025年发布新版本并在室内基准VSI-Bench上取得巨大提升的两个模型家族:Qwen-VL与InternVL系列 [16] - 这两个系列在加入更多空间数据训练后,其同尺寸新旧版本在VSI-Bench上的得分显著上升了约24.1分,性能几乎翻倍,但这种惊人的增长并未出现在OSI-Bench上 [16] - 在绝对距离任务上,更新后的各尺寸模型在VSI-Bench上一致涨点,却在OSI-Bench上一致退步,由于两个基准的提问模版完全相同,这直接证明模型在室内基准上的提升是对特定场景分布的过拟合,而非习得可泛化的空间智能 [16] 模型依赖语言先验的“捷径” - 当面对空间任务时,模型倾向于走“捷径”,即利用语言先验知识基于平均值进行猜测,而非进行费力的视觉几何推理 [19] - 盲测实验结果显示,模型在有/无视觉输入的情况下的得分差距极小,表明视觉输入并未被有效用于推理 [22] - 在包含“反常场景”(物体尺寸被特意调整至违背常理)的合成数据测试中,当语言先验失效时,模型的性能出现了断崖式下跌,而人类的空间判断力并未受太大影响 [23] 研究总结与行业影响 - OSI-Bench暴露了现有大模型在空间智能层面与实际应用需求之间的巨大鸿沟,并对当前模型是否真正具备可泛化的空间能力提出了质疑 [26] - 研究呼唤一种全新的空间智能范式,需要真正赋予模型在空间中感知、在空间中思考的工具与能力,而非仅仅依赖数据驱动的分布拟合 [27] - OSI-Bench的基准与评测代码已全部开源,未来将持续开源更多带有高精度3D信息的开放世界视频数据,以推动空间智能从室内场景走向复杂的开放世界 [28]
开源1万小时具身智能数据,这家公司是为了什么?
机器之心· 2026-01-06 17:38
文章核心观点 - 简智机器人开源了名为“10Kh RealOmni-Open DataSet”的具身智能数据集,其规模超过1万小时、接近百万clips,是行业最大规模、泛化程度最高的开源数据集合,旨在通过数据共享加速整个具身智能行业的发展 [1] 数据集概况与规模 - 数据集总体规模超过1万小时,接近百万clips,体量已超越许多具身公司自身储备的数据 [1] - 数据集聚焦10个常见家庭任务,每项技能都有超过1万Clips的数据覆盖,是单个技能数据量行业最多的集合 [4] - 数据存储总容量为95 TB [5] - 数据集中99.2%为双手、长程任务,平均clips长度为1分37秒(210.0秒) [5] 数据质量与特性 - 数据采集画面分辨率为1600*1296,帧率为30fps,使用大视场角鱼眼相机,保证全方位录制环境与操作细节 [4][5] - 通过高精度IMU硬件和云端重建,将操作轨迹精度提升至亚厘米级别(轨迹真值误差小于1cm),远超行业常见的厘米级精度 [4][13] - 数据模态丰富,包含夹爪开合角度、位移等信息,并具备触觉阵列空间数据(分辨率1毫米) [4][5] - 数据来自3000个真实家庭规模采集,场景、目标和人员操作自然多样,弥补了传统“数采工厂”方案过于单一的问题 [7] 数据生产链条与方法论 - 公司构建了从采集设备到云端平台,再到数据二次迭代的完整闭环数据生产链条 [9] - **采集设备 (Gen DAS Gripper)**:全栈自研ISP图像处理与CMOS传感器,保证图像高质量;易于快速部署,无需场地布置;基于车规级IMU实现双手设备同步,异构数据时间误差小于1ms;具备超强压缩能力,将数据体积压缩至原大小的2%,并支持分钟级快速上传 [11][12][13] - **中枢数据平台 (Gen Matrix)**:具备高精度轨迹还原与环境重建能力(轨迹真值误差小于1cm);能对分散设备数据进行同步与清洗;具备自动化标注、切片等高并发处理能力 [13] - **自动化数据产线 (Gen ADP)**:将标注、加工流程自动化,可在2小时内完成从采集到处理的全过程,实现数据规模化、自动化生产 [13] - 凭借该数据生产体系,公司在2个月内积累了近百万小时规模的数据,且数据量每天以接近万小时规模增长 [9][13] 开源动机与行业影响 - 开源大规模高质量数据能快速填补数据鸿沟、统一技术标准、降低研发门槛、推动生态协同与自主可控,加速具身智能从实验室走向规模化落地 [16] - 公司后续计划继续加强数据基建,推出更多有益于行业的数据与服务,旨在形成“数据共享 — 模型优化 — 场景落地 — 数据反哺”的正向循环 [16]