机器之心

搜索文档
智源RoboBrain 2.0+RoboOS 2.0双发:问鼎评测基准最强具身大脑,刷新跨本体多机协作技术范式
机器之心· 2025-07-14 19:33
核心观点 - 智源研究院发布具身大脑RoboBrain 2.0 32B版本和跨本体大小脑协同框架RoboOS 2.0单机版,推动机器人从"单机智能"迈向"群体智能"[1][2] - RoboBrain 2.0突破空间理解、时间建模和长链推理三大能力瓶颈,在多项权威基准测试中刷新纪录[3][4][17] - RoboOS 2.0是全球首个具身智能SaaS开源框架,实现轻量化部署和多智能体协作,性能提升30%[21][25] - 两项技术已全面开源,与全球20余家机器人企业和实验室建立合作,共建具身智能生态[26][29] RoboBrain 2.0技术突破 三大能力突破 - 空间理解:支持精确点定位、边界框预测和复杂三维空间推理[5][6] - 时间建模:强化长期规划、闭环反馈和多智能体协作能力[5][6] - 长链推理:实现多步因果推理和决策透明性[5][6] 训练与性能 - 采用三阶段递进式训练流程,使用4.8M样本进行基础训练[11][12][13][14] - 在BLINK(83.95分)、CV-Bench(85.75分)等9项基准测试中超越Gemini、GPT-4o等模型[17][18] - 32B版本在RoboSpatial(72.43分)、Ego-Plan2(57.23分)等任务中表现最佳[17][19] RoboOS 2.0框架创新 技术特性 - 集成MCP协议与无服务器架构,全链路响应时延低于3ms[21][25] - 新增场景图共享机制和多粒度任务监控模块,通信效率提升27倍[25] - 代码量仅为传统手动注册方式的1/10,显著降低开发门槛[22] 多机协作流程 - 分层任务分解→子任务动态分配→并行执行→实时状态更新[26] - 支持商超、厨房、居家等多场景部署,实现技能模块智能匹配[20][26] 开源与生态建设 - 提供7B/32B模型权重、训练代码及评测基准,已在GitHub和HuggingFace发布[29] - 配套推出RoboSkill技能商店和开箱即用镜像,支持三行指令极速部署[1][29] - 与全球20余家机器人企业及实验室建立战略合作[29]
ACL 2025|自我怀疑还是自我纠正?清华团队揭示LLMs反思技术的暗面
机器之心· 2025-07-14 12:08
反思技术失败现象 - 大语言模型在反思技术提示下会出现将正确答案改错的现象,即使是最先进的推理模型ChatGPT o4-mini-high在简单事实问题如"地球是不是平的"上也会出错[2][3] - 反思技术在多种任务(简单事实问答、复杂推理等)中失败案例多于成功案例,且随着模型进步失败率虽有减少但未根本解决,部分任务中更严重[8] - 最新ChatGPT模型(4.5-preview/4.1/o4-mini/o3)反思失败率显著,其中o4-mini初始准确率81.6%但反思后下降22.1个百分点,改错率高达41.5%[9] 失败原因分析 - 内部答案波动:多轮对话中LLMs会频繁更改答案,如GPT-3.5-turbo对81.3%的问题更改答案超6次,表现出"自我怀疑"倾向[12][13] - 提示语偏差:失败时LLMs在76.1%情况下过度关注反思指令而忽略问题本身,成功时对指令和问题的关注度相近(50.8% vs 49.2%)[16][18] - 认知偏差:在复杂任务中LLMs会表现出类似人类的三种认知偏差模式——过度思考、认知过载、完美主义偏差[20][21] 缓解策略 - 问题重复:在反思提示语后附上初始问题,引导模型维持对问题的关注[25] - 少样本微调:使用4-10个样本进行微调可纠正反思失败的异常行为,效果优于问题重复且能泛化到复杂任务[23][25]
用动作分块突破RL极限,伯克利引入模仿学习,超越离线/在线SOTA
机器之心· 2025-07-14 12:08
强化学习与模仿学习结合 - 强化学习在长时间跨度和稀疏奖励任务中表现不佳,探索能力不足[2][3] - 模仿学习通过观察专家行为并模仿策略,适用于状态和动作空间巨大且难以设计奖励函数的场景[4] - 加州大学伯克利分校提出Q-chunking方法,将模仿学习中的动作分块技术引入强化学习[4] Q-chunking方法核心 - 解决两个核心问题:提升探索效率和时间连贯动作序列,实现快速值传播[5] - 使用动作分块实现快速价值回传,并通过时间连贯动作进行有效探索[6] - 在离线数据集上进行100万步预训练,再使用在线数据更新并进行另外100万步训练[6] 方法设计与实现 - Q-chunking扩展Q-learning至时间扩展动作空间,预测连续h步动作序列[15] - 块状策略和块状Q函数实现无偏的h步值传播,消除传统n步回报的离策略偏差[16][17] - 施加行为约束保证时间连贯性,使策略接近离线数据分布[18][19] 实验与性能 - 在6个稀疏奖励机器人操作任务中测试,包括OGBench和robomimic基准任务[23] - QC在离线阶段表现竞争力,在线阶段样本效率高,尤其在cube-triple和quadruple任务中性能远超基线方法[25] - 消融实验显示QC和QC-FQL显著优于n步回报基线方法,突显时间扩展动作空间学习的重要性[27] 动作分块的优势 - QC生成时间上更连贯的动作,状态覆盖和探索效果更好[28] - 定量评估显示QC动作时间连贯性明显高于BFN,解释其更高样本效率[29][32]
Windsurf交易内幕疯传:24亿美元被瓜分,背刺数百员工?
机器之心· 2025-07-14 12:08
收购事件概述 - 谷歌DeepMind以24亿美元截胡OpenAI对Windsurf的收购计划,交易形式为反向人才收购[3][4][8] - 交易核心为人才与技术剥离:谷歌获得创始团队(包括CEO Varun Mohan和联合创始人Douglas Chen)及核心技术授权,Windsurf保留公司空壳和剩余员工[4][8][11] - 被选中的工程师和早期投资者(包括12.5亿美元估值的优先股股东)将获得收益,但大部分员工无法从交易中直接获益[7][9] 交易结构分析 - 交易类型为反向人才收购(Reverse Acqui-hire),非传统全盘收购[8] - 谷歌未收购公司股份,Windsurf保持独立运营,约250名员工中大部分留任[4] - 核心技术通过非排他性授权给谷歌,强化其在AI编码市场的竞争力[11] 行业竞争影响 - 新Windsurf将面临与谷歌DeepMind(原核心团队)、Cursor、Anthropic等代码生成领域对手的直接竞争[10] - 舆论普遍认为失去核心技术的Windsurf可能价值归零[10] - 事件类比谷歌收购CharacterAI,但Windsurf处境更严峻因涉及核心业务竞争[14] 交易失败原因 - OpenAI因微软协议限制无法满足Windsurf对知识产权保护的要求,导致独家谈判失效[18][19] - Windsurf拒绝与微软支持的OpenAI共享核心技术,为谷歌介入创造机会[18][19] 行业舆论反应 - 舆论谴责创始人以低薪股权承诺换取员工贡献后独占利益,破坏初创公司隐性契约[13][22] - 部分观点认为创始人行为损害声誉,可能影响未来创业机会[22] - 少数声音认为事件源于沟通危机,剩余员工后续或获公平待遇[24]
ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一
机器之心· 2025-07-14 10:29
人工智能研究进展 - 核心团队来自北京通用人工智能研究院机器学习实验室,负责人李庆博士专注于多模态理解、多模态智能体、具身智能等方向 [1] - 研究提出统一空间理解与主动探索的新型模型,被ICCV 2025接收并获得满分评价 [3] - 论文标题为《Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation》 [5] 技术方法与创新 - 将具身导航建模为探索与视觉落地协同进行的闭环过程,实现理解和探索互相推动、交替进行 [7][8][9] - 模型设计包括在线空间记忆构建与空间推理与决策两大核心模块,协同优化实现探索与理解的闭环融合 [18] - 采用虚实结合的数据采集策略,融合ScanNet和HM3D场景数据,覆盖超过90万条导航轨迹和上千万语言描述 [26][27] 实验结果与性能 - 在GOAT-Bench基准测试中,MTU3D成功率分别达到52.2%、48.4%和47.2%,相比现有方法最高提升超过20% [30] - 在SG3D-Nav时序任务导航中,MTU3D在s-SR、t-SR和SPL指标上均显著优于强化学习和模块化方法 [31][32] - 协同训练策略VLE在OVON、GOAT和SG3D任务中分别带来5.5%、13.9%和5.0%的性能提升 [34] 应用与前景 - MTU3D生成的探索轨迹将GPT-4V在A-EQA任务中的成功率从41.8%提升到44.2% [33] - 模型在真实机器人上完成任务,为具身导航提供新思路和更多想象空间 [40][42] - 研究标志着人工智能从虚拟空间迈向真实物理世界的关键阶段 [41]
VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!
机器之心· 2025-07-13 12:58
视觉-语言-动作(VLA)模型研究进展 - 视觉-语言-动作(VLA)模型因多模态理解与泛化能力成为机器人领域重要研究方向 但高频率和精细操作任务中仍受推理速度瓶颈制约[2] - Jacobi解码虽能提升推理效率 但因需要较多迭代次数 实际加速效果有限[3] CEED-VLA核心技术突破 - 采用一致性蒸馏训练策略 使模型单次迭代可预测多个正确动作token 结合混合标签监督机制缓解误差积累[4][9] - 提出早期退出(early-exit)解码策略 放宽Jacobi解码收敛条件 实现4.1倍推理加速与4.3倍解码频率提升[5][10] - 框架通过预训练VLA模型生成Jacobi轨迹数据集 采用KL散度构建一致性损失 混合使用教师模型与真实数据监督训练[13][15][16] 实验验证效果 - 在CALVIN ABC-D和LIBERO-Long基准测试中 保持任务成功率同时实现4倍以上推理速度与执行频率提升[18] - 真实世界实验中 机械臂操作频率提升使灵巧任务成功率超过70% 显著优于基线模型[22][24] 方法论创新点 - 首创结合一致性蒸馏与混合标签监督的训练范式 同步保障动作生成精度与速度[8][9] - 首次发现Jacobi解码存在低效迭代瓶颈 通过动态调整收敛条件实现解码效率突破[10][17] - 构建完整技术闭环:从Jacobi轨迹采集、一致性训练到早期退出解码的全流程优化[13][14]
AI编程「反直觉」调研引300万围观!开发者坚信提速20%,实测反慢19%
机器之心· 2025-07-13 12:58
AI编程工具对开发者效率的影响 - 核心观点:AI编程工具在实际应用中可能减缓经验丰富开发者的工作效率,与预期提升20%相反,实际速度下降19% [2][18] - 社交媒体关注度:相关实验结论在X平台阅读量接近300万 [2] 实验设计与参与者 - 实验样本:16位拥有5年平均开发经验的中等AI编程经验开发者,参与246项大型复杂项目任务 [3][14] - 项目背景:开发者来自平均22k+star、100万+行代码的大型开源仓库 [14] - 任务类型:包括bug修复、功能开发和重构等日常工作范畴 [15] 实验方法与工具 - 随机对照设计:开发者被随机分配使用AI工具(如Cursor Pro搭配Claude 3.5/3.7 Sonnet)或完全手动编码 [15] - 时间记录:平均每个任务耗时约2小时,通过录屏和自行报告统计时间 [16] 关键发现 - 效率反差:使用AI工具组完成任务时间增加19%,而开发者预期提升24%,事后仍相信能提速20% [18][19] - 时间分配变化:主动编码时间减少,但提示词撰写、AI输出审查和等待时间占比上升 [22] - 代码质量:使用与不使用AI的PR质量相近,排除选择性放弃任务干扰 [24] 效率下降原因分析 - 开发者过度乐观:事前预测AI提速24%,事后仍坚持20%的提速预期 [27] - 项目复杂度:测试仓库平均10年历史、110万+行代码,AI在大型复杂环境中表现更差 [27] - AI可靠性问题:开发者仅接受44%的AI生成代码,9%时间用于清理AI输出 [27] - 上下文缺失:AI未能有效利用仓库隐含的上下文知识 [27] 研究局限性 - 样本局限性:未覆盖大多数软件工程场景,未来模型可能优化表现 [30] - 方法论挑战:AI任务评估存在多样性,需结合多种方法全面衡量 [31] 行业启示 - 基准测试缺陷:传统基准测试可能高估AI能力,需补充真实环境数据 [11][12] - 未来方向:需持续追踪AI对生产力的实际影响,优化评估体系 [32][33]
「流匹配」成ICML 2025超热门主题!网友:都说了学物理的不准转计算机
机器之心· 2025-07-13 12:58
生成式AI技术前沿 - 流体力学概念融入生成式AI,构建简洁优雅的模型形态 [2][8] - 流匹配(Flow Matching)技术成为ICML 2025生成领域的核心研究方向,具备高质量、稳定性和通用性 [4][5][7] - FLUX模型发布后,流匹配架构因处理多类型输入能力受到广泛关注 [6] 流匹配技术原理 - 核心思想:通过可逆变换将噪声分布映射到数据分布,学习噪声到数据的转化路径 [15][18] - 采用插值方式定义噪声与数据点间的运动轨迹,通过速度场控制样本生成 [16][17][25] - 基于连续性方程,将物理密度变化规律应用于概率质量分布建模 [20][21][23] 技术实现细节 - 条件流(conditional flow)通过直线路径定义噪声到目标数据点的定向移动 [28][29] - 总体速度场由多条路径的平均方向决定,优先反映高概率样本路径 [31][33] - 变分流匹配(VFM)通过推断终点分布均值简化速度场计算 [34] 与扩散模型的关系 - 扩散模型是流匹配的子集,高斯分布插值策略下两者等价 [40][41][43] - 流匹配提出速度场输出新形式,可能影响高阶采样器性能 [44] - 训练权重函数与噪声调度策略在两种模型中高度一致 [45][46] 行业应用与资源 - 流匹配技术伪代码及训练过程已公开,支持实际应用开发 [36] - 关键论文《Flow Matching for Generative Modeling》提供理论基础 [38] - 技术社区(知乎、Twitter)活跃,提供多角度解析与案例 [10][13][47]
下一代 AI 系统怎么改?让 AI 自己改?!
机器之心· 2025-07-12 18:54
下一代AI系统自我改进 - 互联网人类数据枯竭及局限性推动AI转向「自进化」范式 通过机器与世界互动生成经验数据实现自我改进 突破人类知识边界 [1][4] - 图灵奖得主Richard Sutton提出「经验时代」构想 主张智能体通过自身经验学习获得超人类能力 当前AI方法依赖人类知识输入需突破该范畴 [4] - 「达尔文哥德尔机(DGM)」为代表的自进化技术 通过修改Python代码库实现自我改进 SWE-bench性能从20%提升至50% Polyglot从14.2%提升至30.7%超越人工设计模型 [5][6] 自进化与SL/RL技术差异 - 自进化依赖模型生成训练数据 数据管理算法需纳入学习框架 监督学习(SL)依赖人类标注数据 强化学习(RL)因通用性难以适配自我改进需求 [7][8] - ICLR 2025设立自进化主题研讨会 探讨无监督下合成数据提升模型性能 接收80篇论文覆盖多智能体系统、机器人自进化等领域 [7] - 自进化存在训练崩溃风险 传统RL因奖励信号机制可避免该问题 需结合基础模型、认知神经科学等多领域实现技术突破 [8][9] 具身智能赛道发展动态 - 智元资本运作先于技术成熟 收购上纬新材引发行业关注 主流企业倾向「自研本体+定制模型」路径 双系统架构在高复杂场景稳定性受关注 [2] - 本体形态差异驱动模型设计分化 轮式/四足/人形机器人对应不同技术方案 2025年上半年资本偏好成为行业焦点 [2] - Figure AI筹备量产 借鉴飞机公司经验实现机器人能力指数级突破 摒弃「可爱型」设计避免人类沦为技术仆从 [3]
ICML 2025 Oral!北大和腾讯优图破解AI生成图像检测泛化难题:正交子空间分解
机器之心· 2025-07-12 12:57
AI生成图像检测研究突破 核心观点 - 研究提出基于正交子空间分解的新方法,突破传统"真假二分类"局限,实现检测模型从"记忆式背诵"到"理解式泛化"的跨越[1][3] - 方法在DeepFake人脸检测和AIGC全图生成检测任务中表现优异,最高准确率达100%(ProGAN)和99.85%(CycleGAN)[23][24] - 论文被ICML2025接收为Oral(TOP ~1%),具有理论深度与实践价值的双重突破[1] 技术原理 - 通过SVD分解构建正交子空间:主成分保留CLIP预训练知识,残差部分学习AIGI检测知识,二者严格正交互不影响[16][17] - 量化分析显示传统方法特征空间解释方差比率集中在前两个主成分(低秩性),而新方法维持高秩特征空间[10][14] - 可视化证实自注意力图中语义信息与伪造信息实现正交分离,保留93.23%-100%的原语义识别能力[25][27] 行业应用价值 - 解决跨数据集/跨方法检测难题:在DFDC等8个数据集上平均准确率提升12.8%,最高达87.6%[22][23] - 可迁移至大模型微调、OOD检测、Diffusion生成等领域,为AI安全提供新范式[31] - 揭示"真假层次化关系"本质:假图像从真图像分布衍生,语义对齐使判别复杂度降低47.5%[29][30] 性能对比 - 参数量仅83M,低于主流方法(如ProDett的96M),但mAcc达95.19%,超越FatFormer(90.86%)[24] - 在LDM-200steps检测中准确率98.9%,较UniFD(94.36%)提升4.54个百分点[24] - 对未见攻击(如IMLE)的泛化性达81.5%,比F3Net(51.47%)提升58.3%[24]