Workflow
机器之心
icon
搜索文档
人形机器人做汉堡火了! 伯克利等全新ViTacFormer让机器人操作稳如老手
机器之心· 2025-07-10 14:07
人形机器人技术突破 - 具备主动视觉、高精度触觉及高自由度灵巧手的人形机器人首次实现2.5分钟连续自主控制,完成从原材料到制作汉堡的全流程操作[1] - 灵巧操控是机器人实现类人交互的核心能力,尤其在多阶段细致接触任务中需极高控制精度与响应时机[2] - 当前单一视觉感知在遮挡或复杂接触环境下易失效,触觉感知提供直接交互反馈但缺乏多模态联合建模机制[2] ViTacFormer技术框架 - 由UC伯克利、北京大学等机构提出,融合视觉与触觉信息并引入未来触觉预测机制,提升灵巧操控的精度与稳定性[4][9] - 核心创新:通过跨模态注意力动态融合视觉与触觉信号,并采用自回归触觉预测分支预判未来接触状态[9][11] - 系统采用双臂机器人架构,配备17自由度灵巧手和320×240分辨率触觉传感器,同步采集双视角视觉数据[13][14] 实验性能验证 - 在插销、拧瓶盖等4项短程任务中,ViTacFormer成功率平均提升50%以上,显著优于仅用视觉或简单触觉融合的基线模型[18][22][24] - 在11阶段的汉堡制作长时任务中,模型实现80%成功率并稳定完成2.5分钟连续操作,展现多阶段连贯控制能力[25][27][28] - 专家示范采用机械外骨骼手套与VR头显联动,提升接触密集型任务的训练数据质量[16] 行业影响与认可 - 研究获Transformer作者Lukasz Kaiser等知名学者转发,技术方案开源在GitHub平台[7] - 团队核心成员包括UC伯克利Pieter Abbeel、Jitendra Malik及北大校友耿浩然[5]
奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式
机器之心· 2025-07-10 12:26
大模型后训练阶段的奖励建模方法 - 强化学习是大模型后训练阶段提升能力、对齐人类偏好的核心方法,但奖励模型的设计与训练是关键瓶颈 [2] - 主流奖励建模方法包括"基于偏好的奖励建模"和"基于规则的验证",前者存在数据获取成本高、泛化能力有限问题,后者难以扩展到通用场景 [3] - 需要一种扩展方便、泛化性强、场景通用的奖励建模方案,类似大语言模型通过Next Token Prediction统一任务的思路 [4] POLAR奖励模型的核心创新 - POLAR采用策略判别学习(Policy Discriminative Learning)方法,通过衡量候选策略与最优策略之间的"距离"建立奖励信号,摆脱对绝对偏好的依赖 [8][9] - 利用对比学习建模策略分布差异,同一策略生成的轨迹作为正例,不同策略生成的轨迹作为负例 [10] - 预训练阶段完全使用自动化合成数据构建,POLAR-1.8B和POLAR-7B分别使用0.94T和3.6T Token数据 [14] POLAR的训练与应用效果 - 两阶段训练:预训练阶段使用Bradley-Terry Loss学习策略差异,微调阶段使用少量偏好数据对齐人类偏好 [14][15] - 在STEM任务中,POLAR-1.8B和POLAR-7B分别超越最佳基线24.9和26.2个百分点 [33] - 使用POLAR-7B微调的Llama-3.1-8B在所有基准测试中平均提升9.0%,相比WorldPM-72B-UltraFeedback优化结果提升6.7% [34] POLAR的技术优势与潜力 - 展现出与LLM类似的Scaling Laws,验证集损失随模型参数和计算量增加呈幂律关系下降 [35] - 1.8B参数的POLAR即可取得与15倍和40倍参数量的SOTA模型相当结果,显示强大潜力 [33] - 为通用RFT提供有效实践方案,有望打通RL链路扩展的最后一环 [37]
VLA统一架构新突破:自回归世界模型引领具身智能
机器之心· 2025-07-10 12:26
世界模型与多模态融合 - 世界模型正加速成为连接感知、理解与决策的关键基座,重塑多模态边界[4] - 现有方法多以语言模态为中心,忽视视觉信息的时序动态与因果结构[5] - UniVLA通过原生建模视觉、语言与动作信号,引入世界模型增强下游决策性能[5][14] UniVLA模型架构 - 采用全离散自回归机制,统一视觉、语言与动作信号的离散token表示[8][9] - 构建视觉-动作交错的多模态时序序列,支持原生统一建模[9] - 自回归训练范式高效稳定,具备大规模扩展潜力[9][24] 技术突破与性能表现 - 后训练阶段仅需海量视频数据,无需依赖大量动作标签即可提升决策性能[14] - 在CALVIN基准上平均成功率达95.5%,长程任务(LONG)成功率94.0%,显著超越TO-FAST的60.2%[19] - LIBERO基准整体成功率69.8%,较Robo VLMs提升32.3个百分点[20] - SimplerEnv任务中世界模型策略取得64.6%成功率,较基线提升64.6个百分点[16] 应用场景与未来方向 - 展现出真机操控和自动驾驶等现实场景的应用潜力[5] - 提出视频版VLA架构,有效捕捉时空动态特征[23] - 未来将探索与多模态强化学习深度融合,提升开放世界决策能力[24] 行业影响 - 刷新CALVIN、LIBERO、SimplerEnv等主流具身智能基准的SOTA纪录[5][17][18] - 为机器人从视频中学习真实世界知识提供新路径[15] - 开创区别于传统VLM拓展路径的全新技术路线[22]
ICML 2025 | 给AI装上「智能升级插件」!阿里安全-清华大学D-MoLE让模型在持续学习中动态进化
机器之心· 2025-07-10 12:26
研究背景 - 多模态大语言模型(MLLMs)通过结合视觉、语音等模态编码器与文本生成模型,展现出处理多模态数据的强大能力,但在实际应用中面临灾难性遗忘问题[3] - 持续多模态指令微调(CMIT)成为核心挑战,目前研究刚起步,传统持续学习策略针对小规模单模态模型,在多模态场景下面临任务架构冲突和模态不均衡两大新挑战[4] - 任务架构冲突表现为不同任务对模型不同层次依赖程度差异明显,例如视觉任务中部分依赖视觉编码器浅层,另一些则依赖语言模型深层[4] - 模态不均衡表现为不同任务对图像、文本等模态依赖程度差别大,导致训练中各模态更新不平衡[7][8] 研究方法 - 提出D-MoLE框架,通过动态调整模型结构解决任务架构冲突和模态不平衡问题,包含动态分层专家分配器和基于梯度的跨模态持续课程两大核心组件[10][16] - 动态分层专家分配器通过零成本代理评估识别关键层并分配LoRA专家,实现按需适配新任务[23] - 基于梯度的跨模态持续课程通过评估各模态学习难度动态分配参数预算,解决模态不均衡问题[24] - 框架保留通用基础、按需适配新任务、情境化利用旧经验,实现高效适应新任务同时保留过往知识[21][23] 实验结果 - 在包含9个数据集的CMIT基准测试中,D-MoLE在AVG指标上比次优方法提升15.08%,在Last指标上提升20.14%,BWT指标从-21.31%改善至-1.49%[29] - 通用能力评估显示D-MoLE在MME-Sum(1754.6)、MMMU-Val(32.7)和POPE-Sum(88.1)上接近原始预训练模型水平,优于Seq-FT和O-LoRA[31] - 消融实验验证各组件有效性,移除跨模态课程或动态分层专家分配器均导致性能显著下降[34] - 训练效率与vanilla LoRA微调相当(12.40小时),远快于复杂持续学习方法如MOLA(23.03小时)[36] 业务应用 - 可提升阿里安全多模态审核大模型在交互内容安全场景下的持续适应能力,支持多平台差异化审核规则[38] - 模型能快速适配新平台或规则而不影响原有能力,仅需引入少量参数,降低运维成本并提升多任务环境灵活性[39]
他47岁转方向,一举解决了球体堆积领域内最大的未解问题
机器之心· 2025-07-10 12:26
如今, 数学家 Boaz Klartag 在四月份发表的一篇论文《Lattice packing of spheres in high dimensions using a stochastically evolving ellipsoid》中,新方法以显著优 势打破了之前的记录 。一些研究人员甚至认为,他的结果可能接近最优解。 论文地址: https://arxiv.org/pdf/2504.05042 作为该研究领域的新人,Klartag 通过复兴一种专家们几十年前就已放弃的古老技术,实现了他的堆积方法 —— 该方法适用于所有任意高维空间。这项工作触及了 关于高维空间最优堆积性质的几个长期争论。它们应该是有序的还是无序的?它们究竟能堆积到什么程度? 选自 quantamagazine 作者: Joseph Howlett 机器之心编译 编辑:泽南 在数学领域里,对于最优模式的探索永无止境,球体填充问题也不例外,它旨在尽可能高效地将球体塞进一个(高维)盒子里。几个世纪以来,它一直吸引着数 学家们,并在密码学、远程通信等领域有着重要的应用。 它看似简单,实则微妙。17 世纪初,天文学家、数学家约翰内斯・开普勒 ...
「Tokens是胡扯」,Mamba作者抛出颠覆性观点,揭露Transformer深层缺陷
机器之心· 2025-07-09 17:52
状态空间模型与Transformer的权衡 - 状态空间模型(SSM)通过固定大小的隐藏状态压缩历史信息,实现流式处理,而Transformer需要缓存所有历史token导致内存线性增长[24] - SSM在字节级建模任务中表现优于Transformer,即使后者使用更多计算资源,表明Transformer存在建模能力局限[53][55][56] - SSM与Transformer结合使用时(比例3:1到10:1)表现更优,类似人类智能通过大脑与外部数据库协同工作[29][30] Transformer的局限性 - Transformer需要数据预处理如tokenization或图像切块,本质上是对其建模缺陷的补偿[35][38][41] - 注意力机制对噪声token处理效率低下,计算量仍随token增加而增长,无法有效过滤冗余信息[69][70] - Transformer的归纳偏置使其过度关注单个token,在低语义密度数据(如字符/DNA序列)上表现较差[62][64][65] 现代循环模型技术演进 - Mamba通过动态转移矩阵、并行扫描算法和内存管理三大技术要素整合,实现与Transformer相当的语言建模性能[13][14][16] - 现代循环模型研究呈现爆发式增长,包括RWKV、xLSTM等变体,共享SISO线性递归和状态扩展核心特征[17][19] - SSM类模型在DNA建模等任务中展现优于Transformer的扩展能力,预示其在处理原生数据方面的优势[60][61] 架构设计哲学 - SSM类似大脑的压缩记忆机制可能促进抽象学习,而Transformer类似数据库的精确召回各有利弊[27][78] - 理想架构应具备处理噪声能力而不增加计算负担,当前模型均未完全解决此问题[71][72] - 扩展定律显示Transformer并非计算效率最优方案,存在改进空间以更好利用FLOP资源[87][88]
真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击
机器之心· 2025-07-09 17:52
核心观点 - 当前AI4S在单点取得进展,但需采用"通专融合AGI"方式成为革命性工具,大模型的突破性能力正改变科研模式,但需科学评测支撑[1] - 现有科学评测存在两大痛点:聚焦知识记忆而非全链条能力;多模态数据分析需求未充分开发[2] - 上海AI实验室推出SFE评测基准,首创"信号感知-属性理解-对比推理"三级体系,涵盖5大领域66项高价值任务,揭示主流模型在高阶科学任务上表现不佳(SOTA仅30分左右)[3][4] 评测体系设计 - SFE构建三层认知框架:科学信号感知(L1)、科学属性理解(L2)、科学比较推理(L3),覆盖从数据感知到高阶推理的全链条能力[7][10] - 数据集包含830个VQA、66项科学任务,涉及202个L1、503个L2、125个L3任务,平均问题长度88(英)/86(中)token,答案长度100(英)/106(中)token[14] - 开发流程分三步:与专家确定高价值方向→细化任务设计→精选原始数据构建VQA样本,涉及18个科学方向和17种数据格式[15][17] 模型表现分析 - 闭源模型整体优于开源模型6-8%,GPT-o3与Gemini-2.5-Pro差距达26%,因后者存在冗余思考导致token消耗过快[20] - 材料科学表现最佳(GPT-o3达63.44%),因任务结构化明显;天文学最弱(平均约20%),因数据噪声大且直观性弱[22][23] - 高阶推理(L3)能力进步显著(如GPT-o3从26.64%提升至36.48%),但知识理解(L2)进步有限,显示模型提升主要来自推理架构创新[25][26] 技术趋势洞察 - 闭源模型在Pass@k测试中扩展性更好(37.75% vs 27.33%),可能因训练数据更丰富且平衡探索与利用[29][30] - 模型规模与科学能力非正比关系,如Qwen2.5-VL-72B表现反低于7B版本,显示需同步扩充科学数据以避免过拟合[31][32] - 推出"棱镜"科学评测平台,包含模型能力/学科多样性等5大模块,覆盖AI for Innovation/Computation/Data三层评估维度[33][35][36]
花49元试了下Lovart国内版,集结数十个模型的设计Agent能有多强?
机器之心· 2025-07-09 17:52
产品概述 - 星流Agent是海外爆火产品Lovart的国内版本,专注于设计和创意内容生成[2][3] - 产品接入F1、Kling、Qwen、hailuo02等数十个顶尖模型,支持图像、视频、3D建模等全链条创作[4] - 采用会员制收费模式,首次登录赠送150积分(约3次任务),邀请好友可获200积分,最低套餐49元/月[5][79] 核心功能 - **多模态生成能力**:支持照片/插画/海报/3D模型等创作,视频生成限时5秒且需3分钟处理时间[4][46][50] - **工作流整合**:自动拆解"文字-图片-建模-视频"全流程,调用Tripo AI、可灵2.1等工具实现一站式输出[76][77] - **编辑工具**:提供无限画布、局部重绘、扩图等9项编辑功能,但中文文字生成存在乱码问题[43][19][20] 技术表现 - 图像生成依赖F1 Kontext等模型,中文需切换至Seedream 3.0才能避免乱码[14][20] - 3D建模存在拓扑结构杂乱问题,简单几何体完成度显著优于复杂模型[58][61][63] - 视频生成存在动作指令偏离(如皮卡丘开合跳失控)和逻辑断裂问题[71][69] 竞品对比 - 优势在于整合工作流效率,较传统多工具切换模式节省80%操作时间[76][77] - 精度落后于专业工具:手部细节瑕疵率超30%,建模质量低于官网重拓扑版本[78][74] 团队背景 - 研发团队核心王浩帆为InstantID项目成员,具有卡内基梅隆大学硕士及15段AI领域从业经历[84][89][90] - 母公司Liblib AI成立1年内完成4轮数亿元融资,团队来自清华、北大、CMU及字节/腾讯等企业[94][95] - 商业化负责人陈冕曾任字节剪映商业化负责人,28岁达成字节4-1职级[96]
ICCV 2025 | UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台
机器之心· 2025-07-09 15:10
核心观点 - UniOcc是首个面向自动驾驶语义占用栅格构造或预测任务的统一基准框架,融合真实世界与仿真环境的多源数据,统一体素格式与语义标签,并首次引入体素级前后向运动流标注 [1] - UniOcc设计了多项免真值指标,用于衡量物体形状合理性与时序一致性,摆脱了伪标签评估限制 [1] - UniOcc支持多车协同占位预测与推理,推动自动驾驶迈向多模态、泛化能力更强的新阶段 [2] 背景与挑战 - 当前自动驾驶感知研究面临伪标签缺陷、数据割裂、动态信息缺失和多车协同感知缺乏四大挑战 [7][8][10] - 主流数据集缺乏真实占位标注,依赖LiDAR启发式生成的伪标签,仅覆盖可见表面,无法反映真实物体完整形状 [7] - 现有方法多局限于单一数据源,不同数据集间配置、采样率、格式、注释不统一 [8] - 当前三维占位标签通常不包含物体运动信息,模型无法利用运动线索进行预测 [8] - 之前缺乏多车协同占位预测的数据集 [10] 四项关键创新 - 多源数据统一处理:汇聚真实场景和仿真场景数据,统一格式并提供标准化预处理和加载Dataloader [12] - 体素级运动流标注:为每个三维体素标注前向和反向三维速度向量,全面记录物体平移与旋转 [13] - 免真值评估指标:提出免真值评估指标和工具,避免依赖伪标签进行评价 [14] - 支持协同预测能力:涵盖多车协同感知场景,支持多车传感器融合方法 [16] 实验验证 - 引入运动流信息后,OccWorld等3D占位预测模型在nuScenes和Waymo上的mIoU指标均有提高 [18] - 多源联合训练增强跨域泛化能力,在nuScenes和CARLA等多域数据上联合训练OccWorld,mIoU均优于单源训练 [19] - 在模拟多车场景中验证协同优势,CoHFF模型通过多车信息共享对Car类别的IoU达到87.22% [22] 开源与应用价值 - UniOcc支持单帧占位预测、多帧占位预测、多车协同预测和动态分割与跟踪等多种任务 [24] - 提供跨域数据格式、完整流注释、分割跟踪工具和免真值评估指标,简化研究者开发和对比工作 [25] - 为训练和评估多模态/语言模型奠定基础,推动语义占位预测技术发展 [25]
「世界模型」也被泼冷水了?邢波等人揭开五大「硬伤」,提出新范式
机器之心· 2025-07-09 15:10
世界模型的局限性批判 - 当前大语言模型(LLM)通过预测下一个单词生成输出,接近人类智力水平,但与真正的AGI仍有明显差距 [2][3] - 人类能力包含具体技能和深度复杂能力的区分,而AI系统尚不能完成所有基于相同认知架构的任务 [3][5] - 研究者提出构建世界模型的五个关键维度:数据准备、通用表征空间、推理架构、目标函数和决策系统应用 [7] PAN世界模型架构 - PAN采用分层、多级和混合连续/离散表示,结合生成式和自监督学习框架 [8] - PAN将发布27B参数的第一版,成为首个可运行的通用世界模拟器 [9] - PAN设计原则包括:多模态数据、混合表示、分层生成建模、生成损失和强化学习应用 [37] 对世界模型五个维度的批判 数据维度 - 感官数据量虽大但信息冗余度高,而文本是人类经验的高度压缩和抽象形式 [16][17] - 通用AI需要融合视频、文本、音频等多模态数据,单一模态会导致关键信息缺失 [18] 表示维度 - 仅用连续嵌入表示世界状态脆弱且难以应对噪声,离散符号序列更具稳健性 [19][20] - 最佳路径是混合表示,结合离散符号的稳健性和连续嵌入的感官细节捕捉能力 [23] 架构维度 - 编码器-编码器架构在功能上仍是自回归的,未能解决误差累积问题 [25] - 分层生成式潜在预测(GLP)架构能确保模型与真实数据挂钩,实现更鲁棒的推理 [27] 目标维度 - 潜在空间重构损失存在"平凡解崩溃"风险,需依赖复杂正则化项 [29] - 数据空间生成式重构目标提供稳定可靠的监督信号,避免崩溃问题 [30] 用途维度 - 模型预测控制(MPC)计算开销大,难以应对快速变化环境和长时程规划 [33] - 强化学习(RL)将计算成本转移到训练时,支持更具战略性的长远规划 [35] PAN模型的优势与应用 - PAN通过分层世界观实现数据处理效率,利用LLM促进跨模态泛化能力 [39] - PAN作为内部沙盒用于模拟、实验和预见未来,支持更高效的规划方式 [40][42] - 世界模型应模拟现实世界中所有可能性,当前范式仍处于原始阶段 [41]