Workflow
多模态大语言模型
icon
搜索文档
统一离散与连续扩散!人大 & 蚂蚁提出 LLaDA-o,高效达成多模态理解与生成
机器之心· 2026-03-14 12:03
研究背景与问题 - 当前多模态大语言模型领域几乎全被自回归模型主导,扩散模型在图像生成和理解任务中展现出潜力,但缺乏一个能统一处理多模态理解和视觉生成的扩散模型[2] - 将离散文本扩散和连续图像扩散直接联合训练,会因状态空间和扩散过程的异构性导致优化冲突和性能下降[2] - 现有全能扩散模型通常只能生成固定长度的文本,限制了其在开放式对话中的应用[2] 解决方案与模型发布 - 中国人民大学与蚂蚁集团联合团队推出了LLaDA-o,一个高效且支持长度自适应的全能扩散模型[3] - LLaDA-o使用了混合扩散框架,在多模态理解和文生图任务上均实现了SOTA性能[3] - 团队预计近期将开源训练、推理代码以及LLaDA-o的模型权重[5] 模型性能亮点 - 在10个主流多模态理解基准测试中,LLaDA-o展现了优秀的能力,稳居扩散类MLLM的SOTA位置[7] - 在数学推理任务MathVista上取得66.1分,在图表理解任务ChartQA上取得87.9分,相较于现有扩散类全能模型优势显著[7] - 在文本到图像生成任务中,于DPG-Bench上取得了87.04的SOTA高分,超越了SD3-Medium、Show-o2和Lumina-DiMOO等模型[9] - 推理速度飙升5.9倍[6] 核心技术:混合扩散框架 - LLaDA-o采用混合扩散框架,配置了两个“扩散专家”以解耦不同模态的优化冲突[12] - “理解专家”采用离散的掩码扩散机制,负责处理文本和视觉编码器提取的token[14] - “生成专家”采用连续扩散机制,负责处理视觉潜在token[14] - 两个专家共享同一个注意力主干网络,确保了跨模态信息的深度交互[12] 核心技术:模态内双向注意力 - 团队设计了模态内双向注意力机制以解决全局注意力在推理时的重复计算问题[15] - 将输入序列划分为不同的模态块,在块内使用全连接注意力,在块间强制执行因果注意力[15] - 该机制允许前置条件的图像和提示词一次性计算并复用KV Cache,极大地避免了冗余计算[15] 核心技术:自适应长度增强 - 研究团队引入了自适应长度增强,这是一种纯数据驱动的训练策略[17] - 在训练时,对目标回复进行随机的“延长”或“截断”操作,使模型学会在推理时根据上下文动态决定输出长度[17] - 该方法无需修改底层架构,解决了变长文本生成的痛点[17] 总结与行业意义 - LLaDA-o将离散的语言理解与连续的视觉生成统一在混合扩散框架下,证明了扩散模型有能力在多模态“理解+生成”赛道上与自回归模型竞争[19] - 这项工作为非自回归架构的发展开辟了极具潜力的新路径[19] - 随着底层大语言扩散模型的持续进化,基于扩散架构的统一大模型有望在未来的通用人工智能版图中占据重要地位[20]
ICLR 2026 | LongHorizonUI:让 GUI 智能体不再"半途而废"——面向长链路任务的统一鲁棒自动化框架
机器之心· 2026-03-12 16:19
研究背景与问题 - 在移动端和桌面端的日常使用中,许多复杂任务需要十几步甚至几十步的连续交互,而基于多模态大语言模型的GUI智能体在自动化操作时,当任务步数超过10–15步,其成功率会出现断崖式下跌[2] - 研究团队在AndroidControl基准上的评估显示,当操作序列在5步以内时,各方法的平均成功率超过90%;一旦序列长度超过10步,成功率便跌破75%;到了15步以上,平均仅剩约60%[5] - 这种非线性的性能衰减说明,现有方法在长链路中无法有效捕捉跨步状态依赖,感知漂移、定位偏差和决策误差逐步叠加,最终导致整个流程崩溃[5] 解决方案:LongHorizonUI框架 - 为解决长链路任务自动化问题,来自中国科学院大学、佐治亚理工学院、南开大学与腾讯互娱Turing Lab的研究人员共同提出了LongHorizonUI,一个面向GUI智能体长链路任务的统一鲁棒自动化框架[2] - 该框架的核心设计理念是将“语义决策”到“物理执行”之间的不确定性做分层处理,由感知、决策、执行三大模块组成完整闭环[9] - 框架提出了增强感知、深度反思决策与补偿式执行三大核心模块,以解决长步骤操作中的误差累积问题[2][19] 评测基准:LongGUIBench - 为在长链路场景下开展系统性评测,研究团队构建了新的基准LongGUIBench,所有任务的操作步数均不低于15步,平均为22.1步[7] - 数据集包含两大类场景:通用应用场景涵盖了Gmail、YouTube等15款主流应用,共147条端到端任务链,平均步数19.5;游戏场景由专业测试人员在13款热门游戏APP中录制,共207条高复杂度链路,平均步数23.7,最长可达37步[7] - 每条任务同时提供High-Level指令描述宏观目标和Low-Level指令分解为原子操作序列,所有操作步骤均配有精细的UI语义标注,全部数据合计4508张截图[7] 核心方法详解 - **多模态增强感知模块**:并行运行控件检测器与OCR识别模块,为每个UI元素分配唯一的空间索引ID,并引入基于IoU的语义绑定机制解决复合控件歧义问题,同时设置模板匹配修复机制确保关键元素不漏检[12] - **深度反思决策模块**:通过严格定义的JSON Schema输出格式,强制模型进行三级闭环推理,包括历史验证、目标检查和动作可解释推理,并在执行前校验目标元素是否存在及动作语义是否匹配[12] - **补偿式执行器**:负责将动作指令映射到物理坐标,按优先级依次尝试三种定位策略,并在所有候选方案均失败时触发局部重规划或回滚到上一个成功快照[13] 实验结果与性能 - 在LongGUIBench上,LongHorizonUI在通用场景中,低级指令的步骤成功率达到85.3%,高级指令达到52.3%,分别较UI-TARS-1.5提升了6.1%和30.5%;在游戏场景中,低级指令成功率83.9%,高级指令52.1%,整体平均77.3%[15] - 在ScreenSpot跨平台UI元素定位基准上,LongHorizonUI以90.4%的平均准确率超越此前所有开源方法,在Mobile、Desktop、Web三个平台上均表现稳健[15] - 消融实验证实了各模块的必要性:移除控件检测器使步骤完成率下降6.1%,移除OCR模块导致2.3%的下降,仅使用索引定位的任务完成率为81.4%,叠加补偿策略后逐步提升至85.3%[15] - 在OSWorld的50步长链路设置中,LongHorizonUI达到29.4%的成功率,较UI-TARS-72B的24.6%提升了4.8个百分点[16] 研究意义与影响 - LongHorizonUI为长链路GUI自动化任务提供了一套完整的解决方案,通过索引化感知、结构化反思决策和多级补偿执行的协同设计,有效缓解了长步骤操作中的误差累积问题[19] - 该成果已被ICLR 2026接收,构建的LongGUIBench基准也为该领域后续研究提供了标准化的评测平台[2][19] - 研究团队来自学术界与产业界,包括中国科学院大学、佐治亚理工学院、南开大学与腾讯互娱Turing Lab,体现了产学研结合的特点[2][20]
第二届CVPR 2026 CV4CHL Workshop征稿启动,用AI大模型守护儿童未来
机器之心· 2026-01-22 11:13
行业背景与研讨会概况 - 针对儿童发育、健康和教育的人工智能与计算机视觉技术尚处于起步阶段 [2] - CV4CHL研讨会由儿科AI初创公司PediaMed AI联合多所知名高校及研究所在CVPR 2026期间承办 旨在汇集多维度学科观点 填补该领域关键空白 [2] - 研讨会致力于搭建跨学科桥梁 汇聚计算机视觉研究员、大模型技术专家、儿科医生、心理学家、教育家 共同探讨前沿技术在儿童应用场景的创新与伦理挑战 [2] 研讨会核心活动与议题 - 研讨会将包括主题演讲 PediaMed AI将发布相关儿科AI产品 [3] - 将联合伊利诺伊大学厄巴纳-香槟分校组织儿童AI未来方向圆桌讨论 联合深圳儿童医院组织首届儿童步态分析挑战赛 [3] - 核心议题涵盖受儿童学习认知能力启发的基础模型与多模态大语言模型、面向儿童的脑机接口技术、增强/智能眼镜人机交互、具身AI的儿科应用、儿童发育认知建模相关的计算机视觉、儿科智慧医疗、AI赋能教育、AI支持儿童心理健康以及儿童AI技术的伦理与社会影响 [6] 研讨会时间、地点与投稿规则 - 研讨会时间定于2026年6月3日至6月7日 地点在美国科罗拉多州丹佛 [6][7] - 投稿设Proceeding及Non-proceeding两个赛道 在OpenReview平台进行双盲审稿 [8] - Proceeding赛道投稿正文限制8页以内 论文将收录于CVPR 2026 Workshop Proceeding [8] - Non-proceeding赛道非存档 可投稿已发表或在审工作 正文限制4页以内 研讨会后不会公开 [8] - 投稿截止日期为2026年3月31日 审稿结果通知日期为2026年4月8日 [6] - 投稿格式和模板遵循CVPR 2026官方投稿指南 [11] 合作与参与 - 研讨会由PediaMed AI、UIUC HCESC、机器之心赞助 欢迎更多企业加入 期间将设置赞助商展位 [9] - 研讨会是研究者与行业专家展示成果、激发灵感、参与讨论的平台 [9]
【重磅深度/文远知行】立足国内发力海外,RoboX商业化落地龙头
公司概况与核心业务 - 文远知行是一家领先的L4级自动驾驶公司,成立于2017年,业务从Robotaxi拓展至Robobus、Robovan、Robosweeper等多种L4场景,并布局L2+辅助驾驶业务 [3] - 2025年第三季度,公司总营收达1.71亿元,同比增长144%,核心增长引擎来自Robotaxi业务,单季收入约3530万元,同比激增761.0%,占总营收比重升至20.7% [3] - 2025年三季度公司毛利率为32.9%,净亏损3.073亿元,截至2025年9月30日,现金及资本储备达54亿元,为长期发展提供支撑 [3] 商业化进展与全球布局 - 公司是全球唯一在8个国家获得自动驾驶许可的企业,在国内已在北京和广州实现纯无人商业运营,广州每辆商业化Robotaxi在每日24小时运营时段内完成至高25单行程 [4] - 2025年公司相继在阿布扎比启动纯无人商业运营、在沙特利雅得推出该国首个Robotaxi试点,并于12月在迪拜启动公开运营,正式获得瑞士首个纯无人牌照 [4] - 截至2025年10月,公司自动驾驶业务已覆盖全球超过30个城市和区域,Robobus等多元化产品已在全球11个国家的30个城市开展研发、测试与运营 [51][97] L4自动驾驶行业趋势 - Robotaxi依托端到端架构及多模态大语言模型、世界模型等技术,突破了传统辅助驾驶的局限,L4级与L2+级在硬件、软件、安全冗余设计和方法论上存在根本差异 [5][18] - 安全性方面,多传感器融合与车路云一体化协同大幅提升系统可靠性,根据美国交通部数据,单车智能与C-V2X技术结合可规避96%的交通事故 [26][28] - 成本端,固态激光雷达量产推动硬件降价,Robotaxi的BOM成本已从百万级下探至30万元内,单位经济模型持续优化 [5][38] 市场空间与政策环境 - 中国B端共享出行市场规模稳步扩张,Robotaxi有望替代部分传统及私人出行市场,乐观预期2030年市场规模达2000亿元 [5][41] - 据测算,2024年海外发达地区/欠发达地区Robotaxi的理论触达空间是中国市场的4.4/3.4倍,市场优质程度呈现发达地区>中国>欠发达地区的格局 [5][45] - 政策体系逐步完善,中国已有超过60个城市出台自动驾驶试点示范政策,20个国家级“车路云一体化”应用试点城市已全面开展全无人驾驶车辆公开道路常态化运营 [49][51] 公司技术核心与产品矩阵 - 公司以全栈自研的WeRideOne自动驾驶通用技术平台为核心,支持L2-L4全面无图化,通过端到端模型和世界模型仿真平台提升训练效率与系统性能 [75][83] - 智能驾驶硬件方面,车载计算单元HPC3.0采用双英伟达Thor-X配置,算力达2000TOPS,推动自动驾驶套件成本下降50%,模块化传感器套件组件通用性超90% [86][93] - 公司产品线包括Robotaxi、Robobus、Robovan和Robosweeper,其中Robovan已获超10,000辆意向订单,Robosweeper已在新加坡实现商业化运营 [115][120] 财务表现与预测 - 公司收入由产品销售(如车辆销售)和服务收入(如运营服务)共同贡献,2025年1-3季度,Robotaxi收入达0.97亿元,为2024年同期的3.25倍 [66][102] - 预计公司2025-2027年营业总收入分别为5.55亿元、9.45亿元、19.87亿元,同比增速分别为+53.58%、+70.41%、+110.26% [128] - 预计公司2025-2027年归母净利润分别为-14.4亿元、-13.1亿元、-10.5亿元,毛利率随业务规模化有望从2025年的30%改善至2027年的47% [128] 股权结构与团队 - 公司上市前累计进行了10次融资,累计融资金额超11亿美元,投资方包括Nvidia、宇通客车、广汽集团、博世等产业资本 [57] - 创始人、董事长兼首席执行官韩旭持有公司总股份的4.02%,并通过B类股份掌握超过50%的投票权,为实际控制人 [60] - 创始团队拥有百度、卡内基梅隆、微软等技术背景,并得到李开复等顾问背书,构建了产学研商协同体系 [62]
卓驭创始人沈劭劼:2026,智驾要从“端到端” 到“端到所有地方”
新浪财经· 2026-01-11 13:53
行业整合与竞争态势 - 2025年底,自动驾驶行业出现整合与出清,毫末智行骤然倒下,大卓智能于5月解散并入奇瑞,中智行被裁定破产清算[2] - 几乎同时,卓驭科技获得中国一汽超36亿元的战略投资[2] - 行业竞争核心已从“谁先出发”转变为“谁的迭代系统更快、更高效”,领跑与追赶的差距可能仅在于一次成功模型更新的时间窗口[3] - 2025年第三季度后,行业进入“王炸频发期”,每隔一段时间就有公司发布突破性方案,预计2026年竞争激烈程度将远高于2025年[10][11] 技术范式转型:数据驱动与端到端 - 行业已从规则驱动全面倒向数据驱动的端到端模型,完成此开发范式改造是智驾公司的“斩杀线”,否则将被淘汰[4][5] - 卓驭科技于2024年10月14日做出艰难决定,全删原有代码库(清除3000行代码),正式宣布全面转向端到端,清除了对规则驱动的路径依赖[6] - 转型初期面临模型不成熟、交付压力等挑战,并发现为安全设计的兜底逻辑越多,系统反而越容易因逻辑冲突而“犯傻”[6] - 公司安全保障不再依赖规则兜底,而是通过建立完整的测评体系来实现,并逐渐删除了大量兜底逻辑[6] - 数据质量比数据量更关键,2025年若干次大模型性能大幅提升,源于调整了数据的配比和质量,而非模型本身改变[6] 公司运营与工程化落地 - 数据驱动必须工程化落地,体现在财务规划(算力与数据闭环投入占比)、项目交付(以数据链路通畅为核心KPI)及与主机厂合作的完整“基座”能力[7] - “斩杀线”实则是企业能否构建将数据智能转化为工程确定性的系统能力,这决定了公司是持续进化还是在堆积技术债务[7] - 卓驭科技的模型迭代周期已缩短至每周一次,客户项目交付时间从6个月压缩至1个多月[3] - 模型开发流程重塑后,从最初每周迭代50个模型只有一两个可用,提升到现在每周迭代3-5个模型大多可用[8] - 关键指标TTE(从问题上报到模型更新的时间)大幅缩短,从一年前走一遍流程需要6个月,压缩到现在一个多月[8][9] 技术路线与未来战略 - 对于行业技术路线分歧(如大算力小算力、有图无图、纯视觉与激光雷达),沈劭劼认为这些是工程问题而非哲学问题,最终会相互融合[10] - 卓驭科技将沿着VLA架构推进:V负责感知和一段式端到端;L是多模态大语言模型负责场景理解;A负责接入感知结构并进行未来几秒到10秒级别的推理[12] - 2025年的核心是端到端,2026年的主题是“端到所有地方去”,即证明模型具有横向拓展能力,能应用于更多场景和车型[12] - 公司推行“基座模型”策略,车企可在其基座上进行二次开发,自主进行功能定义、逻辑编写甚至调用大模型,以此打破传统Tier1与主机厂的界限[13] - 商业化保持聚焦,公司绝大多数收入来自乘用车,未来两年99%的数据预计也来自乘用车,对新垂类领域采取谨慎投入策略[13]
空间智能终极挑战MMSI-Video-Bench来了
具身智能之心· 2026-01-06 08:32
文章核心观点 - 上海人工智能实验室等机构联合推出了一个名为MMSI-Video-Bench的全面、高挑战性的视频空间智能评测基准,旨在系统评估多模态大语言模型在真实物理世界中的空间理解与推理能力 [1] - 该基准评测结果显示,当前主流多模态大模型在空间智能方面表现普遍不佳,与人类水平存在巨大差距,揭示了模型在空间构建、运动理解、规划、预测及跨视频推理等多个核心能力上存在显著瓶颈 [10][14] - 研究通过深入错误分析指出,几何推理能力不足是模型表现不佳的关键原因,并且即使引入3D空间线索或思维链提示等辅助方法,也未能显著提升模型性能,表明底层推理能力本身存在根本性不足 [16][18][26] 基准设计与特点 - **全面系统的题型设计**:基准从基础空间感知(空间构建、运动理解)和高层决策(规划、预测)两个层面,构建了覆盖感知、推理与决策全过程的评测体系 [5][6][7] - **五大任务与十三子类**:基准由五大任务类型和13个子类问题构成,全面检验模型能力 [9] - **高质量问题集**:所有问题由11位平均研究年限超过2.5年的3D视觉研究员精心设计打磨,确保了问题的清晰度、准确性和挑战性 [10] - **丰富多样的数据来源**:视频数据来源于25个公开数据集和1个自建数据集,涵盖了机器人操作、室内外场景、自然风光、体育及电影片段等多种类型,全面反映真实世界的复杂空间场景 [11] - **针对性能力测评**:得益于场景和任务的全面性,基准可划分出室内场景感知、机器人和定位三大子基准,方便进行针对性能力测评 [11] 评测结果与模型表现 - **整体表现低下**:对25个主流多模态模型的评测显示,整体得分普遍偏低,表现最优的Gemini 3 Pro准确率仅为38.0%,与人类水平(96.4%)存在接近60%的显著差距 [10][14] - **关键能力瓶颈**:模型在空间构建能力上普遍不足,同时在运动理解、规划、预测以及跨视频推理等能力上也存在明显瓶颈 [14] - **最具挑战的任务**:在所有任务类型中,预测(Prediction)是最具挑战性的主任务,而相机-实体之间的空间关系建模是难度最高的细分类别 [14] - **微调模型泛化能力有限**:即使是经过专门空间任务微调的模型,其能力也未能有效泛化到MMSI-Video-Bench基准上 [14] 错误分析与能力瓶颈 - **五大错误类型**:研究团队将模型错误归纳为五大类型:细致定位错误、ID匹配错误、潜在逻辑推断错误、提示输入对齐错误和几何推理错误 [16] - **核心瓶颈是几何推理**:几何推理错误是最为普遍且影响最大的错误类型,空间构建任务的低表现主要源于几何推理能力不足 [18] - **其他任务的具体困难**:在运动理解任务中,模型难以在快速、细微或长时间跨度的运动中保持精确定位;在规划与预测任务中,模型无法有效结合提示信息与视频进行联合推理;跨视频推理任务的失败则源于多目标跨视频定位的复杂性和利用潜在线索的困难 [20] 辅助方法的局限性 - **辅助方法效果有限**:研究尝试引入3D空间线索(通过3D重建模型生成全局图像)和思维链提示来辅助模型,但均未能带来显著的性能提升 [21][25][26] - **揭示的根本问题**:这些结果表明,如何设计模型真正“可理解、可利用”的空间线索仍是一个开放挑战,且当前模型的失败主要受限于底层推理能力本身的不足,而非缺乏显式推理步骤 [26]
一个近300篇工作的综述!从“高层规划和低层控制”来看Manipulation任务的发展
具身智能之心· 2026-01-06 08:32
文章核心观点 - 机器人操纵作为具身智能的核心难题,正因大型基础模型的出现而迎来变革,其技术框架可统一为“高层规划”与“低层学习型控制”两大模块的协同体系 [1] - 当前技术突破在于基础模型提升了机器人的感知与语义泛化能力,使其能基于自然语言指令在非结构化环境中工作,但规模化落地仍面临通用架构缺失、数据瓶颈、物理交互不足及安全协作等核心挑战 [1][23][26] - 未来研究方向聚焦于构建通用机器人架构、破解数据困境、强化多模态物理交互以及保障安全协作,以推动机器人操纵从实验室走向真实复杂场景 [30][31] 高层规划:任务解构与决策引导 - 高层规划负责明确动作意图、时序组织及环境注意力分配,其核心是融合多模态信息解决“做什么”和“按什么顺序做”的问题,包含六大核心组件 [4] - **基于LLM的任务规划**:以大型语言模型为核心实现自然语言到任务步骤的映射,早期方法如SayCan选择可执行技能,进阶方案如Inner Monologue引入闭环反馈实现动态调整,LLM+P和REFLECT强化了长时程推理与失败处理 [5] - **基于MLLM的任务规划**:联合视觉与语言进行推理,PaLM-E通过机器人具身数据与视觉语言模型共训练实现端到端任务推理,VILA直接复用GPT-4V能力无需微调,机器人专用MLLM如RoboBrain、Gemini Robotics在具身基准测试中表现优于通用模型 [8] - **代码生成**:将规划转化为可执行程序以弥补语言计划的精度缺陷,Code as Policies通过暴露API让LLM生成控制代码,Demo2Code、SHOWTELL支持从演示中提炼程序,Statler、HyCodePolicy通过维护世界状态提升闭环控制鲁棒性 [9] - **运动规划**:利用LLM或视觉语言模型生成连续运动目标以衔接高层推理与低层轨迹优化,VoxPoser构建语言-视觉条件的3D价值图提供优化目标,CoPa、ManipLLM融入物理先验确保可行性,ReKep通过关系关键点实现自主轨迹生成 [10] - **可用性学习**:聚焦“物体能做什么”,从几何、视觉、语义及多模态四个维度学习物体的交互可能性,为操纵决策提供先验知识 [11] - **3D场景表征**:将环境感知转化为结构化动作提案,通过高斯splatting实现可编辑的3D场景表示支持抓取候选生成,借助神经描述场等隐式表征编码几何与语义信息,实现少样本姿态迁移等任务 [12] 低层学习型控制:动作生成与执行落地 - 低层控制负责将高层规划转化为精准物理动作,解决“怎么做”的问题,从学习视角可拆解为学习策略、输入建模、潜态学习、策略学习四大核心组件 [14] - **学习策略**:定义技能获取的核心范式,主要分为三类:强化学习(包括无模型方法如QT-Opt、PTR和有模型方法如Dreamer、TD-MPC)、模仿学习(包括基于动作的模仿如行为克隆和基于观察的模仿)以及辅助任务学习(如世界建模和目标提取) [16][18] - **输入建模**:定义多模态感知的融合方式,主要包括:视觉-动作模型(基于2D视觉如Diffusion Policy或3D视觉如RVT)、视觉-语言-动作模型(整合语义时空信息,如RT-2、OpenVLA、SpatialVLA)以及触觉/力/音频等额外模态(如T-DEX融合触觉信号提升接触-rich操纵的鲁棒性) [19][20] - **潜态学习**:负责从输入数据中获取鲁棒通用的表征并优化其向动作的解码,包括在通用数据上预训练视觉编码器,以及将动作抽象为离散token(如VQVLA)或连续向量(如MimicPlay、LAD)以平衡泛化性与执行精度 [21][24] - **策略学习**:定义将表征解码为可执行动作的模型架构,主流范式包括:结构简单的MLP-based策略、利用注意力建模时序依赖的Transformer-based策略(如ACT)、通过迭代去噪生成多模态轨迹的扩散策略以及提升推理速度与平滑度的流匹配策略 [25] 核心挑战与未来方向 - **通用架构缺失**:现有方法多针对特定任务或机器人形态,缺乏能适配多样模态、载体及任务的通用基础模型,且长时程执行中易出现误差累积,难以维持稳定表现 [26] - **数据与仿真瓶颈**:真实世界机器人数据采集成本高、规模有限,而仿真环境与真实场景存在差异,导致模型迁移性能不佳,缺乏高效的数据循环机制 [27] - **多模态物理交互不足**:当前方法以视觉为中心,对触觉、力等物理交互信号的融合不够充分,难以应对可变形物体、复杂材料等接触动力学主导的场景 [28] - **安全与协作问题**:在人机共存环境中,现有方法在满足内在安全约束、意图推理与故障恢复能力上仍有欠缺 [29] - **未来研究方向**:针对挑战明确了四大重点:构建支持灵活模态接口与载体适配的通用“机器人真脑”架构;建立自主数据采集与提炼的“数据飞轮”并提升仿真保真度;融合触觉、听觉等多模态信号以强化物理交互;设计内在安全的控制策略并建立故障恢复机制,采用“学习+经典控制”的混合范式保障可靠性 [30]
空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没
机器之心· 2026-01-05 16:54
多模态大语言模型空间智能评测基准MMSI-Video-Bench的发布 - 上海人工智能实验室InternRobotics团队联合多所高校推出全新空间智能视频基准MMSI-Video-Bench,旨在全面检验多模态大模型在真实世界中的空间理解与推理能力 [2] - 该基准旨在解决现有评测体系的两类问题:依赖模板生成导致问题多样性不足,以及仅聚焦单一任务与受限场景,难以全面评估模型能力 [2] - 空间理解能力被视为多模态大语言模型走向真实物理世界、成为“通用型智能助手”的关键基础 [2] 基准的核心特点与设计 - **全面系统的题型设计**:基准构建了覆盖感知、推理与决策全过程的空间智能评测体系 [7] - 基础空间感知能力考察:包括**空间构建**(理解全局空间布局、实体与场景状态属性、两两空间位置关系)和**运动理解**(感知长时运动过程,包括实体、相机及交互运动)[6][8] - 高层决策能力考察:包括基于视频信息的**规划能力**和对未来状态的**预测想象能力**[6][8] - 扩展任务范畴:考察**跨视频推理能力**,包含跨时间的记忆更新能力和多视角信息整合能力,以覆盖现实中的复杂情形 [6] - **极具挑战性的问题设计**:所有问题由11位平均研究年限超过2.5年的3D视觉研究员精细设计,确保清晰准确且具有高挑战性 [10] - 所有受测模型表现均吃力,表现最好的Gemini 3 Pro准确率仅为**38%**[10] - 该基准创造了目前最高的**人类-AI性能差距**,约**60%**(人类水平为**96.4%**)[10][14] - **丰富多样的视频数据来源**:视频数据来源于**25个公开数据集**及**1个自建数据集**,涵盖机器人操作、室内外场景、自然风光、体育活动及电影片段等多种类型 [11] - **特定领域针对性测评**:得益于场景与任务的全面性,基准可划分出**室内场景感知**、**机器人**、**定位**三大子基准,用于针对性测评模型特定能力 [12] 主流模型评测结果与能力瓶颈分析 - **整体成绩单**:研究团队评测了**25个主流多模态模型**,整体得分普遍偏低 [14] - 表现最优的模型为Gemini 3 Pro,准确率为**38.0%**,与人类水平(**96.4%**)存在接近**60%**的显著差距 [14] - 开源模型中,QwenVL2.5-72B在“Sufficient-Coverage”设置下平均得分为**31.8%**,InternVL2.5-8B为**28.7%**[16] - **核心能力短板**:实验结果不仅证实了模型在**空间构建能力**上的不足,更全面揭示了在**运动理解、规划、预测以及跨视频推理**等能力上的明显瓶颈 [14] - **预测**是所有任务类型中挑战性最高的主任务 [15] - **相机-实体之间的空间关系建模**是难度最高的细分类别 [15] - 即便是经过专门空间任务微调的模型,其能力也未能有效泛化到该基准 [15] - **错误类型分析**:研究团队将模型错误归纳为五大类型,以定位性能受限的关键原因 [17] 1. **细致定位错误**:精细视觉感知失效,如目标遗漏混淆或时间点-事件对应关系错误 [17] 2. **ID匹配错误**:跨帧过程中难以保持一致的实体身份跟踪 [17] 3. **潜在逻辑推断错误**:在需要依赖隐含线索或常识知识的推理任务中失败 [17] 4. **提示输入对齐错误**:未能将提示信息与视频信息正确结合进行推理 [17] 5. **几何推理错误**:在空间几何关系理解上存在偏差,对相对位置或距离关系判断错误 [17] - **关键瓶颈定位**:对代表性模型的错误分析表明,**几何推理错误是最为普遍、影响最大的错误类型**[19] - **空间构建任务**的低表现主要源于几何推理能力不足 [19] - **运动理解任务**中,模型难以在快速、细微或长时间跨度的运动中保持精确定位 [21] - **规划与预测任务**中,模型除几何推理错误外,还往往无法有效理解提示输入并将其与视频信息进行联合推理 [21] - **跨视频推理任务**的失败主要源于多目标跨视频定位的复杂性,以及模型难以利用潜在线索完成推理 [21] 辅助方法尝试与未来研究方向 - **辅助方法效果有限**:研究尝试引入**3D空间线索**(通过3D重建模型生成全局图像作为额外输入)以及采用**思维链**技术引导规范推理,但均未能带来显著的性能提升 [22][24][27] - **揭示的关键事实**:上述结果揭示了两个关键事实 [27] - 如何设计模型真正“可理解、可利用”的空间线索,仍是一个开放且极具挑战性的问题 [27] - 当前模型的失败并非由于缺乏显式推理步骤,而是受限于**底层推理能力本身仍然不足**[27] - **基准价值与意义**:MMSI-Video-Bench是一个高质量、高挑战性且系统全面的评测基准,其评测结果清晰揭示了当前模型与人类表现的显著差距,明确了模型的关键能力瓶颈,并为未来空间智能模型的技术演进指明了研究方向 [26]
让模型自己找关键帧、视觉线索,小红书Video-Thinker破解视频推理困局
机器之心· 2026-01-02 11:12
核心观点 - 小红书研究团队提出了一种名为Video-Thinker的全新“Thinking with Videos”范式,旨在通过强化学习激发多模态大语言模型在视频推理中的内生智能,摆脱对外部工具的依赖 [2] - 该方法通过将“时序定位”与“视觉描述”能力内化在模型的思维链中,使模型能自主寻找关键帧并提取视觉线索,从而实现对视频内容的自主探索与理解 [2] - 实验表明,Video-Thinker-7B模型凭借极高的数据效率,在多个高难度视频推理榜单上显著超越现有基线,确立了7B量级模型的SOTA性能 [3] 方法:内生能力导向的“数据 - 训练”全链路设计 - **核心愿景与机制**:Video-Thinker旨在实现“能力内化”,通过构建高质量结构化数据(Video-Thinker-10K)和“监督微调+组相对策略优化”的两阶段训练范式,让模型学会在动态视频流中自主导航与思考 [10] - **高质量数据集构建**:团队整合六大主流数据集,通过“后见之明”自动化流水线,生产出兼具精准时序定位与详尽视觉描述的结构化推理数据,样本量达10K [13] - **监督微调阶段**:此阶段强制模型习得Video-Thinker独有的结构化思考范式,即“定位-感知-推理”的标准动作序列,有效抑制模型幻觉倾向 [16][18] - **强化学习阶段**:采用组相对策略优化激发模型内生潜能,通过并行采样多组推理轨迹并利用相对优势指导更新,使模型将机械的格式遵循升华为灵活的视频思维能力 [19] - **涌现的“顿悟时刻”**:经过强化学习训练,模型开始自发展现元认知特征,能对其初步生成的定位或描述进行自我质疑与修正,形成动态的内部反馈机制 [22] 评测:全面验证,7B模型刷新视频推理SOTA - **总体性能优势**:Video-Thinker-7B在域内和域外共11个评测数据集上全面领先,确立了7B参数量级模型的新SOTA [25][28] - **域外泛化能力突出**:在侦探推理类榜单Video-Holmes上准确率达**43.22%**,超越次优基线**4.68**个百分点;在综合性基准VRBench上准确率达**80.69%**,大幅领先最佳基线**11.44**个百分点 [29] - **训练阶段协同效应**:消融实验表明,仅监督微调无法实现强泛化,而随后的强化学习阶段是性能飞跃的关键,使模型在Video-Holmes上的性能提升了**11.70%**,在VRBench上提升了**18.29%** [29] - **推理帧数鲁棒性**:在16帧、32帧和64帧不同输入条件下,Video-Thinker-7B均持续优于对比基线,表明其具备更高效的时序信息整合机制 [30][31] - **内生能力定量验证**:在时序定位任务中,Video-Thinker-7B的平均交并比达**48.22%**,相比基础模型提升**75.5%**;在内容描述任务中,其整体描述质量相比基础模型提升**31.2%**,相比Video-R1提升**61.0%** [33][36] - **内生能力对比外部工具**:实验证明,将能力内化的Video-Thinker-7B表现远超简单外挂工具方案及现有的工具调用方法,在Video-Holmes上取得**43.22%**的最高分,显著优于VideoMind-7B的**38.98%** [34][35][37] 行业影响与未来展望 - Video-Thinker打破了“视频推理必须依赖外部工具”的固有认知,为视频推理领域提供了新范式 [38] - 其成功证明了视频推理能力并非依赖“大参数+大数据”的堆砌,而在于对核心内生能力的精准培养 [39] - 该技术路径有望加速AI在安防监控、智能教育、工业运维等领域的落地应用,赋能行业智能化升级 [39]
NeurIPS 2025 | 告别全量扫描!浙大提出COIDO:破解多模态数据选择「高耗」难题
机器之心· 2025-12-13 16:31
研究背景与动机 - 多模态大语言模型的能力高度依赖高质量的视觉指令微调,但数据集规模爆炸式增长导致全量微调计算开销巨大且存在冗余[8] - 现有数据筛选方法普遍存在两大痛点:筛选成本高昂,需要目标模型对全量数据进行反向传播;优化目标解耦,将重要性与多样性割裂处理,导致次优权衡[12] 方法论核心创新 - 引入轻量级插件评分器,仅需随机采样一小部分数据(例如20%)进行训练,即可学习整个数据集的分布特征并对剩余数据泛化评分,无需遍历全集[14] - 提出重要性与多样性的耦合优化框架,将两者统一在联合训练中,而非分阶段进行[14] - 重要性损失基于交叉熵损失的重加权,使评分器隐式学习样本重要性;多样性损失基于谱聚类的方差最小化,保证数据多样性分布[14] - 引入基于同方差不确定性的自动加权机制,通过动态调整损失权重,实现重要性与多样性的自适应平衡[15][18] 实验性能与效率 - 在多项基准测试中,仅利用20%的数据进行训练和筛选,即可达到全量数据微调98.2%的平均性能[20] - 与现有先进方法相比,COIDO拥有最低的总计算量,仅为4.2E FLOPs,计算效率最高[20][24] - 在相同数据留存率下,COIDO在各个基准测试上均取得了极具竞争力的结果,筛选质量最优[24] - 在LLaVA-665K上训练好的评分器,可直接应用于Vision-Flan数据集,其零样本迁移表现优于在该数据集上从头训练的评分器,证明了强大的泛化性与迁移性[21] 研究总结与意义 - COIDO提供了一种全新的多模态数据筛选范式,打破了“数据筛选必须昂贵”的刻板印象[23] - 该方法通过耦合优化和小样本学习,以极小的计算代价精准定位高价值视觉指令数据,实现了“以简驭繁”[4][23] - 该研究为资源受限的研究者高效微调多模态大语言模型提供了可能,并为未来大规模多模态数据的自动化清洗与治理提供了新思路[23]