Workflow
SayCan
icon
搜索文档
Ai2推出MolmoAct模型:在机器人领域挑战英伟达和谷歌
搜狐财经· 2025-08-14 15:50
行业技术发展 - 物理AI是机器人技术与基础模型结合的快速发展领域 英伟达 谷歌和Meta等公司正在发布研究成果探索将大语言模型与机器人技术融合[2] - 基于大语言模型的方法允许机器人根据交互对象确定下一步动作 谷歌研究的SayCan帮助机器人使用大语言模型对任务进行推理 Meta和纽约大学的OK-Robot使用视觉语言模型进行运动规划和物体操控[4] - 英伟达宣称物理AI是下一个重大趋势 发布了包括Cosmos-Transfer1在内的多个模型来加速机器人训练 Hugging Face发布了299美元的桌面机器人致力于机器人开发的民主化[4] 公司产品创新 - 艾伦人工智能研究所(Ai2)发布全新开源模型MolmoAct 7B 该模型让机器人能够在空间中推理 采用Apache 2.0许可证 数据集使用CC BY-4.0许可证[2] - MolmoAct被归类为动作推理模型 能够运用推理能力理解物理世界 规划空间占用方式并执行相应动作 相比传统视觉-语言-动作(VLA)模型具备三维空间推理能力[2] - 模型通过输出空间定位感知Token来理解物理世界 这些Token使用向量量化变分自编码器预训练提取 能够编码几何结构并估算物体间距离[3] 技术性能表现 - MolmoAct 7B在基准测试中任务成功率达到72.1% 超越了谷歌 微软和英伟达的模型[3] - 模型能够适应不同的具体实现形式如机械臂或人形机器人 只需最少的微调[3] - 空间定位感知Token与VLA使用的Token不同 不是文本输入 使模型能够预测图像空间路径点并输出具体动作指令[3] 行业发展前景 - 创造更具空间感知能力的机器人是开发者的长期梦想 物理AI兴趣正在增加 实现通用物理智能的目标正变得更容易实现[4][5] - 专家认为该研究代表了增强视觉语言模型用于机器人技术的自然进展 是开发更强大的三维物理推理模型的重要一步[4] - 数据开放性为其他学术实验室和专业爱好者提供了坚实基础 因为开发和训练这些模型成本高昂[4]
你的AI管家可能正在「拆家」?最新研究揭秘家⽤具⾝智能体的安全漏洞
机器之心· 2025-07-27 16:45
核心观点 - 上海人工智能实验室与北京航空航天大学联合推出首个专注于具身智能体与家用环境交互安全性的评测基准IS-Bench,设计了150+个暗藏安全隐患的智能家居场景[2] - 当前VLM家务助手的安全完成率不足40%,每10次任务中就有6次可能引发安全隐患[4] - IS-Bench首创从静态评估到动态追踪的具身安全评估新范式,解决了传统评估体系无法捕捉动态风险链和环境探索中新发现风险源的问题[5][6] 评测场景设计 - IS-Bench采用GPT自动生成+人工校验的双保险模式,设计了161个高仿真评测场景,嵌入388个安全隐患点,覆盖10大类家庭生活场景[8][12] - 场景构建流程包括安全准则提取、安全风险注入和安全探针部署三个核心步骤[11] - 所有定制场景在高仿真模拟器中完成实例化与验证,确保任务目标可达成性和安全判定条件可检测性[8] 评测框架 - IS-Bench预置了18项核心基础技能,构建了与高保真模拟器进行逐步交互的执行代码框架[15] - 采用全程实时状态追踪和灵活的分级评测机制,支持阶梯式难度测试[15] - 评测框架能够对智能体每一步操作的安全性进行精细化评估,全面洞察交互流中的风险暴露点[10] 评测结果 - 主流VLM具身智能体的任务安全完成率小于40%,事前防范措施正确率不足30%[19] - 提供物品边界框和初始场景描述可将智能体的安全意识和事前防范正确率提升15%左右[18] - 引入安全思维链提示能将交互安全性平均提升9.3%,但会牺牲9.4%的任务成功率[19] 模型表现 - 闭源模型中Gemini-2.5-pro表现最佳,安全完成率达到78.8%[17] - 开源模型中InternVL3-78B表现最好,安全完成率达到71.4%[17] - 当明确展示安全目标时,部分闭源模型的安全完成率可从<40%跃升至>65%[18]
技术干货:VLA(视觉-语言-动作)模型详细解读(含主流玩家梳理)
Robot猎场备忘录· 2025-06-25 12:21
具身智能与VLA模型技术发展 - VLA模型(视觉-语言-动作模型)是整合视觉、语言和动作的多模态模型,代表具身智能领域的最新进展,推动机器人进入「动得准」阶段 [1] - 2022年Google与CMU的"SayCan"、"Instruct2Act"项目首次实现Transformer模型同步处理视觉指令与动作生成,2023年DeepMind的RT-2模型实现端到端动作生成 [1] VLA模型技术架构 - 核心组件包括视觉编码器(提取图像特征)、文本编码器(处理指令)、动作解码器(输出10-30秒动作路径),形成端到端大模型2.0架构 [2] - 相比传统VLM模型新增动作解码能力,具备更高拟人化与可解释性,支持类人推理与全局理解 [2] - 四大核心特性:架构继承(仅替换输出模块)、动作token化(语言形式表示动作)、端到端学习(感知-推理-控制一体化)、预训练VLM强泛化能力 [4] 行业应用与商业化进展 - 2025年起多家公司发布VLA模型,该技术显著缩短指令理解与执行距离,提升机器人对复杂环境的适应能力 [3] - 双系统架构成为主流技术路径,将VLA拆分为VLM(大脑)与动作执行模型(小脑)以解决长链条端到端问题 [5][6] 技术瓶颈与挑战 - 数据短缺:需同步视觉/语言/动作的高质量多模态数据,采集成本高且可扩展性差,依赖专家数据集导致复杂任务(如多步骤协作)表现受限 [7] - 规划能力缺陷:VLM与动作模型间缺乏时序依赖处理,语义跟随性差导致长流程任务易出现步骤遗漏或逻辑混乱 [7] 行业生态与研究方向 - 主流玩家覆盖五类企业,技术方案分为5大类,重点关注双架构VLA模型的优势比较与落地场景 [5] - 研究方向包括跨任务迁移能力提升、动作token化优化、端到端学习效率改进等 [4][5]
技术干货:VLA(视觉-语言-动作)模型详细解读(含主流玩家梳理)
Robot猎场备忘录· 2025-06-20 12:23
具身智能与VLA模型技术发展 核心观点 - VLA模型(视觉-语言-动作模型)是整合视觉、语言和动作的多模态模型,推动机器人从"看得见"、"听得懂"迈向"动得准"的新阶段 [1] - 2022年Google和CMU的"SayCan"、"Instruct2Act"工作首次实现Transformer模型同时处理视觉、语言和动作轨迹生成,2023年谷歌DeepMind的RT-2模型进一步实现端到端动作生成 [1] - VLA模型被视为端到端大模型2.0,其核心优势在于拟人化推理与全局理解能力,显著缩短指令理解与任务执行的距离 [2][3] 技术框架与特性 - **核心组件**:视觉编码器(提取图像特征)、文本编码器(处理指令)、动作解码器(输出10-30秒动作路径) [2] - **四大特性**: 1 架构继承(仅新增动作输出模块) 2 动作token化(将动作转化为语言形式表示) 3 端到端学习(感知-推理-控制一体化) 4 可泛化性(预训练VLM支持跨任务迁移) [4] 行业应用与挑战 - **商业化进展**:2025年起多家公司发布自研VLA模型,双系统架构(分离VLM与动作执行模型)成为主流技术路径 [5][6] - **数据瓶颈**:训练需大规模多模态同步数据,但硬件商用不足导致数据采集成本高,依赖专家数据集限制复杂任务表现(如RT-2难以处理"准备早餐"等多步骤任务) [7] - **技术缺陷**:缺乏长期规划能力,VLM(大脑)与动作模型(小脑)连接依赖语言指令直接映射,时序处理不足导致长流程任务中易出现步骤遗漏或逻辑混乱 [7] 行业生态与趋势 - **主流玩家分类**:涉及五类企业,技术方案涵盖双架构VLA模型等5大类方向 [5] - **赛道热点**:车企、产业链公司及智驾从业者加速涌入,技术路线聚焦"大脑优先"与"运动优先"之争 [5] - **落地场景**:需突破灵巧手等执行端技术(被称为机器人"最后一厘米"),解决商业化卡点 [5]
自诩无所不知的大模型,能否拯救笨手笨脚的机器人?
虎嗅· 2025-05-06 08:48
机器人技术现状与挑战 - 当前餐饮机器人主要执行重复性任务如制作汉堡、薄饼等 但缺乏应对复杂厨房环境和突发状况的能力[1] - 传统机器人依赖预设编程 无法处理程序外情况 需要定义所有可能动作及效果[1][4] - 工业机器人如Levatas机器狗在限定场景表现良好 但无法适应开放环境任务[7][9] 大语言模型(LLM)与机器人结合 - ChatGPT等LLM为机器人提供海量知识库 弥补常识缺失 实现自然语言交互[5][12] - Google的PaLM-SayCan系统通过LLM理解高阶需求 如根据"健身完"自动选择健康饮品[21][22] - 南加州大学ProgPrompt方法将LLM生成代码与机器人执行结合 任务成功率显著提升[18][19] 技术突破与创新应用 - LLM参数规模爆发式增长 GPT-4达万亿级 北京智源"悟道2.0"达1.75万亿参数[12] - 普林斯顿团队利用GPT-3描述工具特性 使机器人掌握未见过工具的使用方法[23] - 多模态模型成为新方向 可同步生成语言、图像及行动指令[31] 行业应用前景 - 老年护理、家庭服务等领域潜力巨大 但当前技术尚不成熟[26] - 工业检测领域已实现自然语言控制 降低操作门槛[6] - 餐饮自动化可能被彻底改写 需突破物理执行瓶颈[4][14] 技术局限性 - 机器人传感器与执行器有限 难以匹配LLM的广泛语义理解[9][10] - LLM存在"幻觉"问题 可能生成不合理指令 需传统AI程序校验[27] - 物理世界随机性(如光线变化、物体形状差异)仍制约机器人表现[14] 伦理与社会影响 - 训练数据偏见可能导致机器人行为歧视 如面部识别中的种族差异[28][29] - LLM可能放大社会刻板印象 需建立防护机制[29] - 非洲等地区语言覆盖不足 LLM在非英语环境表现较差[28]