具身智能之心
搜索文档
清华、上海AI Lab等顶级团队发布推理模型RL超全综述
具身智能之心· 2025-09-15 08:04
强化学习在大推理模型中的发展历程 - 强化学习自1998年Sutton提出概念以来 明确奖励信号可使智能体在复杂环境中超越人类 [4] - 2013年DeepMind展示RL训练智能体仅凭像素和得分反馈学会玩《打砖块》游戏 [4] - AlphaGo和AlphaZero通过自我对弈和奖励信号在围棋等棋类达到人类难以企及水平 [4] - 大模型时代RL应用于人类反馈强化学习(RLHF)使模型回答更符合人类偏好 [4] 大推理模型(LRM)的新趋势 - 研究者希望通过RL让模型不仅"更听话"且真正学会"推理" 通过可验证奖励提升数学题答对率或代码测试通过率 [5] - OpenAI的o1和DeepSeek-R1展示RL训练后模型具备更好规划、反思和自我纠正能力 [5][13] - 推理能力可通过扩展不断增强 与参数规模、训练数据并列成为新扩展路径 [5][13] 技术实现与核心突破 - LRM采用可验证奖励训练(RLVR)掌握长链推理能力 包括规划、反思和自我纠错 [13] - OpenAI o1性能随额外RL训练算力增加和推理阶段"思考时间"算力增加持续提升 [13] - DeepSeek-R1在数学任务采用基于规则准确率奖励 编程任务采用编译器/测试驱动奖励 展示大规模GRPO算法引导复杂推理能力 [13] - RL方法从RLHF(2022)演进至DPO(2023)再到RLVR(2025) 任务解决能力和能力提升持续增加 [15] 系统特性与扩展路径 - LRM在推理过程分配大量计算资源生成、评估和修正中间推理链 性能随计算预算增加提升 [15] - 提供与预训练数据规模和参数规模扩展互补的能力增长路径 [15] - 利用奖励最大化目标在存在可靠验证器领域实现自动可检验奖励 [15] - RL通过生成自监督训练数据克服数据限制 被视为实现通用人工超级智能(ASI)的潜在技术路径 [15] 研究综述内容框架 - 引入LRM语境下RL建模基本定义 梳理自OpenAI o1发布以来前沿推理模型发展 [16] - 回顾RL for LRM核心组件:奖励设计、策略优化和采样策略 比较不同研究方向和技术方案 [16] - 讨论基础性与争议性问题:RL角色、RL vs SFT、模型先验、训练方法及奖励定义 [16] - 总结训练资源包括静态语料库、动态环境和训练基础设施 [16] - 综述RL在编程任务、智能体任务、多模态任务、多智能体系统、机器人任务及医学应用 [16][18] - 探讨未来研究方向包括新算法、新机制、新功能及其他潜在路径 [16][18] 领域挑战与机遇 - RL在大推理模型应用面临奖励设计合理性、算法效率、数据与算力支撑等挑战 [6] - 扩展挑战不仅限于计算资源 还涉及算法设计、训练数据和基础设施 [8][15] - 如何扩展RL实现更高水平智能并产生现实价值仍是未解决问题 [15] - 需重新审视领域发展 探索增强RL可扩展性策略以迈向通用人工超级智能 [8][15]
SimpleVLA-RL:突破 VLA 模型训练瓶颈,RL实现端到端在线训练
具身智能之心· 2025-09-15 08:04
研究背景与核心问题 - 视觉-语言-动作(VLA)模型是机器人操控领域的关键范式 能整合视觉感知 语言理解与动作生成 实现复杂物理环境中的任务执行 [2] - 当前主流训练流程为大规模预训练加监督微调(SFT) 但存在数据稀缺性和泛化能力弱两大核心瓶颈 [2][5] - 数据稀缺性体现在SFT需大规模人类操作机器人轨迹数据 采集成本极高且规模受限 严重制约模型扩展性 [5] - 泛化能力弱体现在面对分布偏移如未见过的任务 环境或对象时性能大幅下降 尤其在长时序 组合型任务中表现突出 [5] - 大推理模型领域的突破证明强化学习(RL)仅通过结果奖励就能显著提升逐步推理能力 但VLA应用RL面临独特挑战 [2] SimpleVLA-RL框架设计 - 基于veRL扩展 加入VLA交互式轨迹采样 多环境并行渲染及训练推理渲染一体化设计 解决VLA与环境交互慢 成本高的问题 [6][9] - 采用结果奖励建模 摒弃传统RL复杂的过程奖励 使用二元结果奖励 任务成功则整个轨迹奖励为1 失败则为0 [9] - 通过探索增强策略解决VLA模型探索不足问题 包括动态采样 调整GRPO裁剪范围和提高采样温度 [9][10] - 采用修改后的Group Relative Policy Optimization目标函数 移除KL散度正则项 减少内存消耗并避免限制新行为探索 [9][10] - 动作token化策略选择与PPO类RL算法兼容性最好的动作token分布生成方案 通过随机采样生成多样化轨迹 [9][10] 基准测试性能 - 在LIBERO基准测试中 平均成功率从91.0%提升至99.1% 其中长时序任务LIBERO-Long提升12.0个百分点(86.5%→98.5%) [12][13] - 在RoboTwin1.0基准测试中 四个任务平均成功率从39.8%提升至70.4% 其中Blocks Stack任务提升33.1个百分点(7.1%→40.2%) [13] - 在RoboTwin2.0基准测试中 覆盖短中长超长时序12个任务 平均成功率从38.3%提升至68.8% 超越π₀(49.2%)和RDT(33.3%) [14][15] - 即使是需多轮交互的超长时序任务如Put Bottles Dustbin 也提升18.7个百分点 [14][15] 数据效率 - 在单轨迹SFT场景下 LIBERO平均成功率从48.9%提升至96.9% 长时序任务LIBERO-Long从17.3%提升至91.7% [16][17] - 与全轨迹SFT加RL(99.1%)的差距仅2.2个百分点 证明RL可大幅降低对大规模演示数据的依赖 [16][17] 泛化能力 - 在LIBERO的9个已见任务训练加1个未见任务测试实验中 SimpleVLA-RL所有未见任务成功率均提升 [18][22] - LIBERO-Object的Unseen Task 2提升36.5个百分点 LIBERO-Spatial的Unseen Task 1从43.3%提升至71.8% [22] - 证明RL能学习通用技能而非过拟合特定数据 避免SFT的灾难性遗忘问题 [18][22] 真实世界部署 - 仅用仿真数据训练 真实世界机械臂任务平均成功率从17.5%提升至38.5% [7][23] - Stack Bowls任务提升32个百分点(38.0%→70.0%) Pick Bottle任务实现14%成功率 [23] - 验证了高效的Sim-to-Real迁移能力和真实部署能力 [7][23] Pushcut现象与失败模式 - 在RoboTwin2.0任务中 RL训练使模型自主探索出推等超越人类演示的新策略 被定义为Pushcut现象 [8][24] - 结果奖励允许模型探索所有能完成任务的路径 而非局限于人类演示的单一方式 [24] - SimpleVLA-RL的有效性依赖初始模型能力 初始成功率需在阈值以上 RL才能通过探索进一步优化性能 [27][28][29] - 初始成功率为0时即使施加RL性能仍维持0 初始成功率较低时提升有限 初始成功率较高时提升显著 [28][29] 研究结论 - 降低对大规模演示数据的依赖 提升数据效率 [30][32] - 增强模型在分布偏移场景下的泛化能力 [30][32] - 实现高效的Sim-to-Real迁移 提升真实世界任务性能 [30][32] - Pushcut现象证明RL能让VLA模型超越人类演示的局限 探索更优策略 [8][24][32]
明天开课啦!3个月带你搞透具身大脑+小脑算法
具身智能之心· 2025-09-14 16:00
具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦智能体在物理世界中感知环境、理解任务、执行动作并反馈学习的能力 [1] - 大脑和小脑构成具身机器人最重要模块 大脑负责思考感知(语义理解和任务规划) 小脑负责执行(高精度的运动执行) [1] 产业发展动态 - 近2年具身明星团队陆续创业 成立星海图、银河通用、逐际动力等有价值公司 推动具身本体和大小脑技术进步 [3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等企业合作建设具身智能大脑、小脑等关键技术 [5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等多家公司 强化物流科技与家庭服务场景效率与服务能力 [5] - 腾讯、蚂蚁集团、小米等科技巨头积极通过战略投资与合作布局 加快构建具身智能产业生态 [5] - 国外Tesla/Figure AI在工业与物流机器人应用上持续推进 美国投资机构积极支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人 [5] - 国内企业以产业链投资与综合平台驱动具身智能落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发 [5] 技术演进路径 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态实现静态物体抓取 但缺乏任务上下文和动作序列建模 [6] - 第二阶段进入行为克隆阶段 借助专家演示数据学习从感知到控制的端到端映射 具备模仿人类完成复杂任务能力 [6] - 第三阶段2023年兴起Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力 [6] - 2024年进入Vision-Language-Action模型阶段 融合视觉感知、语言理解与动作生成模块 支持零样本或小样本快速泛化 [6][7] - 2025年探索VLA模型与强化学习、世界模型、触觉感知等模块融合 弥补"只能理解不能反馈"等局限 [9] - VLA+强化学习提升机器人在长时任务中的试错能力与自我改进能力 [11] - VLA+世界模型引入环境动态预测 使机器人具备"想象未来"能力 有助于更高效进行规划与决策 [11] - VLA+触觉信息拓展从"看"到"看+触多模态融合"的具身感知边界 推动复杂非结构化环境下更精细安全操作 [12] 技术应用与影响 - 技术演进从低层感知->中层策略->高层理解链条补齐能力短板 迈向通用任务和开放环境智能体时代 [14] - 技术发展造就人形机器人、机械臂、四足机器人等产品落地 服务于工业、家居、餐饮、医疗康复等领域 [14] - 产品和融资络绎不绝 岗位呈现爆发式增长 导致许多同学转入具身智能领域研究 [14]
国内外那些做具身大脑的公司们......
具身智能之心· 2025-09-13 12:03
文章核心观点 - 具身智能已成为全球焦点 重点关注开发机器人"大脑"系统的企业 包括具身大模型和多模态感知决策系统 [2][3] 国内公司技术布局 - 自变量机器人聚焦通用具身大模型研发 采用端到端技术路线 成立不到两年完成8轮融资 [4][6] - 星海图专注于智能导航技术 坚持"一脑多形"理念 开发具身基础模型EFM-1采用快-慢双系统架构 [5][6] - 优必选拥有全栈自研能力 Thinker大模型在三大国际权威基准测试中斩获四项全球第一 [7][10] - 智元机器人发布启元大模型 采用VILLA架构 任务成功率较市面模型提升32% 支持跨本体应用 [8][10] - 银河通用构建三大技术壁垒 自主研发全球首个通用具身大模型 采用大脑+小脑协同框架 [9][10] - 千寻智能开发Spirit V1 VLA模型 国内首个攻克柔性物体长程操作难题的AI模型 [11][14] - 星动纪元研发端到端原生机器人大模型ERA-42 支持机器人完成超过100种动态任务 [12][14] - 逐际动力聚焦本体硬件设计制造 基于强化学习的全身运动控制和具身大脑训练范式 [13][14] - 穹彻智能开发Noematrix Brain 2.0 新增实体概念学习能力 支持3D模仿学习框架和视-触觉融合网络 [15][17] - 智源研究院推出RoboBrain 2.0 以70亿和320亿参数规格实现感知 推理与规划能力统一 [16][17] 国外公司技术突破 - Figure AI开发Helix模型 采用独特双系统AI架构模仿人类直觉和思考认知模式 [18] - Physical Intelligence发布π0通用机器人基础模型 采用预训练+后训练模式 π0.5采用知识隔离训练方法提升泛化能力 [19][22] - 谷歌DeepMind推出Gemini Robotics系列 具备通用性 交互性和灵巧性 Project Astra体现具身智能在人机交互应用 [20][22] - 英伟达开发Eureka系统基于GPT-4打造 支持30余种复杂动作 GR00T N1采用双系统架构实现接近人类运动控制能力 [21][26] - Skild AI研发Skild Brain分层架构 适用于各种四足机器人 人形机器人和移动机械手 [23][26] - Covariant开发RFM-1模型 参数80亿 是世界首个基于真实任务数据训练的机器人大模型 [24][26] 知名研究团队贡献 - Meta和CMU联合打造RoboAgent 采用多任务动作分块Transformer架构恢复高性能策略 [25][26] - 斯坦福李飞飞团队开发VoxPoser 利用VLM和LLM常识知识实现零样本机器人操纵 [25][26]
组内没有人做具身,导师让我先去踩坑......
具身智能之心· 2025-09-13 00:03
具身智能研究路径建议 - 传统工业研究背景团队应从机械臂和具身任务入手而非直接挑战人形机器人[1] - 大模型背景研究者可转向VLA和VLN方向但需补充硬件知识短板[1] - 人形机器人研究需先夯实强化学习基础再逐步拓展到端到端方案[1] - 实验本体选择应优先考虑稳定性以避免硬件维修时间损耗[1] 具身智能之心社区生态 - 社区集成视频图文学习路线问答求职功能现拥有近2000名成员[3] - 计划两年内扩张至近万人规模打造技术交流与分享聚集地[3] - 提供30余条技术路线覆盖基准测试综述与入门学习资源[4] - 邀请数十位产业学术界一线专家提供实时答疑服务[4] - 定期举办圆桌论坛与直播分享本体数据算法领域前沿动态[4] 社区技术资源体系 - 汇总40余个开源项目与60余个具身智能数据集[12] - 覆盖感知交互强化学习多模态模型等16个学习路线[12] - 包含数据采集VLA模型灵巧手设计等13个核心技术模块[6] - 提供仿真平台机器人操作系统多传感器融合等实践方案[6][34] 行业基础设施支持 - 汇总国内外具身智能高校实验室资源助力学术发展[14][16] - 整合教育工业医疗等领域具身机器人公司生态[17] - 收录芯片激光雷达IMU等零部件制造商技术资料[24] - 提供机器人动力学导航控制等基础理论书籍[22] 职业发展服务 - 建立与智元机器人优必选等头部企业内推机制[6][12] - 第一时间对接企业招聘岗位与求职者简历[13] - 提供学术进展与工业落地应用实时资讯[13] - 搭建行业机会挖掘与投资项目对接平台[13]
当准备开展VLA后,发现真的太难了。。。。。。
具身智能之心· 2025-09-12 20:02
VLA技术范式与行业意义 - Vision-Language-Action模型是具身智能领域的新范式,能够根据语言指令和视觉信号直接生成机器人可执行动作,打破了以往单任务训练的局限性[1] - 该模型将视觉信息、语言指令和行动决策有效整合,显著提升了机器人对复杂环境的理解和适应能力,推动了机器人模型向更通用、场景更泛化的方向发展[1] - VLA模型已成为研究热点,推动了pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA等多个前沿项目的发展,促进了学术界与工业界的合作[3] 行业应用与市场格局 - VLA模型广泛应用于制造业、物流和家庭服务等领域,能够在多样化场景中自主决策并灵活应对未见过的环境[3] - 模型具有广泛的平台适应性,能够应用于机械臂、四足机器人和人形机器人等多种机器人平台[3] - 国内外具身智能领域处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化[5] - 华为、京东、腾讯等科技巨头积极布局该领域,与国外的Tesla、Figure AI等公司共同推动行业发展[5] 技术演进与研究重点 - VLA范式技术演进包括从早期的抓取位姿检测到行为克隆,再到近期的Diffusion Policy和多模态基础模型[8] - 重点关注RT-2、OpenVLA和PI0等前沿模型如何实现从视觉输入和语言指令到机器人动作的端到端映射[8] - 研究领域面临的核心挑战包括跨域泛化、长期规划与世界模型构建[9] - 前沿发展方向包括多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力[9] 学术研究体系与课程特色 - 课程采用从理论到实践的全链路培养模式,涵盖VLA模型理论基础、仿真环境搭建、实验设计与论文撰写的全过程指导[15] - 系统性梳理研究前沿,包括隐式端到端、显式端到端、分层端到端三大VLA模型体系[15] - 课程专门分析具身智能领域的未解决难点,包括长期记忆、VLA+RL原子技能库构建、动作解码问题、多模态思维链等前沿方向[15] - 通过真实研究案例分析,指导学生从发现问题到设计有效实验,再到得出有价值结论的完整研究流程[15]
全新范式!LLaDA-VLA:首个基于大语言扩散模型的VLA模型
具身智能之心· 2025-09-12 08:05
技术突破 - 首次将掩码扩散模型引入机器人动作生成领域 基于预训练多模态大语言扩散模型微调 支持并行化动作轨迹预测[5] - 提出局部化特殊Token分类技术 将连续动作空间离散化为32个动作Token 仅在动作相关Token集合计算交叉熵损失 非动作Token被屏蔽[8][12] - 开发层级化动作结构解码策略 显式建模动作间与动作内依赖关系 采用先粗后细生成方式提升轨迹连续性[9][13] 性能表现 - 在SimplerEnv环境平均成功率55.5% 超越CogACT模型4.2个百分点[14][21] - 在CALVIN环境平均任务长度4.01 超越OpenVLA模型0.74[14][21] - 真实机械臂WidowX测试平均成功率58% 较π0模型提升23个百分点 较CogACT提升28个百分点[15][21] 模型架构 - 输入为自然语言指令和场景RGB图像 输出多步离散动作序列 每步动作由7个Token表示三维位置变化 三维旋转变化和夹爪状态[7] - 采用SigLIP-2视觉编码器提取特征 基于LLaDA扩散式大语言模型融合多模态信息 通过投影器实现跨模态统一[10] - 通过动作级置信度估计和重采样机制 优先保留高置信度动作 对低置信度动作进行Token级精细重采样[16] 实验验证 - 在SimplerEnv高拟真仿真平台测试精准操作任务 在CALVIN长时序仿真评估多步骤任务 使用ABC-D设置验证泛化能力[17] - 消融实验显示单独使用LSC技术使平均任务长度提升0.79 叠加HAD技术后进一步提升0.58至4.01[18] - 真实机器人测试包含8个操作任务 涵盖域内任务如"将草莓放入碗中"和域外任务如"将立方体放入未知容器"[17]
智源评测:用数据解码机器人足球赛中的具身智能
具身智能之心· 2025-09-12 08:05
文章核心观点 - 北京智源人工智能研究院(BAAI)具身智能团队在2025世界人形机器人运动会(WHRG)上通过具身智能评测平台EmbodiedVerse对足球赛进行系统化数据分析 旨在通过过程性指标评估机器人综合能力 推动具身智能技术发展 [2][3][4] 机器人足球赛作为评估场景 - 机器人足球赛被选为具身智能的"终极考场" 因其高度动态、对抗性和不可预测的环境能全面测试机器人的感知稳定性、决策适应性和多智能体协作能力 [6][7][8] - 该场景要求机器人在短时间内完成多任务操作 包括感知、定位、追球、射门、躲避与协作 对算法提出极高要求 [8] 过程性量化指标设计 - 突破传统结果导向评价 引入射正次数、门球次数、角球次数、射正率及搬离次数/率等过程性指标 这些指标紧贴机器人技术特征且符合足球裁判标准 [9][11][13] - 搬离次数/率是机器人特有指标 衡量对抗环境中的鲁棒性与稳定性 而射正次数/率、门球和角球次数反映群体协作策略及感知、定位、决策等环节的协同性 [13] 数据驱动的技术洞察 - 感知泛化性存在严重不足:机器人多次将场边白色桌子或广告牌误认为球 暴露视觉模型在真实场景中的脆弱性 需通过多样化数据采集、泛化模型架构和对抗性训练提升 [15] - 中外队伍竞技风格迥异:外国队伍场均射正2.47次、门球1.52次 进攻性更强但搬离率达222% 中国队伍场均角球0.54次 边路推进优势明显且队伍间策略趋同(标准差更低) [17][19] - 赛制影响行为特征:3v3比赛因场地小呈现更高进攻效率(射正率65% 场均射正5.38次) 5v5比赛因对抗性强导致搬离次数显著更高(场均23.88次)且定位球更多 [20][22] 当前能力评估与未来方向 - 优势端:机器人已实现感知-决策-运动控制-多机协作-实时通信的端到端闭环 在角色分配、协作与通信方面展现较好泛化性和鲁棒性 [23] - 短板端:环境适应性不足、感知精度有限、复杂对抗下决策不灵活(如"叠罗汉"场景频发) 需从算法、协作机制和硬件层面优化 [24][25] - 未来重点包括对抗性训练、多样化数据扩展、分布式协作机制优化以及硬件抗干扰能力提升 以缩小与人类水平的差距 [25][26]
机器人走进工厂矿场,外滩这场机器人职业技能赛有意义!
具身智能之心· 2025-09-12 08:05
机器人职业技能表演赛概况 - 蚂蚁数科承办的外滩大会AI科创赛"机器人职业技能表演赛"于9月10日举行 4家具身智能厂商的机器人参与高难度工业与救援场景任务 [2] - 赛事吸引全球近20个国家和地区 8000多支战队 近2万名科技爱好者与AI创业者参与 [9] 参赛公司及表现 - 七腾机器人完成"危境穿越"任务 在模拟崎岖沙地行走 上坡与下台阶时快速调整恢复 体现良好算法基础 [3] - 双瀛航空&求之科技联合研发机器狗完成工业巡检六大动作 包括开关门 识别按钮 拉闸报警 并在救援场景中通过多模态传感器救出仿真婴儿 [5] - 中科慧灵机器人完成模拟矿洞爆破任务 实现毫米级精准插入火药雷管 展现实时纠偏与机械臂协同能力 [7] 技术突破与行业应用 - 机器狗移动能力已较成熟 但精细操作仍是行业痛点 双瀛航空&求之科技通过机械臂加持在力控与视觉融合表现突出 [5][6] - 工业巡检和应急救援被认定为机器人落地最具价值的两大场景 能突破人体极限进入高温 有毒环境执行危险任务 [5][6] - 具身智能在工业场景发展潜力巨大 涵盖制造 质检 产线巡检 物流等重要环节 [9] 赛事成果与行业影响 - 双瀛航空&求之科技队荣获第一 七腾机器人与中科慧灵并列第二名 [9] - 赛事推动行业聚焦真问题 真场景 蚂蚁数科将持续开放高质量训练数据与研发平台 [9] - 技术展示体现从"技术演示"向"产业应用"的推进 强调AI发展应服务于人类保护需求 [9]
当我们再说具身大小脑的时候究竟在说什么?
具身智能之心· 2025-09-11 13:53
具身智能行业概述 - 具身智能成为通用人工智能(AGI)探索的关键方向 强调智能体与物理环境的交互与适应 聚焦感知环境、理解任务、执行动作和反馈学习的能力 [1] - 大脑和小脑构成具身机器人核心模块 大脑负责思考感知和语义理解 小脑负责高精度运动执行 [1] 国内外产业布局 - 近2年具身明星团队创业活跃 星海图、银河通用、逐际动力等从实验室走向商业和工业界 [3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人合作建设大脑和小脑关键技术 [5] - 京东自2025年5月连续投资智元机器人、千寻智能、逐际动力 强化物流科技与家庭服务场景能力 [5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作布局 加快构建产业生态 [5] - 国外Tesla/Figure AI推进工业与物流机器人应用 Wayve和Apptronik获投资机构支持落地自动驾驶与仓储机器人 [5] - 国内企业以产业链投资与综合平台驱动落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发 [5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模 [6] - 第二阶段进入行为克隆阶段 通过专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题 [6] - 第三阶段兴起Diffusion Policy方法 通过扩散模型生成动作轨迹提升策略稳定性与泛化能力 [6] - 2024年进入Vision-Language-Action模型阶段 融合视觉感知、语言理解与动作生成模块 支持零样本或小样本快速泛化 [7] - VLA模型实现从"感知+控制"向"感知+推理+行动"的范式跃迁 代表工作包括OpenVLA、RT-2、PI0等 [7] - 2025年探索VLA与强化学习、世界模型、触觉感知等模块融合 弥补"只能理解不能反馈"等局限 [9] 技术融合方向 - VLA+强化学习提升长时任务试错能力与自我改进能力 [11] - VLA+世界模型引入环境动态预测 使机器人具备"想象未来"能力 [11] - VLA+触觉信息拓展多模态融合感知边界 实现更精细安全的操作 [12] - 技术演进从低层感知向高层理解发展 逐步迈向通用任务和开放环境智能体时代 [14] 应用与人才需求 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地 [14] - 应用覆盖工业、家居、餐饮、医疗康复等领域 相关产品和融资活跃 [14] - 岗位呈现爆发式增长 大量人员转入具身智能领域研究 [14] - 工程与系统能力需求激增 需掌握Mujoco/IsaacGym/Pybullet等平台策略训练与仿真测试 [17] - 需具备训练部署Diffusion Policy/VLA/力触融合模型的能力 [17] - 需实现强化学习在VLA后训练的应用 支持机器人反馈微调 [17] - 需掌握从世界建模预测到策略学习再到物理执行的一体化架构 [17]