具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

斯坦福大学提出RTR框架，让机械臂助力人形机器人真机训练

具身智能之心· 2025-08-28 09:20

文章核心观点 - 提出一种名为RTR的创新软硬件协同系统，通过“教师”机械臂在现实世界中“手把手”地指导“学生”人形机器人进行在线强化学习，以突破人形机器人真机强化学习的瓶颈 [3][5][7] - RTR系统结合了主动物理辅助硬件与高效算法，实现了在真实环境中对机器人策略进行安全、高效的在线微调，显著提升了数据效率和性能 [7][12][14] - 该方法在行走和“荡秋千”两个任务中得到验证，仅需20分钟的真实世界训练即可将仿真预训练的行走策略速度提升一倍，并在20分钟内从零学会周期性摆荡动作 [14][18] 方法硬件设置 - 硬件系统由“教师”和“学生”两组机器人组成：教师系统核心是带力-矩传感器的UR5六轴机械臂，通过四根弹性缆绳柔性连接学生机器人肩部；学生系统基于拥有30个自由度的开源ToddlerBot人形机器人 [9] 算法设计 - Sim-to-Real过程分为三阶段：首先在大量域随机化仿真环境中训练接受隐变量z输入的控制策略；其次在仿真中优化一个“通用”初始隐变量作为真实世界微调的起点；最后在真实世界冻结策略网络，仅在线优化低维隐变量z以实现高效微调 [10][12] - 使用FiLM层将环境动力学相关的隐变量融入策略网络，其效果优于直接将环境动态变量拼接到策略网络观测中的方法 [10][17] 实验验证行走任务 - 消融实验表明，能够主动顺应机器人运动的“柔性”机械臂辅助结合从高辅助过渡到零辅助的课程学习策略，其效果优于固定吊架或固定辅助策略 [14] - RTR提出的“微调隐变量”方法在数据效率和最终性能上均优于微调整个策略网络或微调残差网络的基线方法 [14] 荡秋千任务 - 在纯真实环境强化学习任务中，教师机械臂通过实时力反馈感知摆动相位，在适当时机给予帮助或扰动，其效率高于教师仅作为固定吊架的方案 [18] - 整个学习过程从零开始，在20分钟内学会了幅度明显的周期性摆荡动作 [18] 总结与展望 - RTR框架引入了主动力辅助的新范式，其极具扩展性的框架未来可推广至全尺寸人形机器人及其他复杂机器人系统的真实世界强化学习任务中 [16]

ToddlerBot人形机器人

ToddlerBot人形机器人

EgoTwin ：世界模型首次实现具身「视频+动作」同框生成，时间与空间上精确对齐

具身智能之心· 2025-08-28 09:20

技术框架创新 - 提出EgoTwin框架，首次实现第一视角视频与人体动作的联合生成，两者在时间与空间上精确对齐 [2][5] - 采用三通道网络架构，各通道配备独立tokenizer与Transformer模块，跨通道共享权重以减少冗余计算 [11][13] - 基于Head-centric的动作表示将头部设为根节点，直接输出头部6D位姿，使头-相机轨迹一一对应，无需正向运动学推导 [12] 性能突破 - 轨迹对齐误差(TransErr)从1.28米降至0.67米，降幅达48% [7][18][19] - 手部可见性F-score从0.36提升至0.81，增幅达125% [7][18][19] - 在9项评测指标中全面领先基线，包括I-FID从157.86降至98.17，FVD从1547.28降至1033.52 [18][19] 多模态交互机制 - 建立文本-视频-动作双向因果注意力交互机制，实现动作token与视频token的因果循环闭环 [12][14] - 采用异步扩散机制，视频与动作在各自时间轴独立加噪去噪后再交叉通信，保证同步性 [12][16] - 支持T2VM（文本生成视频+动作）、TM2V（文本+动作生成视频）、TV2M（文本+视频生成动作）三种生成模式 [8][16][24] 数据与训练 - 基于Nymeria数据集使用17万段5秒剪辑视频训练，涵盖百余种日常动作 [8][17] - 训练分三阶段：先训练动作VAE，再冻结文本/视频分支训练动作对齐，最后三模态联合微调 [21] - 使用T5-XXL编码文本（226 token）、3D因果VAE处理视频（41帧480×480压缩至9900 token）、自研1D因果VAE处理动作（81帧23关节骨骼压缩至21 token） [20] 应用场景 - 适用于AR/VR、具身智能与可穿戴设备领域，实现视角一致且因果连贯的生成效果 [2][5] - 消融实验证实移除Head-centric标注、双向注意力或异步扩散任一组件均导致一致性指标急剧恶化 [22][23]

双向因果注意力交互机制

异步扩散机制

Artificial Intelligence

双向因果注意力交互机制

异步扩散机制

Artificial Intelligence

启动招募！外滩大会机器人职业技能表演赛等你来战

具身智能之心· 2025-08-28 09:20

赛事信息 - 外滩大会将举办人工智能硬件科创赛并特设现场机器人职业技能表演赛由蚂蚁数科承办 [4][5] - 比赛赛道设置包括危境穿越区精细作业区紧急救援区涵盖浓烟障碍地形自适应装火药插雷管开关闸火海救援等场景 [5] - 评选规则由现场专家根据任务难度操作准确度流畅度效率自主性等多维度记分 [5] - 报名截止时间为2025年8月30日比赛将于2025年9月10日在上海黄浦世博园区举行 [5] 行业应用前景 - 具身智能产业被期待应用于深矿危楼火海山区工地医院等场景为人类解决困难抵御风险 [2] - 行业目标包括让巡检员不必亲临苦寒之地矿工不必以健康换取生计消防员不必以血肉对抗高温 [2] 社区与资源 - 具身智能之心知识星球是国内首个具身智能全栈学习社区汇总近30+学习路线 40+开源项目近60+数据集 [1][7] - 社区关注方向包括数据集仿真平台 VLA VLN 具身大脑大模型强化学习机器人抓取控制等 [7][10] - 社群拥有近60个技术交流群涵盖大模型机器人感知融合规划控制等方向近200家公司和机构参与交流 [7][10]

英伟达通用机器人芯片来了：AI算力提升7.5倍，宇树、银河通用已搭载

具身智能之心· 2025-08-27 08:04

产品发布与性能参数 - 英伟达正式发布新一代机器人专用芯片Jetson Thor 旨在适配具身智能新算法并支持人形机器人等多种形态[3] - Jetson Thor搭载Blackwell架构GPU AI计算能力达2070 FP4 TFLOPS 是上一代Jetson Orin的7.5倍功耗130W 能效提升3.5倍[3] - 内存容量提升两倍至128GB 显存带宽273GB/s 支持多实例GPU和14核Arm Neoverse-V3AE 64位CPU[7] - 提供两种配置版本：Jetson T5000（AI性能2070 TFLOPS）和Jetson T4000（AI性能1200 TFLOPS）[7] 技术特性与应用场景 - 专为生成式AI模型推理打造支持大型transformer模型、视觉语言模型（VLM）及视觉语言动作模型（VLA）的端侧实时运行[7] - 通过FP4精度与推测解码优化可进一步提升性能支持完整NVIDIA AI软件栈包括Isaac、Metropolis和Holoscan平台[10] - 配套工具支持低延迟与高性能需求兼容主流生成式AI框架如Cosmos Reason、DeepSeek、Llama、Gemini、Qwen及机器人专用模型Isaac GR00T[8] - 旨在解锁基于端侧的高速传感器数据和视觉推理帮助人形机器人实现自主观察、移动和决策[5] 产品生态与市场合作 - 开发套件NVIDIA Jetson AGX Thor起售价3499美元（约合2.5万元人民币）量产模组T5000千片以上单价2999美元（约合2.14万元）[11] - 国内机器人公司宇树科技、银河通用机器人宣布首发搭载Jetson Thor芯片银河通用机器人Galbot已展示工业场景应用[13] - 联影医疗、万集科技、优必选、众擎机器人和智元机器人等公司宣布首批使用新一代端侧算力[14] - 硬件合作伙伴研华科技、米文动力、天准科技等正在打造成套系统传感器企业亚德诺半导体、英飞凌等构建相应组件[14] 战略布局与行业愿景 - Jetson Thor补全英伟达端侧AI算力版图与云端训练平台DGX、仿真平台Omniverse构成完整计算机解决方案[11] - 公司押注机器人、自动驾驶等未来万亿美元级市场认为自动驾驶汽车和机器人技术结合代表"数万亿美元增长机会"[18] - 面向自动驾驶汽车的Nvidia Drive AGX Thor即将上市现已开放预订预计9月开始交付[15] - 英伟达研究人员提出新型混合架构语言模型Jet-Nemotron 在H100 GPU上生成吞吐量较先进开源模型提高53.6倍[15]

英伟达(US:NVDA)

Nvidia Drive AGX Thor

Nvidia Drive AGX Thor

转行，拿到了具身岗位的offer！

具身智能之心· 2025-08-27 08:04

社区发展现状与规模 - 具身智能之心知识星球社区已发展成为集视频、图文、学习路线、问答、求职交流为一体的综合类具身社区，目前拥有近2000名成员 [1] - 社区计划在未来2年内将规模扩大到近万人，致力于打造技术分享与交流的聚集地 [1] - 社区与多家具身机器人公司合作开发教程与功能，并计划将相关内容公布到社区以促进行业发展 [1] 社区资源与技术内容 - 社区内部梳理了近30+技术路线，涵盖benchmark、综述和学习入门路线，显著缩短检索时间 [2] - 汇总了40+开源项目、60+具身智能相关数据集及行业主流仿真平台 [18] - 提供多领域技术学习路线，包括具身感知、强化学习、VLA模型、多模态大模型等18个方向 [18] - 社区定期举办圆桌论坛和直播，覆盖本体、数据、算法等领域，分享行业动态 [4] 行业合作与就业服务 - 社区与多家具身公司建立岗位内推机制，为成员提供简历直推服务 [10] - 发布具身智能相关职位招聘信息，如多模态大模型方向月薪40k-80k，强化学习方向月薪40k-80k [11][13] - 汇总国内外具身智能高校和公司信息，为成员提供学术和职业发展参考 [21][23] 技术研讨与创新 - 社区探讨前沿技术问题，包括机器人仿真、VLA模型应用、sim2real泛化等 [2][4] - 分享多项创新研究成果，如Interleave-VLA框架提升跨域泛化2-3倍，BridgeVLA方案提升真机性能32% [4][5] - 覆盖多传感器融合、机器人操作系统、世界模型等多个技术领域 [6][7][9] 成员互动与支持 - 社区为成员提供实用问题解答，包括设备使用、数据采集、模型部署等 [1] - 成员可自由提问工作选择或研究方向问题，并获得行业大佬解答 [77] - 社区内部交流案例显示，成员从自动驾驶转向具身智能领域的技术过渡路径 [78][80]

具身智能之心知识星球

具身智能之心知识星球

速度提升3倍，CoT推理助力VLA！ECoT-Lite：融合具身机器人推理改善策略的几种机制

具身智能之心· 2025-08-27 08:04

具身思维链推理（ECoT）方法 - 具身思维链推理（ECoT）通过将机器人动作预测分解为中间推理步骤（如物体位置识别、子任务规划或可操作性预测）来提升策略泛化能力，无需额外收集机器人演示数据 [3] - ECoT方法显著提高策略对新场景、新物体和新任务指令的泛化能力，但伴随训练数据需附带详细推理指令以及推理速度较慢的成本（单次动作预测需几秒钟） [3] ECoT-Lite优化方案 - 提出ECoT-Lite轻量替代方法，包括推理预训练、推理丢弃和推理支架等变体，避免常规链式思维推理的缺点同时保留大部分泛化好处 [6][8] - ECoT-Lite在LIBERO模拟基准上取得最先进性能（准确率约90%），在BridgeData V2评估中超越最先进传统VLA模型10-19%，推理速度从1-1.2Hz提升至3.5Hz以上 [8][54] 性能机制假设与验证 - 假设1（表征学习）：推理步骤改善模型内部表征，使策略关注推理要求预测的特征；推理预训练和推理丢弃方法显著提升性能（LIBERO上推理丢弃达89.4%准确率） [24][54][63] - 假设2（学习进程）：推理作为隐式学习课程，帮助模型从简单任务逐步过渡到完整动作预测；推理支架方法对基线性能有小幅提升（+2.9%） [26][87] - 假设3（表达能力）：增加token序列长度增强模型表达能力；但思考标记（thinking tokens）方法反而降低性能（平均下降3.8%），表明主要好处来自语义推理而非计算资源扩展 [28][88] 实验环境与结果 - 在LIBERO-90和BridgeData V2环境中评估，要求策略超越训练数据泛化；LIBERO-90包含90个任务，BridgeData V2评估包括任务分布内泛化、运动泛化、空间关系和未见物体 [41][42] - 完整ECoT在LIBERO-90上达90.8%准确率，推理丢弃达89.4%，推理预训练达87.1%；在BridgeData V2上，ECoT仍是最优但ECoT-Lite速度提升约3倍 [54][58][61] 方法选择建议 - 完整ECoT最大化性能但推理速度慢（1-1.2Hz）；推理丢弃在少任务领域表现优异且支持测试时灵活开启推理；推理预训练在多样化任务领域更有效且不需要成对推理-动作数据 [90][92] - 推荐使用完整ECoT追求最高性能，推理丢弃用于少任务领域或需测试时推理，推理预训练用于多样化任务领域或有无配对数据场景 [92] 局限性 - ECoT-Lite仍需机器人推理训练数据，其提取可能困难且昂贵；策略表达能力可能不是VLA瓶颈，思考标记方法未改善性能 [93] - 实验保持策略架构、训练超参数和推理语料库不变，未来可优化推理预训练以支持跨本体推理迁移，减少对成对数据依赖 [93]

链式思维推理（CoT）

具身思维链推理（ECoT）

链式思维推理（CoT）

具身思维链推理（ECoT）

3个月！搞透具身大脑+小脑算法

具身智能之心· 2025-08-27 08:04

具身智能行业概述 - 具身智能成为通用人工智能（AGI）关键方向强调智能体与物理环境的交互与适应能力聚焦感知环境、理解任务、执行动作及反馈学习[1] - 具身智能核心模块分为大脑（语义理解与任务规划）和小脑（高精度运动执行）类比人类神经系统的分工协作[1] 产业生态与竞争格局 - 近2年星海图、银河通用、逐际动力等明星团队从实验室走向商业化推动本体及大小脑技术进步[3] - 华为2024年底启动全球具身智能产业创新中心与乐聚机器人、大族机器人合作建设大脑与小脑关键技术[5] - 京东自2025年5月连续投资智元机器人、千寻智能、逐际动力强化物流科技与家庭服务场景能力[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加速构建产业生态[5] - 国外Tesla/Figure AI聚焦工业与物流机器人应用 Wayve和Apptronik获投资机构支持落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动落地国外巨头侧重基础模型、模拟环境及类人机器人原型研发[5] 技术演进路径 - 第一阶段抓取位姿检测（Grasp Pose Detection）通过点云/图像预测执行器姿态但缺乏任务上下文建模能力[6] - 第二阶段行为克隆（Behavior Cloning）通过专家数据学习端到端映射存在泛化能力弱与误差累积问题[6] - 第三阶段Diffusion Policy（2023年）通过扩散模型生成动作轨迹提升策略稳定性与泛化能力[6] - Vision-Language-Action（VLA）模型（2024年）融合视觉感知、语言理解与动作生成支持零样本/小样本快速泛化[7] - 2025年进入第四阶段 VLA与强化学习、世界模型、触觉感知融合弥补"只能理解不能反馈"等局限[8] - VLA+强化学习提升长时任务试错与自我改进能力 VLA+世界模型引入环境动态预测 VLA+触觉拓展多模态融合感知[8] - 技术从低层感知向高层理解演进推动人形机器人、机械臂、四足机器人在工业、家居、餐饮、医疗等领域落地[9] 人才与工程需求 - 岗位呈现爆发式增长大量人员转入具身智能领域研究[9] - 产业界从论文走向部署对Mujoco/IsaacGym/Pybullet等平台仿真测试能力需求激增[12] - 需掌握Diffusion Policy/VLA模型训练部署、强化学习反馈微调、世界建模到物理执行的一体化架构实现[12] - 从业人员需具备Python/Pytorch基础及3090ti以上算力设备目标达到1-2年经验水平[18]

通用人工智能（AGI）

人形机器人

四足机器人

通用人工智能（AGI）

人形机器人

四足机器人

研二多发几篇论文，也不至于到现在这个地步……

具身智能之心· 2025-08-26 12:45

核心观点 - 公司提供专业论文辅导服务帮助硕博生在自动驾驶具身智能机器人等AI交叉学科领域快速产出高质量科研论文解决导师放养导致的科研困境 [1][3][8] - 通过系统化12周论文辅导流程实现从选题到投稿的全流程覆盖中稿率高达96% [4][5] - 依托300+全球QS前100高校导师资源提供个性化1v1指导并延伸至名校推荐信及名企内推等职业发展机会 [5][14][15] 服务模式 - 采用腾讯会议在线1v1授课结合微信群答疑的服务形式配备班主任全程督学 [12][13] - 提供精准导师匹配系统从300+导师中筛选3-5位方向契合者供学员选择 [14] - 支持零基础学员通过6个月周期完成论文包含基础课程自主学习环节 [14] 目标客群 - 主要面向计算机专业硕博生尤其导师放养需论文创新思路或科研经验积累者 [9] - 覆盖人工智能领域从业者的升职加薪需求以及考研申博留学的简历提升需求 [9] - 适用于CCF-A/B/C类会议 SCI1-4区期刊 EI会议等不同发文目标群体 [10] 差异化优势 - 背靠国内最大AI类技术自媒体平台拥有顶尖学术资源深耕自动驾驶等领域多年 [3] - 近3年辅导学员超400名中稿率96% 导师均具备顶会/子刊论文发表经验 [5] - 除论文辅导外提供清北/MIT名校推荐信及阿里达摩院华为诺亚方舟等企业内推机会 [15]

2.5w！英伟达推出机器人“最强大脑”：AI算力飙升750%配128GB大内存，宇树已经用上了

具身智能之心· 2025-08-26 12:45

产品发布与性能参数 - 英伟达发布全新机器人计算平台Jetson Thor 基于Blackwell GPU架构 AI算力达2070 TFLOPS 较上一代Jetson Orin提升7.5倍能效提升3.5倍 [1] - 配备128GB LPDDR5X内存显存带宽273GB/s 支持大型Transformer推理与高并发视频编解码 [2][16] - 支持FP4量化和推测解码技术部分模型性能可再提升2倍响应速度达200毫秒内生成首个token 每秒生成超25个token 满足实时人机对话需求 [14][15] 技术架构与兼容性 - 集成Blackwell架构GPU 最高2560个CUDA核及9个第五代Tensor Core 支持MIG技术实现多任务隔离与并行调度 [16] - 搭载14核Arm Neoverse V3AE CPU 针对实时控制与任务管理优化性能显著提升 [16] - 原生支持NVIDIA Isaac仿真开发、Isaac GR00T人形机器人基础模型、Metropolis视觉AI及Holoscan传感器工作流兼容主流生成式AI框架包括Qwen和DeepSeek [7][13] 应用场景与生态合作 - 首批合作企业包括联影医疗、万集科技、优必选等中国公司以及波士顿动力（用于Atlas人形机器人）、Agility Robotics（用于第六代Digit物流机器人） [19][20][21] - 支持多传感器融合通过Holoscan Sensor Bridge将摄像头、雷达、激光雷达数据低延迟直传GPU内存 [16][18] - 提供开发套件与量产模组（T5000完整版单价2999美元/千片 T4000精简版功耗75W）适配移动平台至固定式机器人功耗范围40-130W [9][10][11] 行业战略定位 - 被定位为物理AI与通用机器人时代的核心"大脑" 与训练AI的DGX系统、仿真测试的Omniverse平台构成三计算机协同体系 [22][24] - 强调仿真测试环节对机器人开发的关键性可实现持续的训练-仿真-部署循环升级 [23][24]

英伟达(US:NVDA)

基于大型VLM的VLA模型如何改一步一步推动机器人操作任务的发展？

具身智能之心· 2025-08-26 08:03

文章核心观点 - 大型视觉语言模型VLM正推动机器人操作从预定义任务向开放世界自主执行转变通过视觉语言动作VLA模型整合感知语言理解和动作生成使机器人能理解自然语言指令并在动态环境中执行复杂任务[3][4][16] - 哈尔滨工业大学深圳团队发布首篇系统综述提出VLA模型的单体与分层二元分类体系梳理技术发展核心特征及数据集并指出未来研究方向如记忆机制和3D4D感知升级[5][9][10][74] VLA模型架构分类 - 单体模型整合感知语言理解和动作生成于单一或双系统架构无显式中间表示包括单系统模型统一输入并自回归解码输出动作以及双系统模型分离高层推理与低层动作生成以平衡精度与实时性[19][20][30] - 分层模型显式分离规划与执行通过人类可解释中间表示如子任务关键点或程序连接规划器与策略器分为仅规划器生成中间表示依赖现成策略器以及规划器加策略器端到端优化规划与执行[19][21][41][48] 单体模型技术进展 - 经典自回归解码范式将连续动作离散化为token序列 VLM自回归生成后解令牌为可执行动作如RT-2以PaLM-E/PaLI-X为骨干训练互联网与机器人数据将动作视为语言任务提升语义理解与泛化性[23][24] - 模型性能增强通过扩展感知模态如3D点云 4D时空线索和触觉听觉提升推理能力如引入思维链和分层闭环控制以及优化泛化性如统一动作空间和可逆训练代表技术包括Leo Agent处理点云和CoT-VLA预测子目标[25][26] - 推理效率优化从架构参数和解码策略三方面降低开销如RoboMamba采用Mamba架构达Transformer三倍速度 BitVLA用1-bit权重压缩模型以及PD-VLA并行解码加速动作生成[28][29] 分层模型技术进展 - 仅规划器方法生成程序关键点或子任务等中间表示依赖现成策略器执行如基于程序的Chain-of-Modality生成Python代码控制机器人基于关键点的MoManipVLA预测路点优化轨迹以及基于子任务的PaLM-E统一VQA与指令生成[42][43][45][47] - 规划器加策略器端到端优化规划与执行基于关键点方法如HAMSTER预测轨迹关键点指导策略基于子任务方法如HiRobot分解开放指令为原子命令后执行代表技术还有DexVLA结合VLM规划器与扩散策略器处理长程任务[49][50][51][52] 其他先进技术领域 - 基于强化学习方法通过在线交互或离线轨迹优化VLA策略解决奖励稀疏和样本效率问题如VLA-RL训练过程奖励模型 ReWiND以目标进度为奖励以及ConRFT结合离线与在线训练[54][55][63] - 无训练方法通过架构或计算优化提升效率如FlashVLA稳定场景跳过解码 EfficientVLA剪枝冗余语言层和过滤视觉令牌以及PD-VLA并行不动点迭代加速[56][57][58] - 从人类视频学习利用人类与机器人交互结构相似性迁移任务知识如UniVLA从无标注视频学习任务中心潜在动作 LAPA用VQ-VAE量化动作预训练以及3D-VLA融合视频提升3D推理[59][60] - 基于世界模型整合预测环境动态的紧凑表示通过模拟未来状态优化动作规划如WorldVLA联合预测视觉结果与生成动作 World4Omni生成子目标图像指导策略以及V-JEPA 2-AC通过模拟潜在状态做规划[61][62] 核心特征与能力 - 多模态融合通过共享嵌入空间减少语义偏移令牌级整合捕捉跨模态依赖以及全面模态兼容性无缝整合点云触觉和音频等新模态代表技术包括PointVLA加入点云编码器和VTLA融合触觉输入[64] - 指令遵循依托语义理解与推理实现灵活响应包括语义指令定位动态解读模糊指令任务分解与协作拆分子目标以及思维链推理预测未来视觉状态提升可靠性如ChatVLA-2理解白板数学问题[65] - 多维度泛化实现跨任务跨领域和跨载体适配如DexVLA无需调优完成多样操作 π₀通过异构数据联合训练在家庭环境成功率超90% 以及HAMSTER在七个泛化维度成功率比OpenVLA高20%[65] 数据集与基准测试 - 真实世界数据集捕捉环境复杂性支持语言与动作对齐如OXE整合22个机器人平台的100万+多模态演示 RH20T支持147项任务单样本学习以及DROID含564项自然场景远程操作演示[66][67] - 模拟数据集提供可扩展安全训练环境如BEHAVIOR支持杂乱家庭环境多步骤控制 CALVIN支持无约束语言指令长期操作以及SIMPLER通过校准环境减少模拟到现实差距[67][68] - 人类行为数据集提供语义丰富交互先验如Ego4D含3000小时第一视角视频 EPIC-Kitchens提供细粒度烹饪任务视频以及EgoDex含829小时3D手部追踪视频[68][69] - 具身数据集聚焦规划与推理能力评估如OpenEQA评估功能与常识推理 LoTa-Bench验证LLM生成规划可执行性以及MT-EQA支持多目标推理[69][70] 未来研究方向 - 需优化数据集与基准测试结合大规模真实数据采集与复杂任务套件引入多维度评估指标解决现实差距与任务单一问题并开发记忆机制与长期规划转向目标驱动连贯动作[74][75] - 技术升级包括3D与4D感知整合深度与时间动态信息移动操作整合自适应策略多智能体协作构建共享世界模型开放世界终身学习设计增量知识积累以及模型效率提升通过动态令牌修剪和量化[75]

视觉 - 语言 - 动作（VLA）模型

大型视觉语言模型（VLM）

视觉 - 语言 - 动作（VLA）模型

大型视觉语言模型（VLM）