具身智能之心 - 财报，业绩电话会，研报，新闻

具身智能之心

搜索文档

具身智能之心· 2025-09-26 10:24

产品定位与核心价值 - 专为教育、科研与轻工业场景设计的轻量级机械臂，旨在解决具身科研领域高性价比硬件需求 [1][2][3] - 产品定位为低成本、高质量，可满足大多数从业人员和科研工作者进行论文验证与科研场景开发的需求 [2] - 融合高精度运动控制、低功耗设计与开放软硬件架构，支持从仿真到真机的无缝联调 [3][4] 核心性能参数 - 机械臂本体重量为4.2千克，额定负载为3千克，具备6个自由度，工作半径为612.5毫米 [6][18] - 重复定位精度达到±0.1毫米，关节运动最大速度最高为220度/秒 [6][18] - 供电电压为24V，通讯方式采用CAN，控制方式支持轨迹跟踪、示教和API [6][18] 软件开发与生态支持 - 提供全流程开源SDK与工具链，支持Python、C++等开发语言，并兼容ROS1和ROS2 [16][17][18][23] - 支持Gazebo等主流仿真环境与真机实时联动，用户可在仿真中验证算法后一键部署至物理设备 [16][20] - 提供从数据采集、模型训练到推理部署的全流程工具链，兼容TensorFlow、PyTorch等主流框架 [16][29] 附加组件与服务 - 提供多种末端执行器选项，重量在631克至704克之间，行程为0-80毫米，定位精度为±0.5毫米 [8][11][13][19] - 交付周期为1-2周，提供及时的售后响应，非人为损坏质保半年 [37] - 支持批量采购优惠，并提供基于本产品的项目开发与教学培训等服务 [18]

VLA这个方向的论文产出，是真的多......

具身智能之心· 2025-09-26 08:04

行业技术趋势 - VLA及其相关衍生方向在机器人与AI顶会中占据近一半的具身产出，重点关注长程操作、泛化、少样本、VLA+RL和人形机器人等领域[1] - VLA技术打破传统单任务局限，使机器人能在多样化场景中自主决策并灵活应对未见环境，广泛应用于制造业、物流和家庭服务[3] - 该模型已成为研究热点，推动pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA等多个前沿项目发展，促进学术界与工业界合作[3] 产业动态与竞争格局 - 国内外具身智能领域处于蓬勃发展阶段，Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化[5] - 华为、京东、腾讯等科技巨头积极布局，与国外Tesla、Figure AI等公司共同推动领域发展[5] - VLA技术具有高度适应性，可应用于机械臂、四足机器人和人形机器人等多种平台，为各类智能机器人发展提供广泛潜力[3] 技术演进与核心挑战 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆，再到近期Diffusion Policy和多模态基础模型[8] - 前沿模型如RT-2、OpenVLA和PI0实现从视觉输入和语言指令到机器人动作的端到端映射，应用于复杂任务规划和执行[9] - 领域面临核心挑战包括跨域泛化、长期规划与世界模型构建，需将大型语言模型推理能力与机器人控制系统结合[9] 前沿研究方向 - 重点关注多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力等发展方向[9] - 研究如何突破"看得见但摸不着"、"只关注当下不能预测未来"等局限性，向通用机器人智能迈进[9] - 系统分析具身智能领域未解决难点，包括长期记忆、VLA+RL原子技能库构建、动作解码问题和多模态思维链等前沿方向[14]

RoboDexVLM：基于VLM分层架构的通用灵巧机器人操作

具身智能之心· 2025-09-26 08:04

技术框架概述 - RoboDexVLM是一个面向配备灵巧手的协作机械臂的创新性机器人任务规划与抓取检测框架 [2] - 该框架利用灵巧手抓取不同形状和尺寸物体的能力，并基于自然语言指令执行任务 [2] - 该框架是首个融合视觉语言模型的通用灵巧机器人操作框架，支持自然语言指令下的长序列任务规划与零样本抓取控制 [6] 核心技术组件 - 设计了一个具备任务级恢复机制的鲁棒任务规划器，利用视觉语言模型解析并执行开放词汇指令以完成长序列任务 [2] - 提出了一种基于机器人运动学和形式化方法的语言引导灵巧抓取感知算法，专为零样本灵巧操作而设计 [2] - 框架突破传统方法与端到端方法的局限，为具身智能与人机协作开辟新路径 [6] 功能特性与优势 - 支持语言即指令，让机器人听懂自然语言 [7] - 实现灵巧手操作，具备零样本抓取千奇百怪物体的能力 [7] - 利用视觉语言模型作为“大脑”，确保长程任务执行不迷路 [7] - 全面的实验结果验证了该框架在处理长时序场景和执行灵巧抓取方面的有效性、适应性和鲁棒性 [2] 应用与演示 - 框架展示了在复杂环境中运行的能力，以及在开放词汇灵巧操作方面的潜力 [2] - 直播将展示RoboDexVLM从理论到真实世界的实战表现 [7]

RoboSeek破解了长时程任务的核心难题，当操作任务遇上 “具身认知”

具身智能之心· 2025-09-26 08:04

点击下方卡片，关注" 具身智能之心 "公众号 Task 1 Task 2 Task 3 Task 4 Task 5 Task 6 Task 7 Task 8 正是在这一技术困境下， RoboSeek 框架的提出带来了突破性思路，其创新核心源于对 "具身认知理论" 的深度落地 —— 该理论颠覆了 "认知孤立于交互" 的传统认知，强调智能体的认知能力源于与物体、环境的动态交互。基于这一理念，RoboSeek 构建了 "交互驱动感知与动作联合优化" 的全新架构：通过动态进化的 "注意力空间" 捕捉任务关键信息，用强化学习驱动的具身执行器实现精准动作控制，再借助交叉熵方法迭代优化关键目标，最后通过 "从现实到仿真再到现实"（real2sim2real）的迁移流程，破解仿真与现实脱节的难题。这一创新设计的价值不言而喻：在 8 项长时程任务、2 类不同机器人平台的测试中，RoboSeek 实现了 79% 的平均成功率，远超传统基线方法（成功率均低于 50%），不仅为长时程机器人操作提供了稳定可靠的解决方案，更填补了 "具身认知理论" 到 "机器人实际操作" 的落地空白，为通用机器人在真实环境中的应用开辟了 ...

首个代码世界模型引爆AI圈，能让智能体学会「真推理」，Meta开源

具身智能之心· 2025-09-26 08:04

文章核心观点 - Meta公司发布了一个名为Code World Model的新型代码生成大模型，其采用世界模型架构，旨在通过模拟代码执行过程来提升推理和规划能力，代表了与大语言模型不同的技术路径 [1][5][16] 模型架构与技术特点 - CWM是一个拥有320亿参数的稠密、仅解码器结构的大语言模型，支持长达131k tokens的上下文长度 [7][8] - 模型在Python解释器和智能体式Docker环境中使用了大量观测-动作轨迹进行中间训练，并进行了大规模多任务推理强化学习 [12] - 模型基于大量编码数据和定制的Python + Bash世界建模数据进行训练，使其能够模拟Python函数的执行以及Bash环境中的智能体交互 [22] 模型性能表现 - 在通用编程与数学任务上，CWM表现如下：SWE-bench Verified pass@1为65.8%，LiveCodeBench为68.6%，Math-500为96.6%，AIME 2024为76.0% [8][23] - 在Aider Polyglot基准测试中，采用整文件编辑格式时，CWM的准确率为35.1%，与Gemini 2.0 Pro exp-02-05的35.6%和Grok 3 Mini Beta的34.7%表现接近 [24] - 在Terminal-Bench上，CWM与Terminus 1智能体配合使用的准确率为26.3%，优于Gemini 2.5 Pro的25.3%和o4-mini的18.5% [28] - 在BigOBench复杂度任务中，CWM在时间复杂度预测与生成的全部指标上均超越基线模型，例如时间复杂度的Code Only pass@1达到76.1%，优于Qwen3-32B的70.0% [29][30] 研究意义与未来方向 - CWM提供了一个强大的测试平台，用于探索世界模型在改进代码生成推理与规划能力方面的潜力 [15][31] - 世界模型方法旨在弥合语言层面推理与可执行语义之间的鸿沟，使模型能够预测自身行为的后果，从而实现更有效的决策 [16][17][31] - 消融实验表明，世界建模数据、Python执行轨迹以及可执行的Docker环境能够直接提升下游任务表现 [31] - 该研究支持未来在零样本规划、具身的链式思维、以及稀疏且可验证奖励的强化学习等方向的研究 [31]

Meta Platforms(US:META)

Artificial Intelligence

World Model

Software

Code World Model (CWM)

Artificial Intelligence

World Model

Software

Code World Model (CWM)

具身智能之心· 2025-09-25 17:54

文章核心观点 - 北京通用人工智能研究院联合星尘智能提出物体中心表征微调框架ControlVLA，使机器人通过极少量（10-20次）人类示范即可掌握复杂任务，成功率超过75%，相较传统方法提升近4倍 [1] - ControlVLA框架结合预训练VLA模型与物体中心表示，通过ControlNet风格架构实现高效少样本微调，大幅缩短机器人训练时间和成本 [1][5][9] - 该技术在星尘智能AI机器人Astribot S1上验证，在8项现实世界任务中总体成功率达76.7%，长时序任务平均成功率达60%，展现出色泛化与执行能力 [1][15][19] 技术原理与方法 - ControlVLA工作流程分为三步：大规模VLA模型预训练、物体中心表示提取、ControlNet式微调适配 [12] - 通过零初始化投影层将预训练VLA模型与以对象为中心表示连接，在不覆盖先验知识情况下引入物体中心条件 [5][10] - 物体中心表示通过GroundingDINO和SAM2对任务相关物体进行分割与跟踪，提取几何特征与位置特征 [12] 实验成果与性能 - 在8个现实世界任务实验中，每个任务仅使用10-20条演示数据训练，ControlVLA总体成功率达到76.7%，远超传统方法20.8%的水平 [14][15] - 长时序任务（如多物体分类整理、抽屉物体替换）平均成功率达60%，约为现有最佳方法的3倍 [17][19] - 在OrganizeToy任务中，ControlVLA使用20条演示数据即可达到80%成功率，而其他方法即使使用100条演示也未能达到同等表现 [21] 泛化能力与鲁棒性 - 在未见过物体（面包、香蕉、橙子）与新背景下测试，ControlVLA仍保持60%-70%的任务成功率 [24][25] - 该方法提升了对复杂场景、长时序任务以及未见过物体与环境的鲁棒性与扩展性 [10][24] 硬件平台支持 - 研究成果基于星尘智能AI机器人Astribot S1完成，该产品采用绳驱传动技术，传动效率>90%，回驱性>80% [2] - 绳驱模仿人类肌腱运动方式，让机器人具备高表现力与高安全性，适合需要精细触觉反馈的AI任务 [2]

从300多篇工作中，看VLA在不同场景下的应用和实现......

具身智能之心· 2025-09-25 12:00

文章核心观点 - 视觉-语言-动作模型是机器人技术从传统控制向通用机器人技术范式转变的关键标志，将视觉-语言模型从被动序列生成器重新定位为在复杂动态环境中执行操作的主动智能体[2] - 该综述基于300多项最新研究，首次对纯VLA方法进行系统全面总结，提出清晰分类体系并分析五类范式的设计动机、核心策略与实现方式[2][3][7] - VLA模型通过整合视觉编码器表征能力、大语言模型推理能力和强化学习决策能力，有望弥合"感知-理解-动作"鸿沟，成为实现通用具身智能的核心路径[15][20][21] VLA模型技术背景与发展历程 - 单模态建模突破为多模态融合奠定基础：计算机视觉领域从CNN到ViT的演进，自然语言处理领域Transformer架构催生大语言模型，强化学习领域从DQN到决策Transformer形成序列决策新视角[13] - 视觉-语言模型作为关键桥梁经历从模态对齐到复杂跨模态理解发展：早期对齐模型如ViLBERT、对比学习模型如CLIP、指令微调模型如BLIP-2和LLaVA[16] - VLA模型核心设计思路包括模态token化和自回归动作生成，实现端到端跨模态对齐并继承VLMs语义泛化能力[15][17] VLA模型主要方法范式自回归模型 - 通用VLA方法发展经历三个阶段：早期统一token化如Gato、大规模真实数据训练如RT-1和RT-2、跨平台泛化与效率优化如Octo和NORA[26][27] - 基于大语言模型的推理与语义规划使VLA从"被动输入解析器"转变为"语义中介"，支持长任务和组合任务的推理驱动控制[29][33] - 结构优化与高效推理机制包括分层模块化优化、动态自适应推理、轻量化压缩与并行化，如MoLe-VLA降低40%计算成本[35][36] 扩散模型 - 通用方法实现从确定性动作到概率性多轨迹生成转变：几何感知生成如SE(3)-DiffusionFields、视频驱动生成如UPDP、时间一致性优化如TUDP[37][40][44] - 多模态架构融合趋势明显：大规模扩散Transformer如Dita、多模态token对齐如M-DiT、推理与扩散结合如Diffusion-VLA[41][45] - 应用优化部署呈现三大趋势：效率优化如TinyVLA仅需5%可训练参数、任务适应性如DexVLG支持零样本灵巧抓取、认知启发架构如TriVLA实现36Hz交互频率[42][46] 强化学习微调模型 - 聚焦奖励设计、策略优化和跨任务迁移：自监督奖励与表征学习如VIP生成密集奖励函数、跨模态奖励代理与人类反馈如SafeVLA引入安全约束机制[48][49] - 实现跨机器人形态适配：四足机器人如NaVILA、人形机器人如LeVERB、自动驾驶如AutoVLA通过链推理微调生成离散可行动作[49][50] - 融合离线与在线强化学习：ConRFT结合离线行为克隆与在线一致性目标，平衡样本效率与策略安全性[49] 数据集与仿真平台支撑 - 真实世界数据集规模显著扩大：Open X-Embodiment整合21个机构22个机器人数据集，包含527项技能和160266个任务，通过标准化格式促进研究可复现性[18][64] - 仿真平台解决数据稀缺和实机测试风险：多样化环境与物理真实性支持，如MuJoCo/Isaac Gym适用于动力学仿真，CARLA面向自动驾驶场景[18][19] - 基准测试评估指标以成功率为主，自动驾驶领域增加L2距离和完成率等专用指标，仿真领域开发交互式导航评分等新指标[65][67][70] 技术挑战与未来方向 - 面临可扩展性、泛化性、安全性三大核心挑战：现有模型难以适应大规模真实场景，在未知场景中准确性下降，实机部署存在安全隐患[21][25] - 数据局限性突出：标注成本高，长尾场景覆盖不足，真实世界数据采集受硬件设备和精准操控限制[18][62][73] - 未来需突破仿真到现实差距，解决多模态对齐稳定性问题，开发更丰富评估协议匹配真实世界自主系统需求[21][73]

基于移动设备采集的3DGS实现个性化Real-to-Sim-to-Real导航

具身智能之心· 2025-09-25 08:04

研究背景与核心问题 - 具身AI（如导航机器人）的训练高度依赖仿真环境，但面临保真度与成本的矛盾，导致仿真中表现优异的策略在真实机器人上难以落地，即sim-to-real迁移难题 [2] 现有技术潜力与局限 - 3D高斯Splatting技术能从普通设备捕获的图像生成高保真3D表征，渲染速度快，但此前相关研究如SplatNav和GaussNav存在局限，未针对室内图像目标导航实现端到端策略训练和真实机器人评估 [3] - 全合成环境（如HSSD）缺乏真实世界细节，导致策略在真实场景性能骤降；高保真真实场景重建（如HM3D、Matterport3D）依赖昂贵专业设备，流程繁琐，无法覆盖多样化部署环境 [6] - 本研究是首个针对室内图像目标导航，实现端到端策略训练、真实机器人评估及明确sim-to-real迁移的基于3D高斯Splatting的方案 [3] 核心方法：EmbodiedSplat的四阶段流程 - 研究设计了从真实场景捕获到机器人部署的完整流程，核心是通过手机低成本捕获结合3D高斯Splatting高保真重建，构建与真实环境对齐的仿真训练场景，实现策略个性化微调与高效sim-to-real迁移 [4] - 阶段1场景捕获使用iPhone 13 Pro Max和Polycam应用记录RGB-D数据，单一场景捕获仅需20-30分钟，无需云台等额外设备 [11] - 阶段2网格重建采用DN-Splatter实现3D高斯训练与网格生成，通过深度正则化（λd=0.2）和法向量正则化维持几何一致性，GS训练迭代30000次后转换为仿真支持的网格格式 [11] - 阶段3仿真训练在Habitat-Sim中进行，每个捕获场景生成1000个训练Episode和100个评估Episode，策略网络采用2层LSTM，使用DD-PPO框架训练 [12][13] - 阶段4真实部署使用Stretch机器人，通过Flask服务器连接远程集群进行策略推理，Episode终止条件为输出停止动作或达到100步，成功判定为机器人最终位置与目标点距离≤1米 [14][17] 实验设计与关键结果 - 实验围绕预训练策略的零样本性能、微调提升效果以及sim-to-real迁移能力三个核心问题展开，数据集涵盖HM3D、HSSD预训练场景和Captured大学场景、MuSHRoom室内评估场景 [19] - 在零样本性能方面，HM3D预训练策略在小场景（如会议室）成功率可达85%-88%，但在大场景（如教室、休息室）性能骤降至50%-53%；HSSD预训练策略零样本性能更差，如在教室场景成功率仅1% [20][24] - 微调后性能显著提升，HM3D预训练策略微调后所有场景成功率超过90%，HSSD预训练策略微调后多数场景成功率超过80%，大场景提升幅度最为显著 [25][28] - 在sim-to-real迁移方面，HM3D预训练策略零样本真实世界成功率仅50%，微调后提升至70%；HSSD预训练策略零样本真实成功率仅10%，微调后提升至40%-50%，重建网格的sim-to-real相关系数高达0.87-0.97 [29][32] - 过拟合实验表明，仅在单个场景训练的过拟合策略在仿真中成功率接近100%，但真实世界性能差（POLYCAM mesh 50%，DN mesh 10%），证明大规模预训练对泛化能力至关重要 [33][35] - 场景规模与PSNR分析显示，零样本成功率随起点-目标点平均最短距离增大而下降，随3D GS的验证PSNR升高而提升，捕获稳定性对重建质量有重要影响 [36][40] - 预训练步数分析发现，HM3D预训练至400M步后零样本性能停止提升甚至下降，HSSD预训练至300M步后进入平台期，说明过度训练会损害对新场景的泛化能力 [38][44]

ARTS 2025大咖云集｜第三届自主机器人研讨会嘉宾公布，相约浙大，开放注册！

具身智能之心· 2025-09-25 08:04

会议概况 - 第三届自主机器人技术研讨会（ARTS 2025）将于2025年10月18日至19日在浙江大学举办，旨在促进自主机器人领域青年学者与工程师的交流，推动产学研合作 [2] - 会议倡导理性批判、务实的科学精神，关注传感与感知、自主导航、状态估计、移动机器人定位建图、运动规划、建模与控制、多机器人系统、具身智能、医疗仿生等多个技术方向 [2] - 本届会议特邀超过40位青年领军研究者，并设有学术辩论会、学术脱口秀、ARTS奖学金及企业参观等多元日程 [2] 组织机构 - 主办单位为中国自动化学会，承办单位为浙江大学控制科学与工程学院及上海交通大学自动化与感知学院，协办单位为深蓝学院 [3] 会议日程与核心议题 - **10月18日主会场**：议程涵盖柔性人工肌肉技术、混合人群中的机器人导航、灵巧手操作、生物混合磁驱微机器人、复杂环境的具身感知与操作、语义定位建图等前沿主题报告，并设有学术吐槽大会、顶会最佳论文分享、学术辩论及奖学金答辩等活动 [4] - **10月18日分会场一（具身智能与大模型论坛）**：包含6个报告，议题涉及机器灵巧手操控、视觉-语言-动作预训练、具身大模型构建通用机器人、空间推理、以人为本的通用机器人构建以及地平线计算平台助力具身智能落地 [4] - **10月19日分会场二（控制规划与多机器人论坛）**：包含6个报告，议题涉及基于神经描绘的环境感知与规划、自动驾驶路缘跟随、AI驱动的运动规划、复杂空间内的规划与技能学习、基于采样的路径规划以及轻量特征驱动的环境理解与导航 [5] - **10月19日分会场三（无人驾驶与移动机器人论坛）**：包含6个报告，议题涉及多无人机协同探测与追踪、面向认知导航的空间感知与行为学习、多模态多智能体协同感知、移动机器人学习预测控制、激光视觉融合的空间智能以及基于可微分物理的旋翼无人机高机动飞行 [5] - **10月19日分会场四（医疗-仿生机器人论坛）**：包含5个报告，议题涉及水下智能仿生机器人、微型仿生扑翼飞行机器人、智能机器人超声医生、柔性手术机器人的增强感知与自主化技术以及基于自适应人机共享控制的可信医疗机器人系统 [5] 主旨报告嘉宾与核心观点 - **赵慧婵（清华大学）**：报告聚焦柔性人工肌肉技术（如介电弹性体驱动器）在机器人中的应用，该技术具有高应力、大行程、高柔性和强环境适应能力，但面临寿命保障等挑战，尚未实现大规模应用 [9] - **潘佳（香港大学）**：报告探讨下一代机器人核心挑战，即在密集混合人群中实现安全、高效、符合社会规范的移动与协同，涵盖个体智能（被动适应社会规范）和群体智能（主动调控人群行为）两个关键问题 [11][12] - **李翔（清华大学）**：报告提出一种新型层次化灵巧操作框架，通过运动-接触联合建模实现动作与接触的协同优化，旨在兼顾灵巧操作的高精度和高泛化性，以解决基于模型方法在在线规划和处理建模误差方面的挑战 [13] - **王化平（北京理工大学）**：报告介绍生物混合磁驱微机器人，该机器人集成生物细胞与材料，具备生物组织特性与仿生能力，在活体环境适应性方面性能优异，有望变革靶向给药、组织修复等疾病诊疗技术 [14] - **乐心怡（上海交通大学）**：报告面向港口和钢铁等复杂恶劣环境，介绍小样本、需求不一致的泛化感知方法，以及针对柔性绳索操作的防摇和模仿学习技术落地案例，并探讨大模型提升工业场景动态适应能力、降低复制成本的可能性 [16] - **陈谢沅澧（国防科技大学）**：报告探讨定位与建图技术从传统几何驱动向语义空间感知的端到端框架演进，介绍在语义SLAM、全局鲁棒定位与动态环境建图方面的进展，包括四维实例感知语义分割、物体级语义定位与建图等 [17][18] 分论坛设置 - 大会除主旨报告外，特设四场分论坛，分别为“具身智能与大模型”、“控制规划与多机器人”、“无人驾驶与移动机器人”和“医疗-仿生机器人”，共邀请32位嘉宾，其中24位为报告嘉宾 [19][21] 会议注册信息 - 会议注册费用根据身份和会员资格区分：全日制在校生会员为300元，非会员为400元；高校老师/工程师会员为1200元，非会员为1500元，报名截止日期为2025年10月16日 [24] - 提供了中国自动化学会会员注册链接、ARTS 2025会议注册链接以及会务组联系人与联系方式 [26]

具身的「Imagenet 时刻」，李飞飞团队官宣全球顶级具身智能挑战赛

具身智能之心· 2025-09-25 08:04

文章核心观点 - 具身智能领域正迎来一个类似ImageNet的里程碑时刻，其标志是李飞飞团队与斯坦福AI实验室在NeurIPS 2025推出的首届BEHAVIOR挑战赛 [1] - BEHAVIOR挑战赛是一个为具身智能量身定制的综合性基准测试与研究资源，旨在通过大规模、高保真的家庭任务，推动机器人完成真实、复杂操作的能力发展 [1][14][20] - 该挑战赛不仅是一场学术竞赛，更是一次面向核心科学问题的集体实验，旨在探索具身智能距离独立完成以人为本的家务任务还有多远，以及泛化与扩展性等关键问题 [20][22] BEHAVIOR挑战赛的定位与意义 - 被视为具身智能与机器人领域的潜在“拐点时刻”，类似于引爆深度学习浪潮的Imagenet挑战赛 [1] - 是有史以来最全面的具身智能研究资源，旨在推动该领域的发展 [14] - 其价值不仅在于奖项（最高1000美元），更在于能在NeurIPS舞台与全球顶尖团队交流与展示 [16] 挑战赛的核心特点与规模 - **任务规模前所未有**：涵盖真实家庭场景下最关键的1000个日常任务，并首次以50个完整长时段任务作为核心赛题 [1][5] - **任务复杂度高**：平均单个任务需要6.6分钟连续操作，考验机器人在逼真虚拟环境中完成贴近人类生活的操作 [1][5] - **能力要求全面**：要求机器人同时具备跨房间导航、双手精细操控、长期规划与动态适应等多项能力 [4] 挑战赛的技术与数据支持 - **高保真环境仿真**：基于NVIDIA Omniverse的高保真模拟器OmniGibson，支持衣物折叠、液体倒水、加热/冷冻等复杂物理交互 [6] - **数据史无前例**：提供10,000条专家遥操作示范，总计1,200+小时，细致标注物体状态、空间关系和自然语言描述，为模仿学习和强化学习提供“黄金数据集” [8] - **平台统一**：采用星海图R1 Pro机器人作为默认本体，其双手协调与稳定导航能力保证了研究成果的可迁移性 [10] 挑战赛的赛制与评估 - **赛题**：完成50个来自真实家庭场景复杂活动的BEHAVIOR任务 [19] - **主要评估指标**：任务成功率（完全达成 vs 部分达成） [19] - **辅助评估指标**：效率（用时、路径、动作）、数据利用率（示范数量 vs 成效） [19] - **时间线**：2025年9月2日开放报名与数据下载，11月15日最终评估，12月6-7日在NeurIPS 2025公布结果 [19] 挑战赛的资源与参与方式 - **官方网站**（behavior.stanford.edu）提供安装仿真器、下载3D资源与模型、加载数据集、入门套件、示例脚本和评估例程的详细指南 [17] - 提供从仿真器设置到提交结果的详细教程和分步指南，方便新手入门 [18] - **基准方法**：官方提供模仿学习（如ACT、Diffusion Policy）与视觉语言行动模型（如OpenVLA、π0）的完整训练评估流程，帮助选手快速入门 [19]