基于世界模型的强化学习 - 财报，业绩电话会，研报，新闻

基于世界模型的强化学习

搜索文档

量子位· 2026-02-15 13:30

文章核心观点 - 极佳视界公司推出的GigaBrain-0.5M* VLA大模型在具身智能领域取得重大突破，通过基于世界模型的强化学习范式和人在回路持续学习机制，显著提升了模型在复杂长时程任务中的成功率与鲁棒性，标志着具身智能原生范式的变革 [3][5][9] 模型性能与突破 - GigaBrain-0.5M*是其前代模型GigaBrain-0.1的进化体，后者曾在RoboChallenge中以68.34分和51.67%的成功率(SR)获得全球第一 [4] - 在与主流方法RECAP的对比中，GigaBrain-0.5M*将任务成功率强行拉升了30% [8] - 在折纸盒、咖啡制备、衣物折叠等高难度长时程任务中，实现了接近100%的任务成功率，并可稳定复现成功执行轨迹 [12] 技术架构与训练范式 - 公司提出基于世界模型的强化学习范式，采用迭代式四阶段闭环训练流程 [10] - 创新引入人在回路持续学习机制，通过人工筛选与校正模型推演轨迹进行迭代训练，形成“行动—反思—进化”的闭环式自主迭代升级 [5] - 基座模型GigaBrain-0.5基于总计10,931小时的多样化机器人操作数据进行预训练 [18] - 训练数据中，61%（6,653小时）由自研具身世界模型GigaWorld高保真合成，剩余39%（4,278小时）源自真实机器人采集 [19] - 通过GigaWorld生成合成数据，可控地生成新纹理、新物体位姿与新观测视角下的训练样本，以突破真实采集的长尾瓶颈并增强模型在分布外场景中的适应性 [18][21] 世界模型的价值预测优势 - 基于世界模型的价值预测方案在执行效率与预测精度上，均优于π*0.6所提出的VLM方案 [13] - 在叠衣服任务中，模型预测的价值曲线能与任务物理进程高度对齐，例如衣物摆正时价值稳步上升，出现干扰物时价值骤降，移除后迅速恢复 [14][15][16] - 实验数据显示，基于世界模型（状态+价值）的方案在推理时间(0.25秒)、平均绝对误差(MAE 0.0621)和肯德尔等级相关系数(Kendall 0.8018)等指标上综合表现优于VLM方案 [17] 公司战略与行业影响 - 公司通过“基模-本体-场景”的深度打磨，围绕世界模型平台GigaWorld、通用具身大脑GigaBrain、原生本体Maker构筑了一套能自我进化的闭环生态 [22] - 这种体系化的作战方式使公司具备了将进化效率提升10-100倍的硬实力，致力于推动通用机器人服务千行百业、走进千家万户 [22]

具身智能

基于世界模型的强化学习

人工智能

GigaBrain-0.5M* VLA大模型

具身智能

基于世界模型的强化学习

人工智能

GigaBrain-0.5M* VLA大模型

人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

机器之心· 2026-02-07 15:00

文章核心观点 - 文章介绍了一种名为LIFT的新框架，旨在解决人形机器人从仿真预训练到真实世界部署后持续强化学习的关键难题[2][9] - 该框架的核心是通过离策略强化学习算法SAC进行大规模高效预训练，并结合物理信息增强的世界模型，在真实世界进行安全、样本高效的微调，从而弥合仿真与现实的差距[2][12][18] - LIFT方法在实验中展现出显著优势，包括预训练收敛快、真机零样本部署可行，以及仅需少量真实世界交互数据即可实现高效微调和持续适应[16][20][31] 背景与动机 - 当前人形机器人主流采用Sim2Real路线，策略在部署后即被冻结，难以适应真实世界的变化，且缺乏安全、经济的持续学习能力[2] - 在策略算法PPO虽在仿真中收敛快，但其依赖随机探索且无法有效复用旧数据，使其在真实人形机器人上进行微调或持续学习几乎不可行[7] - 传统强化学习方案（如离策略RL和基于世界模型的RL）直接应用于人形机器人时，面临数据采集确定性导致的不稳定、世界模型误差积累等新瓶颈[14] LIFT框架设计洞察 - **洞察一：SAC在数据受限时更具优势**。相比PPO，SAC的离策略特性使其在数据量和多样性不足时样本效率更高，其随机策略也能促进世界模型内的探索，生成更多样有效的训练数据[12][15] - **洞察二：SAC大规模预训练策略可实现真机零样本部署**。通过系统优化，SAC在行走预训练任务上的收敛时间能从7小时降至半小时以内，且无需复杂技巧即可获得可直接在真机部署的稳定基础策略[16] - **洞察三：物理信息增强的世界模型能提升性能**。将集成网络与人形机器人动力学模型结合，提升了世界模型的预测准确性，使得微调时只需在真实世界用确定性动作采集少量数据，而将高风险探索留在世界模型内进行[16][18] 实验结果 - **预训练收敛与零样本部署**：在MuJoCo Playground任务上，LIFT的预训练回报与PPO、FastTD3相当或更高，且预训练策略可直接零样本部署到真机[20] - **微调样本效率**：在Brax仿真器中，LIFT在分布内、长尾分布和分布外三种场景下，均能在约 `4×10⁴` 个环境样本（约真实世界800秒）内收敛并准确跟踪目标速度[23][24] - **真机微调效果**：在Booster T1真机上，LIFT以仿真预训练后迁移失败的策略为起点，仅用约 `80–590` 秒的真实数据，通过多轮迭代即可修正不稳定行为[31] - **消融实验验证**：实验表明，去除世界模型预训练会显著降低收敛速度；完全去除预训练则易陷入局部最优；物理信息增强的世界模型相比纯集成网络模型，在有限数据下预测更稳健、不易产生物理不合理输出[32][39] 技术路径与未来展望 - 当前技术路径表明，通过可控的真实数据采集并将高风险探索转移至世界模型，是使强化学习在真人形机器人上可行的方向[41] - 要实现规模化应用，仍需突破观测与状态估计（如摆脱对外部动捕的依赖）、安全与重置机制自动化、以及提升系统吞吐量以实现异步持续学习等瓶颈[41]