机器人虚拟训练 - 财报，业绩电话会，研报，新闻

机器人虚拟训练

搜索文档

36氪· 2025-10-30 18:07

核心技术突破 - 提出可控生成世界模型Ctrl-World，使机器人能在“想象空间”中进行任务预演、策略评估与自我迭代[4] - 模型核心创新包括多视角联合预测、帧级动作条件控制和姿态条件记忆检索三大技术，解决了传统世界模型的单视角幻觉、动作控制不精细和长时一致性差三大痛点[10][13][21] - 该模型使用零真机数据，将下游任务的指令跟随成功率从38.7%提升至83.4%，平均改进幅度达44.7%[4][36] 技术细节与性能 - 多视角联合预测结合第三人称全局视角与腕部第一视角，通过空间Transformer实现跨视角空间关系对齐，峰值信噪比达23.56，结构相似性达0.828，显著优于传统单视角模型[15][17][27] - 帧级动作控制将机器人动作序列与视觉预测严格绑定，实现厘米级精准操控，移除该条件后模型PSNR从23.56降至21.20[18][20] - 姿态条件记忆检索机制通过检索相似历史帧校准预测，使模型能稳定生成20秒以上连贯轨迹，时序一致性指标FVD仅97.4，远低于基线模型[21][25][26] 行业应用价值 - 模型能将机器人策略评估周期从“周级”缩短至“小时级”，虚拟预演与真实世界的指令跟随率和任务成功率相关系数分别达0.87和0.81[30][31][33] - 通过生成400条虚拟轨迹对基础策略进行微调，可将调试成本降至传统专家数据方法的1/20，显著降低工业机械臂调试和家庭服务机器人适配的成本[34][36][41] - 技术有望成为机器人通用训练平台，推动人形机器人在开放世界场景中的应用，解决策略评估成本高、数据永远不够用的行业核心难题[7][8][39]

让机器人在“想象”中学习世界的模型来了！PI联创课题组&清华陈建宇团队联合出品

量子位· 2025-10-30 16:39

文章核心观点 - 斯坦福与清华大学团队联合提出可控生成世界模型Ctrl-World，该模型通过让机器人在虚拟“想象空间”中进行任务预演和策略迭代，显著提升了机器人策略在下游任务中的性能，成功率从38.7%提升至83.4%，平均改进幅度达44.7% [4][5][49] - 该模型解决了机器人训练在真实世界中面临的高成本、低效率以及数据稀缺的核心难题，通过三项关键技术实现了高保真、可控制、长连贯的虚拟预演，将策略评估周期从“周级”缩短至“小时级” [7][12][44] - 此项技术构建了“虚拟预演-评估-优化-真实部署”的新闭环，有望成为机器人的通用训练平台，对工业自动化和家庭服务机器人等领域具有重大应用价值，可大幅降低调试成本并加速适配个性化任务 [53][55][56][57] 研究背景与动因 - 当前视觉-语言-动作模型在开放世界场景下面临两大核心难题：策略评估成本高昂，真实测试存在机械臂碰撞（故障率约5%-8%）、物体损坏（单轮测试成本超千元）等问题，评估周期长达数天；策略迭代困难，传统改进方式依赖人类专家标注新数据，标注100条高质量轨迹需资深工程师20小时，成本超万元，无法覆盖所有场景 [7][8][9] - 传统世界模型存在三大关键局限，阻碍其支持策略在环推演：单视角预测导致部分可观测性问题和高幻觉率；动作控制不精细，无法反映细微动作差异；长时一致性差，预测10秒后即出现显著时序漂移，失去参考价值 [10][11] 模型核心技术突破 - **多视角联合预测**：模型创新性地联合生成第三方全局视角和腕部第一视角，通过空间Transformer实现跨视角空间关系对齐，解决了视野盲区问题，使物体交互幻觉率降低；定量数据显示其峰值信噪比达23.56，结构相似性达0.828，远超传统单视角模型 [16][17][20][21][23] - **帧级动作控制**：通过将机器人动作序列转化为机械臂姿态参数，并利用帧级交叉注意力模块实现每一帧视觉预测与对应姿态的严格绑定，实现了厘米级的精准操控；消融实验显示，移除该功能后模型PSNR从23.56降至21.20 [24][25][29][30] - **姿态条件记忆检索**：引入记忆检索机制，通过稀疏采样历史帧并以姿态信息进行锚定，有效解决了长时预演的时序漂移问题；该机制使模型能稳定生成20秒以上的连贯轨迹，时序一致性指标FVD低至97.4，远优于基线模型 [31][32][35][36] 实验验证与性能表现 - **生成质量**：在10秒长轨迹生成测试中，Ctrl-World在多项核心指标上全面领先基线模型，包括PSNR（23.56）、SSIM（0.828）、LPIPS（0.091）和FVD（97.4），证明其虚拟画面与真实场景的高度契合 [38][39][40][46] - **策略评估准确性**：虚拟预演的“指令跟随率”与真实世界的相关系数达0.87，“任务成功率”与真实世界的相关系数达0.81，表明无需启动真实机器人即可准确判断策略性能 [41][42][43] - **策略优化效果**：通过在虚拟空间中生成400条陌生任务轨迹并筛选出25-50条成功轨迹用于微调，使基础策略π₀.₅在多项任务上成功率大幅提升，例如空间理解任务从28.75%升至87.5%，新物体抓取任务从25%升至75%，整体成功率从38.7%提升至83.4% [45][48][49][54] 行业应用与未来展望 - 该技术对工业场景价值显著，可将单条生产线机械臂调试周期从1周缩短至1天，大幅降低调试成本；对家庭服务机器人，则能快速适配操作异形水杯、整理不规则衣物等个性化任务 [56][57] - 未来研究方向包括将视频生成与强化学习结合以实现自主探索，以及扩大训练数据集以提升对复杂物理场景和极端环境的适配能力，推动人形机器人更快走向开放世界 [51][52][53]

人民网· 2025-06-05 18:11

机器人虚拟训练技术 - 群核科技开发了专为机器人打造的虚拟学校"群核空间智能平台"，用于训练机器人的空间理解和交互能力 [3] - 传统机器人训练需搭建真实场景且效率低下，一个简单动作需数月反复练习，而虚拟训练将学习效率提升数十倍 [3][5] - 平台积累了超过3.62亿个3D模型作为训练数据，可快速生成场景变体，例如一天内生成200多万个杯子摆放变体 [3][5] 机器人应用案例 - 机器人"小陶"经过虚拟训练后动作准确率达90%以上，已应用于机场手推车回收、无人药店药品分发、智能仓储分拣等场景 [5] - 虚拟训练显著加速研发投产速度，使机器人能灵活应对障碍物和复杂任务 [5] 技术升级方向 - 团队正研发高级空间推理课程，未来将教会机器人理解动作原理（如抓取角度选择、力度控制）以实现智能决策 [5] - 浙江计划到2027年使人形机器人产业规模突破200亿元，推动更多商业化应用落地 [7] 区域产业生态 - 浙江是全国首个提出"机器人+"政策的省份，已形成包括南湖脑机交叉研究院、浙大量子研究院、人形机器人产业创新中心等技术平台 [6][7] - "杭州六小龙"高技术平台为人形机器人产业提供创新动力，加速产业链集聚 [6]