物理AI的发展趋势与核心突破 - AI技术正取得三大突破:从聊天到干活的智能体、开源模型降低门槛、物理智能理解客观自然世界 物理智能展现出AI开始理解蛋白质结构、化学分子、流体力学等自然科学规律 这被认为是AI的下一波浪潮[1] 物理AI的核心技术范式:VLA与世界模型协同 - 为加速AI理解、重建和生成物理世界,需依赖世界模型这一利用AI训练AI的新工具[2] - 行业共识认为,单纯依赖真实机器人数据采集不够 正在见证VLA模型或VA模型与世界模型双模型协同的新范式崛起[2] - VLA或VA模型担当负责感知、推理和行动的大脑 世界模型充当负责推演和想象的场景模拟器[2] VLA与世界模型协同的价值与路径 - VLA+世界模型是解决物理AI中具身智能数据饥渴和物理安全性矛盾的最优解 真实机器人数据采集较贵、较慢、有危险[3] - 世界模型能生成无穷无尽的仿真数据 可低成本生成各种情景甚至反事实场景 为VLA提供细节丰富的训练场[3] - 斯坦福大学李飞飞教授提出空间智能是连接数字与物理世界的桥梁 世界模型应生成具备3D几何一致性、物理互动性的可操作世界 VLA在此训练才能真正理解物理规律[3] - 协同进化工程化落地分为四个阶段:冷启动、接口对齐、在仿真场景中训练、虚实迁移与校准[4][5] 解决生成式模型物理常识缺失的关键技术 - 需警惕生成式模型在长时间序列预测中的一致性幻觉 如物体突然变大或穿透[6] - 解决对策:引入3D几何、材质等约束 结合3DGS等技术 确保生成的物体在三维空间中守恒[6] - 公司日常训练中将3DGS技术与3D几何图形引擎融合 形成3DGS混合仿真引擎 使虚拟环境物理特性与真实环境保持一致[6] - 为判断任务成功 需训练配套的奖励模型作为裁判 查看生成场景并给出分数反馈[6] - 为解决世界模型推演速度瓶颈 可采用潜一致性模型等加速技术 将预测从像素级转移到特征级 速度可大幅提升[6] 数据共享与互补的最佳实践 - 世界模型训练需要输入真实数据与合成数据[7] - 共享视觉底座:VLA和世界模型的视觉编码器可共享权重或联合训练 以节省显存并保证对世界特征的同频理解[7] - 反事实数据生成:利用世界模型生成假设性失败案例数据 让VLA学习从未经历过的失败 提升鲁棒性[7] - 数据配比:建议发展初期按照真实数据与合成数据1:9的比例混合使用 真实数据用于校准物理规律 合成数据用于拓展多样性[7] 物理AI的演进方向与未来应用 - 世界模型未来需直接生成4D的交互式环境 VLA将在完全三维的动态可交互环境中训练[8] - 在公司的"数字孪生工厂"中 利用物理AI可在虚拟产线调试机械臂、应对异常 再同步到实体工厂执行[8] - 构建动态"虚拟训练场" 使人形机器人在部署前学会应对数千种突发状况[8] - 实现快慢系统默契配合:VLA处理毫秒级实时反应 世界模型处理长程规划 当VLA遇难题可呼叫世界模型推演方案[8] - 最终VLA和世界模型可能合并为一个大一统模型 输入观测时既能预测下一个动作也能预测下一帧状态[9] - 未来应用包括:机器人管家、模拟火星环境中自主作业的工程车、在药物研发中推演蛋白质折叠与分子互作的"虚拟实验室"[10]
五一视界(6651.HK)物理AI的“左右互搏”:世界模型与VLA的闭环进化论