行业趋势与核心观点 - 行业观点认为,大语言模型(LLM)的革命行将结束,下一个AI技术的突破点将是物理世界的AI,涉及世界模型、因果关系和真正的规划能力[1][5] - 真正的智能需要具备在脑海中进行推演、预测未来的能力,而当前的大语言模型几乎无法触及真实世界复杂的物理性和因果关系[1][2] - 具身智能(Embodied AI)被视为探索通用人工智能(AGI)的新路径,其核心是从物理交互出发,在真实世界中构建智能[3][5] 蚂蚁灵波科技的战略与定位 - 蚂蚁集团通过设立灵波科技,承担在具身智能领域探索AGI的使命,其AGI版图包括数字智能与物理智能[5] - 公司在设立灵波科技前,已布局多家具身智能及机器人相关企业,覆盖整机、核心零部件、灵巧手、具身大模型等多个关键环节[5] - 公司的战略是从真实硬件出发,从数字世界迈向物理世界,旨在为机器人打造更聪明的大脑[6] - 公司的深层野心在于构建机器人领域的“安卓系统”,侧重于基模研发,并选择跨构型路径,与数据提供商合作以满足训练数据多样性需求[18] - 公司计划通过开源模式推进行业进步,并将持续全面开放技术,其商业护城河在于提供高效的“后训练工具链”,帮助硬件厂商以更低的数据量和GPU成本适配模型[17][19][20] - 公司背靠蚂蚁集团的AGI整体战略、业界一梯队的AI基础设施支持以及坚定的资金投入,做好了打持久战的准备[24] 技术路线与模型发布 - 公司选择了一条“非主流”的技术路线,即“互联网数据 + 真实数据”优先,而非主流的“Sim-to-Real”(从仿真到现实)路径[7][8][9] - 公司认为仿真数据在流体、柔性物体、传感器误差等很多场景下还无法模拟,解决这些问题的周期可能比降低真实数据的采集成本更久[8] - 公司在一周内集中开源发布了四款具身智能模型:高精度空间感知模型 LingBot-Depth、具身大模型 LingBot-VLA、世界模型 LingBot-World 以及具身世界模型 LingBot-VA[2][5] - LingBot-VLA 模型基于九种主流构型的超两万小时高质量真机数据进行预训练,在权威评测中超越了一系列国际顶尖基线[9] - LingBot-VA 是全球首个用于通用机器人控制的因果视频-动作世界模型,它结合视频生成模型的“想象”、多模态模型的逻辑推理以及真实环境反馈,实现了“边推演、边行动”[10][12] - LingBot-VA 仅通过30-50次真实世界的演示就能学习新技能,其成功率比常见的基准模型(如 π0.5)高出约20%[10] - LingBot-Depth 模型通过利用深度传感器误差作为掩码来优化深度图,大幅降低了当前主流视觉深度相机的误差[13] - LingBot-World 模型开源了视觉效果堪比谷歌 Genie 3 的实时可交互世界模型,其生成的世界严格遵循物理规律[13] 当前阶段与未来展望 - 具身智能总体技术阶段目前还处于早期,且技术路线尚未收敛[16] - 对于具身智能领域而言,“DeepSeek 时刻”或“ChatGPT 时刻”都还为时尚早[17] - 公司未来的重点是持续加强对具身世界模型的投入,探索具身智能的新上限,并积极拓展生态,协助生态合作伙伴实现落地[17][24] - 从技术角度看,强化学习(RL)的具体落地范式尚未收敛,AI推理中至关重要的System 2(慢思考)能力仍在探索中,这些可能是制约技术大规模落地的瓶颈[23] - 随着四个模型的发布和开源,蚂蚁的AI战略实现了从数字世界到物理世界的关键延伸,“基础模型 - 通用应用 - 实体交互”的全栈路径逐渐清晰[24] - 一个深度融合、开源开放并服务于真实场景的AGI生态正在加速成型[25]
智能必须基于世界模型?我们和蚂蚁灵波团队聊了聊
机器之心·2026-02-05 12:35