蚂蚁灵波CEO朱兴：聚焦具身领域基模训练，为机器人打造更聪明的大脑

公司AGI战略与版图 - 蚂蚁灵波通过体系化发布并开源四款具身智能模型，实现了公司通用人工智能（AGI）战略从数字世界到物理世界的关键延伸 [1] - 公司AGI版图逐步补全，形成了“基础模型-通用应用-实体交互”的全栈路径，从基础大模型“百灵”、通用AI助手“灵光”到具身智能“灵波” [1] - 公司积极推动模型技术开源，打造了InclusionAI，构建了涵盖基础模型、多模态、推理、新型架构及具身智能的完整技术体系与开源生态 [7] - 蚂蚁InclusionAI已将旗下百灵大模型、灵波具身智能领域模型等全部开源，旨在与行业共建，探索AGI边界 [8] 具身智能模型发布与定位 - 蚂蚁灵波在具身智能的定位是聚焦打造机器人的“大脑”，为本体提供更强大的环境感知、理解与决策执行能力 [1] - 公司关注基模的训练，旨在通过提升基模能力带动物理世界整体智能水平 [1] - 此次发布的新成果包括具身世界模型LingBot-VA、世界模型LingBot-World、高精度空间感知模型LingBot-Depth以及具身大模型LingBot-VLA [2][3] - 具身世界模型LingBot-VA首次提出自回归视频-动作世界建模框架，将大规模视频生成模型能力与机器人控制深度融合，使机器人能够“边推演、边行动” [2] - 世界模型LingBot-World可对标Google Genie 3，为具身智能、自动驾驶及游戏开发领域提供高保真、高动态、可操控的“数字演练场” [2] - 高精度空间感知模型LingBot-Depth为机器人、自动驾驶汽车等智能终端赋予更精准、更可靠的三维视觉，在深度精度与像素覆盖率两项核心指标上均超越业界顶级深度相机 [2] - 具身大模型LingBot-VLA通过2万+小时真机数据预训练，并创新性引入LingBot-Depth模型成果，其真机数据覆盖9种主流双臂机器人构型 [3] 技术路径与研发重点 - 公司研究发现，基于数字世界的预训练，再利用物理世界的数据叠加一层预训练，对具身模型能力的提升非常有帮助 [4] - 灵波团队结合了数字世界多种预训练方式，如多模态模型解决场景理解和逻辑推理问题，世界模型解决“想象”问题，再叠加真实环境反馈，以探索具身智能的上限 [4] - 公司认为世界模型和VLA具身大模型两条路线并不冲突，世界模型也可视为VLA的一种实现形式，应充分结合两种建模方式的优势 [5] - 公司聚焦于具身领域基模的训练，而非特定场景的后训练微调，并坚持模型必须落地应用，通过真实场景中的实际问题来牵引模型能力的迭代 [5] - 公司期待未来具身基座模型能在具体场景中涌现出“one-shot”能力，即通过观察人类一次演示便能以较高成功率完成任务，并视此为具身智能领域的“ChatGPT时刻” [6] 行业挑战与公司应对 - 人形机器人规模化落地应用的一大挑战在于具身模型本身智能不够，无法真正具备足够的泛化性 [2] - 具身智能的一大挑战在于物理世界相关数据的匮乏，导致其大脑更多依赖于数字世界中的预训练模型 [4] - 过去一年，基于VLM的VLA路线发展较快，主要得益于其相对较低的资源消耗，而世界模型由于计算需求较大，研发进展稍缓 [5] - 公司致力于推进具身智能研发进入可复用、可验证、可规模化落地的新阶段，通过全面开源后训练代码让开源真正可用 [3] 商业生态与合作 - 在商业生态层面，蚂蚁灵波侧重于为产业伙伴提供跨架构的基础模型能力 [5] - 奥比中光已与蚂蚁达成战略合作意向，近期将基于LingBot-Depth模型推出新一代深度相机 [5] - 公司表示不同产业伙伴的行业know-how各异，场景落地选择多样，公司更多是做好支持者，支持他们打造更好的场景解决方案 [6] - 公司已积极与多家产业伙伴推进合作并取得初步进展，未来将持续投入于此 [6] 公司AGI领域全面布局 - 通往AGI主要有三条路径：以文字Token为核心的大语言模型、以视觉像素为基础的多模态生成模型、以及融合“视觉-语言-动作”多模态信息的具身智能模型，蚂蚁在这些不同方向上均开展了布局 [7] - 百灵团队此前发布并开源了万亿参数思考模型Ring-1T和万亿参数通用大语言模型Ling-1T，以及千亿参数开源全模态大模型Ming-flash-omni-Preview和千亿参数扩散模型LLaDA2.0，形成了涵盖语言、思考、多模态的全模态体系 [7] - 迄今，百灵大模型家族已发布18款大模型，覆盖从100亿到1万亿的不同尺寸 [7]