百度百舸AI Infra
搜索文档
具身智能的基础设施之战:百度百舸AI Infra如何重塑具身模型研发范式?
机器人大讲堂· 2026-05-20 15:00
文章核心观点 - AI基础设施正经历深刻的技术重构,以支撑具身智能模型的高速迭代,其价值在产业加速期将真正显现[1][3][20] 具身智能模型技术路线 - 技术路线尚未收敛,存在操控类模型与运动控制策略两大研发方向[4] - 操控类模型存在VLA(视觉-语言-动作)和引入世界模型(World Model)两条主流并行范式[6] - VLA路线中,双系统分层架构的视觉语言模型参数量可大于200B,而单体结构通常在10B以内[6] - 世界模型路线旨在让模型建立对物理规律的内在理解,两条路线均在快速推进,特别是世界模型方向在最近4、5个月内出现大规模训练需求[6] - 运动控制策略正经历范式转移,从为每套动作单独设计奖励函数转向使用大量人类动捕数据实现统一化与规模化,例如参数量从1M扩展到40多M[8][10] - 运动控制策略的统一化推动训练规模跃升,需要从两台服务器扩展到128卡、几十台机器的集群化部署[10] 数据瓶颈与工程挑战 - 规模化Ego数据(第一人称视角视频数据)的处理能力滞后是行业最迫切的痛点之一[11] - Ego数据正成为具身大模型规模化训练的核心数据来源,趋势在最近一年明显加速[13] - 典型案例包括:Apple发布EgoDex数据集,Tesla将Optimus训练策略转向人类视频采集,NVIDIA推出基于超两万小时视频的EgoScale数据集[13] - 从原始Ego视频到标准数据集之间存在清洗、标注、结构化后处理的工程鸿沟,缺乏规模化、标准化的处理管线,卡住了模型迭代速度[13] - 数据工程基础设施的建设进度明显滞后于模型架构创新,制约了迭代速度[14] 算力配置与优化 - 当前主流VLA或世界模型参数量级多集中在5B至20B之间,对算力需求看重硬件资源的极致平衡,而非简单堆叠[15] - 对于20B量级以下的模型,盲目堆砌高端硬件会造成资源错配,推高研发成本[15] - 百度百舸为此类模型提供高性价比算力配置及多机并行加速套件[15] - 多模态架构中视觉编码器与语言大模型异构,易出现算力负载失衡[16] - 百度百舸开源LoongForge框架,通过模型异构并行、DP负载均衡等技术,将多模态模型训练性能整体提升15%至45%[16] - 大多数具身企业研发预算有限,算力成本控制直接影响迭代速度和生存周期[16] 工程化矛盾与基础设施价值 - 工程化的核心矛盾在于开源框架灵活但性能优化有限,高度优化的框架性能极致但不支持敏捷变更[17] - 具身模型架构处于快速演化期,底层框架需要兼顾灵活性与性能[17] - 百度百舸在开源灵活框架上提供加速套件以平衡两者[17] - 针对采用扩散结构的世界模型推理效率瓶颈,百度百舸通过工程化加速,将推理延迟最低降至原有水平的四分之一[19] - 云端AI基础设施提供商可将优化能力摊薄到所有客户,这是其相对于企业自建的核心优势之一[19] - 具身智能产业目前处于技术路线未收敛、多种范式并行竞争的阶段,类似大语言模型爆发前夕[20] - 产业迭代闭环涵盖数据处理、模型训练、仿真评测、部署推理全链路,任一环节效率滞后都会拖累整体进度[22] - 对于大多数企业,将基础设施外包给专业平台是理性的资源配置选择,以便聚焦于模型架构创新和场景理解[22] - 应茹特别强调了国产芯片适配问题,通过LoongForge框架实现代码同时兼容通用GPU与昆仑芯XPU具有重要现实意义[22] - 对于少数头部企业,自建基础设施可能仍是更优选择,但对于产业中大多数参与者,成熟的云端AI基础设施平台提供的是经过大规模验证的工程方法论[23]