Workflow
World Model
icon
搜索文档
具身智能的基础设施之战:百度百舸AI Infra如何重塑具身模型研发范式?
机器人大讲堂· 2026-05-20 15:00
文章核心观点 - AI基础设施正经历深刻的技术重构,以支撑具身智能模型的高速迭代,其价值在产业加速期将真正显现[1][3][20] 具身智能模型技术路线 - 技术路线尚未收敛,存在操控类模型与运动控制策略两大研发方向[4] - 操控类模型存在VLA(视觉-语言-动作)和引入世界模型(World Model)两条主流并行范式[6] - VLA路线中,双系统分层架构的视觉语言模型参数量可大于200B,而单体结构通常在10B以内[6] - 世界模型路线旨在让模型建立对物理规律的内在理解,两条路线均在快速推进,特别是世界模型方向在最近4、5个月内出现大规模训练需求[6] - 运动控制策略正经历范式转移,从为每套动作单独设计奖励函数转向使用大量人类动捕数据实现统一化与规模化,例如参数量从1M扩展到40多M[8][10] - 运动控制策略的统一化推动训练规模跃升,需要从两台服务器扩展到128卡、几十台机器的集群化部署[10] 数据瓶颈与工程挑战 - 规模化Ego数据(第一人称视角视频数据)的处理能力滞后是行业最迫切的痛点之一[11] - Ego数据正成为具身大模型规模化训练的核心数据来源,趋势在最近一年明显加速[13] - 典型案例包括:Apple发布EgoDex数据集,Tesla将Optimus训练策略转向人类视频采集,NVIDIA推出基于超两万小时视频的EgoScale数据集[13] - 从原始Ego视频到标准数据集之间存在清洗、标注、结构化后处理的工程鸿沟,缺乏规模化、标准化的处理管线,卡住了模型迭代速度[13] - 数据工程基础设施的建设进度明显滞后于模型架构创新,制约了迭代速度[14] 算力配置与优化 - 当前主流VLA或世界模型参数量级多集中在5B至20B之间,对算力需求看重硬件资源的极致平衡,而非简单堆叠[15] - 对于20B量级以下的模型,盲目堆砌高端硬件会造成资源错配,推高研发成本[15] - 百度百舸为此类模型提供高性价比算力配置及多机并行加速套件[15] - 多模态架构中视觉编码器与语言大模型异构,易出现算力负载失衡[16] - 百度百舸开源LoongForge框架,通过模型异构并行、DP负载均衡等技术,将多模态模型训练性能整体提升15%至45%[16] - 大多数具身企业研发预算有限,算力成本控制直接影响迭代速度和生存周期[16] 工程化矛盾与基础设施价值 - 工程化的核心矛盾在于开源框架灵活但性能优化有限,高度优化的框架性能极致但不支持敏捷变更[17] - 具身模型架构处于快速演化期,底层框架需要兼顾灵活性与性能[17] - 百度百舸在开源灵活框架上提供加速套件以平衡两者[17] - 针对采用扩散结构的世界模型推理效率瓶颈,百度百舸通过工程化加速,将推理延迟最低降至原有水平的四分之一[19] - 云端AI基础设施提供商可将优化能力摊薄到所有客户,这是其相对于企业自建的核心优势之一[19] - 具身智能产业目前处于技术路线未收敛、多种范式并行竞争的阶段,类似大语言模型爆发前夕[20] - 产业迭代闭环涵盖数据处理、模型训练、仿真评测、部署推理全链路,任一环节效率滞后都会拖累整体进度[22] - 对于大多数企业,将基础设施外包给专业平台是理性的资源配置选择,以便聚焦于模型架构创新和场景理解[22] - 应茹特别强调了国产芯片适配问题,通过LoongForge框架实现代码同时兼容通用GPU与昆仑芯XPU具有重要现实意义[22] - 对于少数头部企业,自建基础设施可能仍是更优选择,但对于产业中大多数参与者,成熟的云端AI基础设施平台提供的是经过大规模验证的工程方法论[23]
谷歌I/O炸场:Agent时代正式开打,OpenAI最大对手回来了
创业邦· 2026-05-20 11:34
文章核心观点 - 谷歌在I/O 2026大会上宣布AI Agent时代进入规模化落地阶段,其战略核心是将Gemini从一个应用转变为所有产品入口背后的操作系统,并重新定义为能够持续执行任务、拥有状态记忆和跨应用协作能力的智能体[4][10] - 行业竞争焦点已从追求模型“最聪明”转向“运营竞赛”,即比拼成本、速度、稳定性和规模化部署能力,谷歌通过推出成本优化模型、多Agent协作平台和嵌入全生态入口来应对这一转变[31][32] 根据相关目录分别进行总结 Agent战略与产品化 - 谷歌推出核心新产品Gemini Spark,定位为“全天候数字分身”,可7×24小时在后台自动执行复杂任务,如汇总邮件、统计信息、生成内容等,标志着AI从问答工具向长期运行执行系统的转变[6][8][10] - 公司为Android系统新增了Agent入口“Android Halo”,用于实时显示AI任务执行状态,进一步强化了AI作为“数字员工”的角色[10] 成本优化与模型竞争 - 为应对Agent应用带来的高额计算成本,谷歌推出了专门针对Agent工作流优化的Gemini 3.5 Flash模型,其目标是成为“最适合跑Agent”的模型[11] - 该模型性能接近顶级前沿模型,输出速度是其他模型的四倍,在特定平台上甚至快12倍,而成本仅为同类模型的一半或更低[13] - 谷歌CEO皮查伊算了一笔账:若头部企业将80%的工作负载从其他前沿模型迁移至Gemini 3.5 Flash,每年可节省超过100亿美元[13] - 目前谷歌自家产品每月处理的Token已达3200万亿个,同比增长7倍,内部开发任务每日消耗超过3万亿Token[11] 多Agent协作与开发平台 - 谷歌将AI编程工具Antigravity升级为多Agent协作平台Antigravity 2.0,开发者可调度多个Agent并行完成写代码、设计、测试等任务[14][16] - 现场演示了93个Agent并行协作,在12小时内处理260亿Token,从零构建出一个可运行的操作系统(包括运行游戏Doom),总API成本低于1000美元[16] 搜索业务的重塑 - 谷歌对搜索进行了25年来最大升级,使其从提供链接答案转变为“生成执行结果”,例如直接生成交互式可视化界面来回答复杂问题[18] - 搜索将整合Information Agent功能,允许用户创建后台持续监控特定信息(如股票、价格、行业动态)的智能体,使搜索从一次性查询变为持续性任务[18] 多模态与“世界模型”进展 - 谷歌推出原生多模态模型Gemini Omni,旨在实现“从任何输入,生成任何输出”,能够混合处理文本、图片、音频、视频并生成相应输出[20][22] - 演示显示,用户可在一个连续对话中完成对视频的背景替换、镜头视角更改及添加旁白等复杂编辑,标志着视频生成从“生成片段”向“持续编辑世界”升级[22] 生态系统与入口优势 - 谷歌最强大的竞争优势在于其庞大的产品生态系统(搜索、Chrome、Android、YouTube、Gmail、Maps、Workspace),这些入口构成了全球最大的互联网流量系统之一[24] - 公司正将Gemini嵌入所有入口,意味着其可直接向数十亿现有用户分发AI Agent,而竞争对手仍需解决用户获取问题[24][26] - 公司通过Android XR智能眼镜等新硬件,让Gemini成为未来所有设备背后的默认智能层,进一步扩展其入口覆盖[26][29] 行业基础设施与资本投入 - AI行业进入“运营竞赛”阶段,胜负关键取决于基础设施的稳定性、成本、Token效率和规模化能力,而不仅仅是模型智商[31][32] - 谷歌2026年资本支出预计高达1800亿至1900亿美元,并推出专门区分训练与推理的第八代TPU芯片,旨在将最强AI变为最便宜的AI[32][33]