文章核心观点 - 世界模型是具身智能领域解决主流技术VLA模型瓶颈的关键技术升级,其核心在于让AI理解并预测物理世界的运行规律,从而大幅降低对特定场景海量真机数据的依赖,并实现跨任务、跨场景的泛化能力[4][8][9][10] - 大晓机器人(商汤科技关联公司)发布了“开悟”世界模型3.0及“具身超级大脑模组A1”,旨在通过“世界模型+下游验证闭环”的方法论,率先在四足机器狗等成熟硬件上实现商业化落地,并规划了从城市治理向无人物流仓、家庭场景拓展的路线图[5][7][8][14][16] - 公司强调世界模型的有效性必须通过真实场景的闭环验证来建立,并分享了其以人为中心的数据采集方法论,以及通过To B场景驱动产业链成熟的商业化策略[14][15][38][40][56][58] 技术演进:从VLA到世界模型 - 过去一年,具身智能主流技术VLA模型遇到本质瓶颈:VLA依赖海量“画面—指令—动作”配对数据,像一个“超级模仿者”,但难以真正理解物理规律,导致换环境或对象后成功率下降[9] - VLA模型需要堆叠大量数据才能完成更多任务,但当前数据量难以为继:自动驾驶可积累数百万小时数据,而具身智能因需人工遥控采集,数据量仍困在10万小时量级[9] - 世界模型让机器人大脑从“死记硬背例题”转向“掌握通用公式”,通过理解物理世界的运行规律,支持预测、推理和规划,从而降低对特定场景、海量真机数据的依赖,并实现任务泛化[8][10][27][28] - 行业变化在于,开始把“模型能否在物理世界里闭环生效”作为第一性问题,而不仅是做演示动作[24] 大晓机器人的世界模型解决方案 - 公司发布“开悟”世界模型3.0:该模型在AI中建立物理世界运行规律,使机器人具备理解世界、预测后续状态的能力,可应用于四足狗、双足人形等多样构型本体[8] - 模型能力演示:只需输入文字描述、选择相机机位和机器人本体,世界模型即可生成以机器人为第一视角的动作画面,这些生成的画面与决策可教会机器人与物理世界交互[10][11] - 具身世界模型包含三大核心能力:1) 多模态理解(理解视频内容、相机位姿、3D轨迹、力学属性等);2) 多模态生成(生成可训练的数据和场景,可替换背景、本体等);3) 多模态预测(预测不同动作轨迹)[34] - 与生成式世界模型(如Sora)的区别:Sora是视频生成“黑盒”,不理解物体间的物理关系和因果规律;具身世界模型旨在让机器人在真实世界里进行推理、规划与决策[32][33] 世界模型的数据与方法论 - 世界模型架构与数据分为三层:1) 底层为描述世界物理规律的文本数据;2) 中层为以人为中心采集的人类与物理世界交互数据(如第一视角视频、动作捕捉);3) 上层为配合不同本体的真机动作数据[38] - 强调以人为中心采集数据的原因:以机器人为中心采集效率低,且不同构型本体数据难以复用;先采集人体数据训练出有物理常识的大脑,再迁移到不同机器人上,更容易实现规模化[39][40] - 世界模型可减少对真机数据的需求:自动驾驶真实数据可达数百万小时,机器人真机数据仅1万到10万小时;通过先用人体和环境数据做大盘,再用少量真机数据校准,可进一步压低真机数据需求[41] - 物理规律的覆盖有场景边界:世界模型无法无条件穷尽所有物理知识,公司策略是从道路场景开始,中期拓展至无人物流仓,未来再扩展至家庭场景[42][43] 商业化路径与战略 - 首款商业化载体选择四足机器狗:因硬件技术更成熟、稳定性更高,能更快进入真实场景验证世界模型能力并迭代[7][49] - 具体落地场景:作为机器狗“城管”进行街面巡查(如识别车辆违停、排查违规无人机),目前正与徐汇公安探讨城市治理新方案[6][7] - 商业化路线图:先用四足机器狗开拓增量市场;2-3年后通过轮式双臂机器人拓展至无人物流仓;后续再考虑双足人形与更复杂的家庭场景[16][43] - 商业模式:采取软硬一体策略,但会选择性自研关键部分并与生态伙伴合作,目标是交付可用的产品方案以降低成本、提升稳定性和安全性[50][51] - 市场切入策略:直接进入场景(To B),而非将世界模型卖给本体厂商,因公司更熟悉城市、文旅等场景客户需求,且可利用商汤既有资源摊薄进入成本[52][53] - 竞争策略:以场景为导向,优先寻找增量市场(如城市治理新方案),避免争夺已稳定的存量市场(如电力巡检),从而与本体厂商形成合作而非竞争关系[55] - 市场选择:先做To B市场,因To C市场对可靠性、安全性和耐久性要求极高,在无明确大规模应用场景驱动前,产业链缺乏动力投入巨大成本攻克工程难关;To B场景(智慧城市、园区管理等)能明确机器狗作为“数字员工”的价值,并容忍逐步迭代[56][57][58]
王晓刚和他的「世界模型」:一人管十狗,先让四足机器人上街干活丨36氪专访