为什么春晚的机器人不“僵”了？具身智能正在经历一场大脑进化

行业演进：从舞台表演到物理理解 - 人形机器人在春晚舞台的表现逐年进步，从2019年6台优必选Walker集体起舞，到2025年16台宇树H1表演赛博秧歌，印证了本体控制与群体协同的初步成熟[1] - 2026年春晚的机器人表演展现出超越视觉奇观的进步，机器人在复杂阵型变换与光影追踪下表现出生物般的灵动，这源于更先进的控制算法、毫秒级轨迹追踪及软硬件深度耦合[2][5] - 行业共识认为，预设的舞台场景已不足以应对真实世界挑战，机器人要进入非标工厂、杂乱家庭或多变养老院等场景，必须发展出能理解、预判并规划物理世界的“大脑”[5][6] 主流技术范式：VLA的成就与局限 - 视觉-语言-动作模型是当前具身智能最主流的“大脑”底座，2026年该赛道竞争激烈[7] - 蚂蚁灵波推出使用20000小时真实数据训练的最强开源VLA基座，拥有精确空间感知能力，可适配9种不同构型双臂机器人，实现“一个大脑，适配多个身体”[8] - 地平线的HoloBrain-0基座模型通过“具身先验”强化3D空间感，能处理折叠柔软衣物、抓取新物体等任务，并具备强大跨平台泛化能力[10] - 小米开源的Xiaomi-Robotics-0模型采用双脑协同架构，以47亿参数在消费级显卡上运行，在叠毛巾、拆乐高等单任务上可保持30分钟连续作业的高稳定性，几乎达到实用级[11] - VLA在结构化环境及单任务场景下已迈入实用门槛，但其“端到端”模式存在根本局限：缺乏对重力、重心等物理常识的理解，难以处理长序列任务中的意外，使其在真实复杂环境中受限[13] 技术跃迁：向具身世界模型演进 - 行业意识到下一场进化需从“看图说话”式的动作对齐转向“脑内预演”式的物理模拟，即从VLA向具身世界模型范式跃迁[14] - 全球范围内展开竞速：DeepMind的Genie模型通过海量视频训练证明AI可脑补出可交互的物理世界；NVIDIA的GR00T项目利用生成式AI在仿真环境中为机器人提供预演能力；Figure 02在其架构中强化“动作后果预测”，向世界模型靠拢[15] - 蚂蚁灵波在此次跃迁中采取硬核务实打法，通过开源给出从“视觉模拟”到“动作控制”的闭环方案[16] - 其核心系统之一LingBot-World构建了一个高保真、可交互且符合物理规律的仿真环境，机器人可在其中进行零成本模拟学习，再将经验迁移到现实[16] - 同步开源的LingBot-VA是全球首个自回归视频-动作一体化世界模型，可根据当前观测同步生成下一帧画面及对应动作，实现“边推演，边行动”，并能通过画面不对齐瞬间感知偏差并自动修正[18][21] - 这种“预测-对齐-修正”的闭环赋予机器人应对非标环境的物理直觉，是解决药房、家庭、工厂等复杂场景挑战的关键[21][22] 产业价值：推动规模化交付 - 从“动作映射”到“物理预演”的跨越为产业规模化交付扫清障碍[23] - 数据效率发生质变：在懂因果、懂常识的世界模型逻辑下，仅需30至50条演示数据就能类比学会新任务，极大缩减落地成本，而以往训练新技能需上万条真机数据[23] - 任务成功率确定性提升：在RoboTwin 2.0仿真基准数据中，具备“预判能力”的大脑在多任务成功率上稳定在91%以上，使机器人能在环境杂乱、传感器有噪声的非标工厂稳健完成长流程操作[23] - 大脑通用性增强：全栈开源方案提供了一套通用大脑适配多元硬件的底座，无论是宇树H1、G1还是各类工业机械臂，都可共用底层认知逻辑，使下游厂商无需为每款机器人重复开发，可专注于垂直场景工艺打磨[24][25] 发展路径与未来展望 - 具身智能发展是分步过程：2023年接入大模型让机器人“听懂人话”；2024年硬件成熟让机器人学会基本拿放；当前阶段是逻辑觉醒，机器人开始理解物理规律并在行动前进行脑内预演[26] - VA架构虽展现降维打击潜力，但并非唯一路径，业内对最优方案存在博弈，包括坚信大数据VLA可暴力模拟物理规律，以及主张用严谨数学公式确保极端场景零差错等不同路线[27] - 多路线交叉竞争让2026年具身智能赛道更具实战价值，当机器人拥有物理逻辑并能精准预判和稳健操作时，技术才算真正从表演舞台落到现实产业中[28] 产业链相关企业 - 文章末尾列举了工业机器人、服务与特种机器人、人形机器人、具身智能、医疗机器人及上游产业链等领域的大量相关企业名单[29][30][31][32]