LeCun怒揭机器人最大骗局，坦白Llama与我无瓜

人形机器人行业现状与挑战 - 行业面临从特定任务训练到通用智能的鸿沟，家用机器人实现叠衣服、倒水等任务仍需AI领域取得一系列突破[1] - 行业秘密在于公司尚不知晓如何让机器人变得足够聪明以达到实用级别[21] - 人形机器人拥有40个自由度，可能产生的位姿组合数量超过宇宙原子总数，该问题无法通过编程解决，唯一途径是神经网络[25] 技术路径分歧：世界模型与LLM - Meta首席AI科学家Yann LeCun认为突破核心在于打造可规划的世界模型架构，以学习理解和预测物理世界系统[1] - LeCun指出大语言模型是一条死胡同，仅靠文本训练无法实现人类水平智能，智能源于视觉、听觉、触觉等多模态经验[15] - 四岁儿童通过视觉接收的数据量已相当于所有公开文本训练的最大规模LLM的数据量[15] - LeCun预测未来3-5年内，世界模型会成为AI架构的主流模型，届时头脑清醒的人都不会再用生成式LLM的路子[20] 主要公司动态与战略 - 特斯拉：公司内部对于如何快速实现通用人形机器人已有非常明确的思路[1]；正建设年产百万台Optimus机器人的生产线，目标2026年初推出具备量产意向的V3原型机[26]；其神经世界模拟器能够基于当前状态与后续动作直接合成未来状态，该架构将无缝迁移至Optimus机器人[28][31] - Figure AI：公司CEO宣称明年就能实现通过语音指令让人形机器人在陌生环境完成各类通用工作[23]；强调其机器人所有操作都由神经网络驱动，否认某些公开演示仅为戏剧表演或预设程序[25] - 1X Technologies：公司发布自研世界模型，该模型允许从相同初始条件出发并行部署不同策略进行直接对比[35][37]；公司CEO坦言让机器人进入家庭存在理想与现实的落差，现实环境复杂得离谱[37] 世界模型技术架构 - 世界模型定义为给到时刻t的世界状态及智能体可能动作，以预测动作执行后的环境[16] - 系统配备世界模型后可进行规划，设想连续动作并预测结果，结合代价函数评估任务完成情况，运用优化方法搜索最优动作序列[18] - 环境动力学模型完全通过自监督学习，机器人无需针对特定任务反复训练，能从模拟数据或真实操作中学习动作-结果关系，零样本完成新任务[18][19] - 1X世界模型包含视觉编码器、动作编码器、核心网络及视频与状态价值解码器，通过对成功标签进行监督学习生成的状态价值预测可量化评估输入动作质量[35]