Workflow
General Robot
icon
搜索文档
李飞飞的反共识判断
虎嗅APP· 2026-02-08 17:42
文章核心观点 - 李飞飞提出反共识观点,认为单纯的大语言模型无法通往通用人工智能,空间智能才是AI发展的下一个前沿和更优路径 [4][5][6] - World Labs公司正致力于构建具有物理一致性的世界模型,其首款产品Marble是一个多模态空间智能模型,旨在让AI理解并与三维物理世界互动 [4][7][16] - 随着合成数据等技术的成熟,世界模型领域预计将迎来类似大语言模型的规模定律爆发时刻 [8][9] - 通用机器人是比自动驾驶更高维度的挑战,也是AI技术的“皇冠”,其成功需要空间智能的支持 [10] - AI技术的终极目标是像电力一样,成为赋能各行各业、提升人类文明的基础设施 [11][12] AGI发展路径与空间智能的重要性 - 从生物进化视角看,视觉、触觉等空间感知能力已有约5亿年演化历史,而语言仅有约50万年历史,因此空间智能是比语言更古老、更基础的智能形式 [5][14] - 如果AI只有语言能力,将被困在数字世界,只有补齐空间智能,使其具备理解、推理并与三维物理世界互动的能力,才能真正通往通用人工智能 [6][15] - 空间智能被定义为在真实3D、4D物理世界中进行理解、推理、交互和导航的基础性能力,是AI的下一个前沿领域 [13][15] World Labs的产品与技术:Marble世界模型 - Marble是公司第一代空间智能模型,能接收句子、图片、视频或简单3D输入,并将其转化为完全可导航、可交互且具有永久一致性的3D世界 [7][16] - 与Sora等视频模型不同,Marble生成的环境拥有几何结构和物理一致性,不仅仅是一段像素动画,而是拥有物理属性的虚拟空间 [7] - 该模型目前规模比GPT-5等大语言模型小几个数量级,GPT-5的训练量约在10^26 FLOPS级别 [23] - 公司采用混合数据策略来训练模型,结合互联网现有的文本、图像、视频数据、仿真模拟数据以及真实世界采集的数据,以解决物理世界数据信噪比低、难以大规模获取的瓶颈 [8][24][25] 应用场景与市场潜力 - Marble已应用于游戏开发、影视特效、机器人训练、室内设计等领域 [7][17] - 出现了意想不到的用例,如临床研究人员利用其生成个性化沉浸式环境用于治疗强迫症等心理疾病,以及用于个性化健身训练环境 [7][17][18] - 空间智能是一项横向技术,未来潜在应用领域广泛,包括医疗健康、教育、现场服务、金融服务、农业制造、仓储检测及城市规划等 [12][26] 行业发展趋势与挑战 - 世界模型领域仍处于早期阶段,在模型架构等方面仍在探索,但预计未来几年将见证其在规模定律曲线上实现飞跃 [24] - 物理世界数据(像素、体素)比文本数据更混乱、获取更难,这曾是发展瓶颈,但合成数据技术的成熟正推动该领域进步 [8][24] - 算力增强、芯片进步以及生态系统成熟(如三年前还不存在的数据供应商出现)正在加速该领域发展 [25] - 合成数据与模型生成能力可形成相互促进的飞轮效应 [25] 对关键AI技术领域的看法 - 通用机器人被视为比自动驾驶更高维度的AI技术挑战:自动驾驶是2D逻辑,核心是避障;通用机器人是3D逻辑,核心是在三维空间中以不破坏物体的方式进行精确接触操作 [10][25][26] - 实现通用机器人面临巨大挑战,包括手部模拟的高难度、视觉精准度以及空间理解的需求 [26] - 自动驾驶技术从概念到大规模城市街道运行(如Waymo)经历了漫长的旅程,预示通用机器人的发展也可能需要长期努力 [25]
Physical Intelligence 创始人:人形机器人被高估了
海外独角兽· 2025-03-28 19:51
文章核心观点 - 通用机器人是AGI从数字世界走向物理世界的重要路径,robot foundation model旨在为机器人构建大脑以实现通用能力 [3] - Physical Intelligence(PI)被视为机器人领域的OpenAI,专注于开发通用机器人的foundation model,近期开源了通用模型π0并推出分层推理系统Hi Robot [3][10][26] - 实现机器人泛化的核心在于获取多样化数据而非仅追求数据质量,需扩大真实机器人数据规模并优化跨平台数据共享 [12][17][18] - 人形机器人形态当前被高估,未来机器人形态将呈现多样化"寒武纪大爆发",物理智能才是AGI核心 [4][22][36] Chelsea Finn机器研究的开端 - 研究始于10年前伯克利博士阶段,早期探索神经网络控制将图像像素直接映射到机器人扭矩,当时属非主流方向 [6] - 关键挑战在于让机器人在不同环境/物体间泛化任务能力,如拧瓶盖、挂衣架等基础操作 [6] - 研究路径涉及构建广泛数据集,结合强化学习、模仿学习等方法,曾在Google Brain工作并创立斯坦福实验室 [7] PI的研究进展和发展 - 目标构建可控制任何机器人执行任何任务的神经网络模型,突破传统单一任务优化局限 [10] - 采用跨平台数据整合策略(六轴/七轴/单双臂机器人),最大化数据复用价值以解决硬件迭代导致的数据废弃痛点 [10][12] - 2023年10月展示复杂任务能力(叠衣/清理/纸箱搭建),当前重点扩展语言交互与环境泛化能力 [13][15] - 技术架构依托Transformer和预训练Vision-Language Model,利用互联网知识迁移(如Taylor Swift案例) [15][16] 机器人实现AGI的路径 - 短期难预测具体应用场景,需探索人机协作模式降低容错要求,语言交互是重要突破方向 [21] - 运动控制蕴含进化级智能,基础操作(倒水/做麦片)实际具有极高复杂性 [23] - 关键里程碑研究:SayCan(语言模型规划)、RG2(网页数据集成)、RT-X(跨机器人形态训练)、Aloha(远程操作训练) [24] Hi Robot系统设计 - 分层推理架构:高层模型处理任务规划(如"拿起番茄"),低层模型转换为具体动作指令 [26] - 解决长周期任务执行与实时交互需求,已实现三明治制作/购物/清理等场景 [28] 传感器与硬件发展 - 当前依赖视觉(RGB摄像头)已取得显著进展,手腕摄像头可部分替代触觉传感器 [29] - 嗅觉/味觉等冗余传感器虽有益但非优先级,当前瓶颈在于数据处理与记忆功能开发 [30] - 未来硬件将趋向场景专用化(厨房/折叠衣物等),形成多形态共存的生态系统 [36][37] 自动驾驶与机器人领域对比 - 机器人操作空间维度更高(14维vs自动驾驶2D),精度要求更严但分布问题范围较小 [31] - 初创公司优势在于快速迭代部署,大公司受限于安全规范难以实现多样化数据收集 [34] 训练数据方法论 - 人类观察数据(如YouTube)价值有限,机器人需从自身物理经验中学习运动控制 [35] - 数据泛化能力取决于分布广度,通过建筑物/场景数量等指标粗略评估 [36] - 自动化经验与强化学习结合是提升数据价值的关键路径 [35]