Workflow
Behavior 1K
icon
搜索文档
2025人形机器人大时代 - 具身智能大脑的进化之路
2025-11-24 09:46
行业与公司 * 行业为人形机器人/具身智能行业[1] * 涉及的公司包括科技大厂(英伟达[2][18]、Meta[2][4][8][20]、亚马逊[2][20]、MIT[2][14]、西门子[19]、富士康[19])、人形机器人创业公司(智元[2][15][18][20][21]、银河通用[2][20][21]、千寻智能[2][20]、星海图[2][20][21])以及研究机构(斯坦福大学[17]、上海人工智能实验室[15])[2][4][8][15][17][18][19][20][21] 核心观点与论据 算法架构演进 * 机器人算法正从模型驱动转向数据驱动[2][3] * 当前存在三种主流算法架构[4] * 分层控制框架:适用于工业场景 但存在通信延迟问题[4] * VLA模型:适用于人机交互场景 是创业公司主流方向[4][9] * 世界模型:依赖高保真仿真 目前主要处于研究阶段 实际部署面临挑战(如机器人动作复杂度高、存在表征崩溃问题)[4][8] * 未来3-5年 三种技术路线将共存并互补发展 分层架构适用于工业落地 VLA模型在人机交互有潜力 世界模型由AI大厂主导探索[9] 数据的关键作用与获取路径 * 数据是连接硬件和算法的桥梁 其成本与价值量呈正相关[10] * 数据获取主要有三种路径[10] * 真机获取:高价值高成本 包括遥控操作、动捕等方式[10] * 视频学习:成本较低但费人 Meta和亚马逊在此有进展[2][10][20] * 仿真数据:多用于初创公司 需严格清洗筛选[10] * 跨本体训练是实现通用智能的关键 MIT和Meta在2024年9月发布了全球首个多类型机器人硬件结构的异构训练框架 智源等在2025年3月也有类似进展[14][15] 行业挑战与瓶颈 * 数据安全问题日益突出 已有企业因数据跨境传输引发负面舆情 欧盟等机构已启动相关研究[11][12] * 缺乏统一评测基准 导致行业进步程度难以衡量 斯坦福大学在2024年3月发布了全球首个具身智能模型benchmark——Behavior 1K 覆盖50个场景及1,000多项任务[17] * 尚未出现类似ChatGPT的具身智能基础模型 原因包括缺乏数据共享基础、多模态技术挑战、培训难度高成本大等 未来1-3年内出现大一统模型的可能性较低[16] 研发效率与生态系统 * 企业需提高研发投入效率 通过优化流程、加强协作、引入先进工具来应对发展需求[13] * 物理AI在仿真建模中发挥重要作用 支持复杂物理过程的建模和推理 英伟达视其为未来AI商用化的重要蓝海 并已应用于工业场景(如富士康模拟产线、西门子升级数控系统)[2][18][19] * 机器人软件生态系统由模型、数据分析、仿真模拟、开发工具及评测系统等构成 吸引了众多计算机上市公司参与 生态参与者主要包括科技大厂、人形机器人本体公司及底层工业软件/传感器厂商[2][21] 其他重要内容 * 2025年9月 斯坦福大学宣布成立首届Behavior挑战赛 以测试具身AI能力[17] * 2025年 混合专家模型等架构创新开始应用于具身智能领域 提高了有限资源下的训练效率[16] * 国内重视benchmark建设将加速技术发展与应用落地[1][17]
“AI教母”李飞飞的全新世界模型问世!一张英伟达AI芯片就能生成无限3D世界
钛媒体APP· 2025-10-17 10:53
公司产品与技术 - World Labs发布全新实时生成式世界模型RTFM 该模型基于大规模视频数据进行端到端训练 是一款效率极高的自回归扩散Transformer模型 [2][3] - RTFM模型的核心突破在于不依赖显式3D表征 仅通过输入1张或多张2D图像就能直接生成不同视点的全新2D图像 可精准建模3D几何 反射 阴影等复杂物理现象 [3] - 模型具备高效性 可扩展性 持久性三大核心优势 仅需一块英伟达H100 GPU芯片即可实现实时渲染和交互式体验 [4][8] - 模型通过"带位姿帧空间记忆"与"上下文调度"技术实现世界场景的持久性 确保用户长时间交互也能保持场景一致性 [8] - 公司未来规划将构建空间智能大模型LWM 该模型将支持AR并最终作用于机器人技术 改进自动驾驶汽车 自动化工厂 人形机器人等领域 [10] 行业影响与发展路径 - 该模型技术被业内称为"学会渲染的 AI" 真正解决了长期困扰世界模型可扩展性的问题 [3][6] - "空间智能+世界模型"成为AGI重要发展路径之一 强大的世界模型能实时重建 生成并模拟物理精确的世界 将彻底改变软件 机器人等很多领域和产业 [7] - 生成式世界模型正处在绝佳位置 将从持续降低的算力成本中获益 [4] - 公司联合创始人李飞飞认为 语言 空间 视觉 具身智能等多种AI技术正在融合 并开始真正改变人类社会 [12] 公司融资与估值 - World Labs于今年9月获得2.3亿美元(约合人民币16亿元)融资 由a16z NEA恩颐投资和Radical Ventures领投 AMD Adobe Databricks的风投部门和Shinrai Investments LLC以及英伟达创投部门参与投资 [10] - 公司成立仅3个月估值便达到10亿美元(约合70亿元) 团队约24人 其中华人面孔约占据三分之一 [10] 相关研究项目 - 李飞飞团队还打造了Behavior视觉挑战比赛 并于今年10月正式发布Behavior 1K 这是一个包含1000个任务的综合仿真基准与训练环境 主要聚焦日常家庭环境中的"长时序任务" [11][12] - Behavior项目旨在解决机器人学习中的三大痛点 任务缺乏标准化 缺乏统一的任务体系以及缺乏训练数据 为全球研究者提供开放源码的训练与评测平台 [11]