Workflow
具身智能之心
icon
搜索文档
吴恩达年终总结:2025是AI工业时代的黎明
具身智能之心· 2025-12-31 08:50
吴恩达2025年AI领域年度总结核心观点 - 2025年是AI工业时代的黎明,AI发展从算法竞赛演变为涉及人才、算力、基建和能源的工业革命[14][37] - 尽管AI基础设施和人才竞争变得空前“重”,但推理模型和编程智能体的成熟使得AI开发门槛降低,是软件开发的黄金时代[37] - 对于个人发展,建议通过系统学习课程、持续动手构建项目以及阅读研究论文来掌握构建AI系统的能力[7][15] AI技术发展趋势:推理模型与智能体 - 思考型(推理)模型成为主流,显著提升了模型在数学、编程及复杂问题解决上的性能[19][21] - OpenAI o1-preview在AIME 2024上比GPT-4o高出43个百分点,在GPQA Diamond上高出22个百分点,在Codeforces编程题中表现位于人类选手第62百分位(GPT-4o为第11百分位)[24] - 结合工具(如计算器、搜索引擎)后,模型性能进一步提升,例如带工具的OpenAI o4-mini在一项高难度测试中准确率达17.7%,比无工具时高出3个多百分点[24] - 机器人动作模型通过强化学习(RL)学会推理后,在任务上的表现比不具备思考能力的模型(如OpenVLA)提升约8%[24] - 编程智能体能力飞速进步,2024年Devin将SWE-Bench基准最高水平从1.96%提升至13.86%,而到2025年,使用最新大语言模型的编程智能体已能常态化完成超过80%的同类任务[31] - 2025年底,Gemini 3 Pro、Claude Opus 4.5和GPT-5.2成为编程和智能体工作流领域的顶尖模型[40] AI行业人才竞争与薪酬 - 领先AI公司展开激烈人才争夺战,提供堪比职业体育明星级别的薪酬,从竞争对手处挖走顶尖人才[23] - Meta为新成立的Meta Superintelligence Labs组建团队,向来自OpenAI、Google、Anthropic等公司的研究人员开出高达数亿美元的待遇[23] - 据《华尔街日报》报道,Meta为招募Andrew Tulloch(OpenAI前CTO Mira Murati的联合创始人)提供了价值15亿美元的奖金方案[28] - Meta聘请曾主管Apple AI模型的Ruoming Pang,其薪酬方案在数年内累计高达数亿美元,超过了Apple除CEO之外最高层管理者的薪酬[28] - OpenAI为抵御挖角,提供了更高比例的股票薪酬,加快期权归属进度,并发放高达150万美元的留任奖金[27] - Elon Musk的xAI从Meta挖走十多名AI研究人员和工程师[28] - Microsoft AI CEO Mustafa Suleyman从Google带走了20多名研究人员和工程师[28] AI基础设施与资本支出 - 2025年AI行业资本支出突破3000亿美元,大部分用于建设处理AI任务的新数据中心[27] - 头部AI公司宣布庞大的建设计划,预计未来几年将豪掷数万亿美元,消耗数吉瓦(GW)电力[27] - 据麦肯锡预测,为满足预期的推理和训练需求,到2030年建设足够算力的成本可能高达5.2万亿美元[27] - **OpenAI**:启动与甲骨文、软银等合作的5000亿美元“星际之门”项目,计划在全球建设20吉瓦数据中心产能,并预测需求是该数字的5倍[32] - **Meta**:2025年在基础设施项目上投入约720亿美元,其Hyperion项目包括在路易斯安那州建设一个价值270亿美元、容量5吉瓦的数据中心[32] - **微软**:2025年全球数据中心项目支出达800亿美元,计划将其在欧洲的云和AI产能扩展至200个数据中心[32] - **亚马逊**:预计2025年基础设施支出达1250亿美元,其耗资110亿美元的“雷尼尔计划”是在印第安纳州建设一个2.2吉瓦的数据中心[32] - **Alphabet(谷歌)**:预计2025年基础设施支出高达930亿美元,宣布了一项400亿美元的计划,到2027年在得克萨斯州增加3个数据中心[32] - 基础设施建设热潮为经济带来增长,2025年上半年美国GDP的增长几乎全部来自数据中心和AI领域的投资[30] 编程智能体与开发工具竞争 - 编程成为智能体工作流中最具直接商业价值的应用场景,是AI巨头竞争最激烈的战场之一[31] - 智能体系统不断推高SWE-Bench等编程基准测试上限,催生了SWE-Bench Verified、LiveBench等一系列新基准[34] - 到2025年底,许多公司(如Microsoft、Google、Amazon和Anthropic)报告称自身越来越多的代码正由AI生成,并开始自动化资深级别的任务[34] - Anthropic推出Claude Code应用,确立了智能体编程系统的标准;OpenAI随即推出基于GPT-5系列构建的Codex应用[40] - 模型制造商与集成开发环境(IDE)开发者展开竞争,导致Anysphere (Cursor)和Cognition AI (Windsurf)等IDE提供商开始构建自己的模型,而Google也构建了自己的IDE——Antigravity[40] - 开放权重模型(如Z.ai的GLM-4.5、月之暗面的Kimi K2)成为热门选择,使自动编程类初创公司得以大幅削减成本[40] - 7月发布的Qwen3-Coder是一个4800亿参数模型,在超过5万亿Token的代码数据上训练,性能几近匹敌Claude Sonnet 4[40] 推理模型的效率与成本 - 推理能力提升性能的同时也增加了成本与延迟,给LLM推理服务商带来更大性能压力[22] - Gemini 3 Flash开启推理时运行Artificial Analysis的Intelligence Index基准消耗1.6亿tokens(得分71),关闭推理仅消耗740万tokens(得分55)[22] - 研究人员正努力提高效率,Claude Opus 4.5与GPT-5.1在高推理设置下取得相同Intelligence Index分数,但前者消耗4800万tokens,后者消耗8100万tokens[22]
不走硅谷路线!大摩两次押注的具身公司,持续重仓基座模型和落地
具身智能之心· 2025-12-30 18:00
摩根士丹利对机器人产业及智平方公司的核心观点 - 摩根士丹利在2025年发布的两份重量级机器人产业深度报告中,罕见地连续两次重点聚焦中国公司智平方(AI² Robotics)[2] - 报告将智平方定位为定义行业底座的基础大模型代表,以及机器人商业化落地的标杆案例,凸显了其“技术领先与商业验证同时成立的确定性”[3] - 顶级投行的判断指向机器人产业的关键词正从“可能性”转向“确定性”,智平方被连续引用是对这种“确定性”的年终判断[29][30] 技术路线与模型站位 - 摩根士丹利判断中国已在机器人与具身智能领域建立并持续扩大领先优势,其报告关注的是构建下一代机器人智能底座的能力[4] - 智平方被列为全球机器人基础大模型(Foundation Model)的关键厂商之一,与Figure AI、Physical Intelligence等公司并列,表明大摩看重其在底层智能架构上的长期价值[4][6] - 智平方是全球最早专注端到端视觉-语言-动作(VLA)路线的创业公司之一,其原创的全域全身具身大模型GOVLA实现了移动轨迹与全身控制的统一输出,使机器人能在复杂真实环境中连续行动[7][8] - 公司在具身基础大模型研发上多次领先国际同行:2024年6月率先发表VLA研究成果并推出RoboMamba(GOVLA 0.0),后续发布全球首个快慢系统深度融合的FiS-VLA模型(GOVLA 0.5),性能相较国际标杆模型π0提升约30%,并已研发出更强大的GOVLA 1.0版本[9] - 智平方是全球唯二、国内唯一实现开源的机器人模型创业公司,并获得图灵奖得主Yann LeCun的公开关注,在多个关键节点上直接参与了技术路线的形成[11][12] 商业化落地与订单验证 - 摩根士丹利将智平方视为真实商业落地的代表性公司,其与全球第三大面板厂惠科(HKC)的合作是一笔5亿元人民币、超千台机器人的订单[14][15] - 该订单是当时中国人形机器人领域金额最大的一笔订单,被大摩视为判断“机器人时代正在加速到来”的关键证据,具备明确的交付计划、场景和客户[16][17] - 根据摩根士丹利报告中的订单汇总表(Exhibit 3),智平方与惠科的订单(价值500百万人民币,超1000台)是所列订单中金额和数量最大的之一[17] - 智平方的通用智能机器人AlphaBot 2已直接嵌入惠科的真实生产流程,进入规模化部署阶段,表明具身大模型驱动的通用机器人已具备产业化交付的现实基础[18][20] “模型×硬件×场景”的系统能力 - 智平方的核心价值在于率先跑通了“模型 × 硬件 × 场景”的完整闭环,创始人强调通用智能机器人的突破来自这三者一体的系统能力[21][22][23] - **模型侧**:通过自研GOVLA大模型为机器人提供“通用大脑”[25] - **硬件侧**:AlphaBot系列具备5万小时无故障运行的工业级可靠性,自有产线已于2025年9月投产,具备千台年产能,并计划在2026年扩展至万台规模[25] - **场景侧**:在半导体制造、汽车制造、公共服务等真实场景中持续运行,并于2025年12月29日发布全球首个模块化具身智能服务空间“智魔方”,集成咖啡、冰淇淋、娱乐、零售四大模块,未来三年计划在全国落地1000个[25] - 真实场景数据反向优化模型,模型能力提升支持进入更复杂场景,可靠的硬件确保循环可被规模化复制,这一完整闭环构成了公司的稀缺能力[26][27][28] 行业意义与格局判断 - 摩根士丹利的两份报告表明,当机器人产业从“演示可行”迈向“商业可用”,决定最终格局的是谁能将智能稳定地带进现实世界[31] - 智平方被连续点名代表了一个逐渐清晰的判断:中国具身智能企业正在进入全球核心竞争区,并开始参与定义下一阶段的行业标准[33]
具身智能之心的25年还有2天!
具身智能之心· 2025-12-30 09:11
公司业务与运营总结 - 公司在2025年积极拓展业务,扩充了众多B端合作伙伴,同时C端内容从通用化转向专业化、精细化运营 [1] - 公司旗下平台“具身智能之心”在2025年创办了近40个具身主题社群,其付费社区成员数量已超过2000人 [3] - 公司为具身智能行业培养了近千名从业人员和研究人员,并通过内容平台为创业团队提供了投融资渠道和产业信息服务 [2][3] - 公司业务范围广泛,包括课程、知识星球社区、硬件(科研机械臂)销售,以及论文与项目辅导、1对1求职辅导等服务 [6][7][8] 行业发展观察 - 具身智能行业在2025年初仍处于发展初期,企业招聘的多为无经验或应届毕业生 [1] - 至2025年末,行业参与度显著提升,相关工作机会大量涌现,头部公司已能招募到拥有约1年从业经验的候选人,表明行业人才池正在快速形成和成熟 [1] 市场推广活动 - 公司在2025年末至2026年初(12月24日至1月5日)推出了多项促销活动 [5] - 活动期间,所有具身课程提供7.5折优惠,知识星球社区新人加入可享6折,老学员续费可享5折优惠 [7] - 公司销售的科研机械臂产品提供最高1500元的折扣,此为年度首次优惠 [7] - 活动期间,具身课程消费累计满3000元,可额外获赠一门高质量具身课程 [7] - 公司的论文辅导与项目辅导服务也在促销期内提供优惠 [7]
阿里AstraNav-World:端到端世界模型,联合推理视觉状态和动作
具身智能之心· 2025-12-30 09:11
文章核心观点 - 提出了一种名为AstraNav-World的统一生成式世界模型框架,旨在解决具身智能导航在开放动态环境中“预见未来”与“规划未来”能力割裂的核心瓶颈 [3][7] - 该框架通过一个视觉语言模型(VLM)中央规划器,同步驱动视频生成器和动作策略头,实现未来视觉状态预测与任务导向动作序列生成的双向约束与协同优化,从而增强物理一致性、因果关系和长视野规划的可靠性 [3][5][7] - 在多个导航基准测试中,该模型在无需真实世界微调的情况下,实现了性能的显著提升和成功的零样本迁移,验证了其有效性和泛化能力 [7][20][25] 核心问题与研究动机 - 现有具身导航方法多采用“先想象未来视觉状态,再规划动作”的松散耦合范式,导致物理一致性缺失、因果关系模糊,且误差会随时间累积,破坏长视野规划的可靠性 [3] - 实现稳健真实世界导航需要同时推进两大能力:基于动作生成可信未来视觉状态的“预见未来”能力,以及生成能约束视觉结果贴近真实世界的任务导向动作序列的“规划未来”能力 [3] - 现有方案因这两大能力割裂而性能受限,因此需要一个统一框架实现双向约束与协同优化 [3] 模型架构与核心组件 VLM中央规划器 - 作为模型的高层推理核心,输入自然语言指令和历史视觉观测序列,输出统一的2048维视觉-语言嵌入 [5] - 该嵌入包含目标导向语义特征和空间上下文特征,为视频生成和动作规划提供统一的高层指导 [5][8] 视频生成器 - 基于Wan-2.2-TI2V-5B扩散模型进行导航场景优化,模型参数量为5B(50亿)[6] - 核心优化包括:用VLM规划器嵌入替代传统文本编码器;通过3D-RoPE重排处理多视角输入以保留时空关系;采用Flow Matching方法,损失函数仅聚焦于未来帧预测 [6][9] - 训练损失函数为 $\mathcal{L}_{V G}=\mathbb{E}_{t,z^{\mathrm{future}},C}\left[\left|v_{\theta}(z_{t},t,C)-(\epsilon-z^{\mathrm{future}})\right|\right|^{2}\right]$,其中 $z^{\mathrm{future}}$ 是真实未来帧的潜在编码,$C$ 为VLM的上下文嵌入 [9][10] 动作策略头 - 提供两种实现方案:基于查询Transformer的确定性Action Former策略和概率性扩散策略 [11][12][14] - Action Former策略损失函数为加权组合:$\mathcal{L}_{PH}=\mathcal{A}_{1}\mathcal{L}_{\text{pos}}+\mathcal{A}_{2}\mathcal{L}_{\text{angle}}+\mathcal{A}_{3}\mathcal{L}_{\text{arrive}}$,其中权重 $\mathcal{A}_{1}=\mathcal{A}_{2}=\mathcal{A}_{3}=1.0$ [12][13] - 扩散策略训练损失函数为 $\mathcal{L}_{PH}=\mathbb{E}_{t,A_{\text{future}},\epsilon,C}\left[\|v_{\phi,\theta}(A_{t},t,C)-(\epsilon-A_{\text{future}})\|^{2}\right]$ [14] 多模态融合与双向约束 - 核心创新是多模态融合交叉注意力(MMFCA)模块,连接扩散策略与视频生成器的最后8个DiT块,实现双向信息流动 [18] - 通过“动作到视觉注意力”和“视觉到动作注意力”,确保动作基于可信视觉未来,且视觉生成与动作因果一致 [18] 训练策略与效率优化 - 采用两阶段训练:第一阶段组件单独预训练,第二阶段联合微调所有组件,总损失 $\mathcal{L}_{total} = \mathcal{L}_{VG} + \lambda \mathcal{L}_{PH}$,其中 $\lambda=1.0$ [16][19] - 提出稀疏远见调度(SFS),无需每一步都生成未来视觉和动作,仅在固定间隔(如每10步)执行联合生成,利用导航场景中大量简单重复动作的特性降低计算开销 [16][19] - SFS实现显著推理加速:间隔步k=10时,推理时间从243.8秒降至36.5秒,实现6.7倍加速,同时成功率保持稳定 [19][27] 实验验证与性能表现 指令导航(R2R-CE/RxR-CE) - Action Former策略在R2R-CE上取得73.1%的成功率(SR)和67.2%的路径长度加权成功率(SPL),导航误差(NE)为3.93;在RxR-CE上SR为70.4%,SPL为59.6%,NE为3.93 [20] - Diffusion策略在R2R-CE上进一步提升,SR达73.9%,SPL达67.9%,NE降至3.86;在RxR-CE上SR达72.9%,SPL达61.5%,NE为3.82 [20] - 性能显著优于此前最佳方法(如CorrectNav在R2R-CE上SR为65.1%,在RxR-CE上SR为69.3%)[20] 开放词汇目标导航(HM3D-OVON) - Action Former策略成功率达45.1%,SPL达28.3%;Diffusion策略成功率达45.7%,SPL达28.7% [21] - 较此前最佳方法(MTU3D SR为40.8%)提升4.3至4.9个百分点 [21] 消融实验与关键发现 - 视频生成器是关键组件,移除后R2R、RxR、OVON的成功率均出现明显下降 [27] - 双向耦合至关重要,单独移除MMFCA或视频生成器分支,会同时降低视觉预测质量和动作规划可靠性 [27] - 视觉-动作一致性高:生成的未来视觉帧与轨迹渲染结果高度吻合,定量指标上,R2R的5步预测PSNR达13.69,FVD为670;RxR的5步预测PSNR达14.50,FVD为497 [23][25] 零样本迁移与泛化能力 - 模型无需任何真实世界数据微调,即可在物理机器人上成功完成自然语言指令导航任务 [25] - 能提前预判门廊、转角等复杂场景,显著优于需要域适配的传统方法,验证了模型对核心导航原理的掌握而非对模拟数据的过拟合 [25]
万字长文,VLA的架构和模型还有什么痛点?
具身智能之心· 2025-12-30 09:11
文章核心观点 本次圆桌讨论聚焦于具身智能领域的视觉-语言-动作模型,与会专家普遍认为当前VLA的总体架构已趋于标准化和模块化,但模型的泛化能力与落地应用之间仍存在显著差距。未来发展的关键驱动力将来自数据、3D表征学习、强化学习与模仿学习的结合,以及感知与控制模块的逐步统一。 VLA的架构与模型现状 - 当前VLA的总体架构已相对收敛,形成了一种标准范式,即以视觉语言模型为基座,嫁接一个动作输出模块 [14][16] - 尽管架构趋同,但核心差异并非架构本身,而在于数据驱动 [14] - 当前从业者的工作多是在此标准框架下进行“小修小补”,例如引入触觉、记忆等新模块 [15] - 从实际表现看,VLA已能学习叠衣服等长程复杂任务,比去年进步明显,但其泛化性能尚不足以支撑落地 [16] VLA当前痛点与挑战 - 模型将VLM的2D图像与文本特征强行映射到3D动作空间,导致泛化性损失 [17] - VLA的硬件和数据可能成为限制,使精细化操作难以实现 [13] - 当前开源的VLA架构同质化严重,但尚不能确定这就是最佳架构,未来可能有更好的架构出现 [18] - VLM基座模型对3D物理世界的理解非常不充分,缺乏精准的空间grounding能力 [49] VLA未来可能的发展方向 - **3D表征学习**:让特征从2D更好地迁移到3D,利用3D预训练模型提升泛化性和性能 [17][43] - **训练范式创新**:结合强化学习与模仿学习 [43][45]。模仿学习效率高,可完成80%到90%的任务,而强化学习能处理失败数据并激发更高智能 [46] - **与世界模型结合**:使模型具备预判和脑补未来的能力,而不仅是基于当前时刻预测动作序列 [50] - **模块化与系统整合**:VLA作为提供先验知识的基座,需要与世界模型、RL等多种技术点在系统中协同安排,共同解决问题 [48][50] 感知与控制的统一路线 - 从长远目标看,感知与控制最终会趋向统一,形成一个“大一统”的端到端模型 [22][27][35] - 但在实现路径上,由于有大量迫切的现实问题需要解决,目前仍需分模块研发,例如导航场景仍需高精度的专用感知模型 [23][27] - 通过先进行模块化的端到端探索,积累各子领域的经验,才能最终迈向统一 [24][27] - 即使在实现大一统模型后,为建立安全互信和提供策略兜底,保留部分模块化输出(如OCC)仍有必要 [36] 自动驾驶经验对具身智能的借鉴 - 自动驾驶被视为具身智能的一个特殊场景,其完整的技术发展脉络(从模块化到端到端)对具身领域有重要参考价值 [34] - 自动驾驶领域将感知与控制结合后,解决了拟人化和处理复杂长尾案例的难题,这同样适用于具身智能 [34] - 具身智能可以直接对标自动驾驶的最新技术,但因其要求完全自动化,对规则和可解释性的需求可能比自动驾驶更严格 [38] 强化学习在新时代的角色 - 大模型的出现为强化学习提供了强大的起点,使其能够利用大规模算力,进入新的发展阶段 [31] - 强化学习作为一种工具,其算法并未收敛,需要针对不同任务(如数字空间推理与物理空间学习)开发不同的高效方法 [30] - 在具身智能产品化或追求AGI的路径上,不能只专注于强化学习,而需要更全面的知识面,整合模仿学习、VLA基座等多种范式 [46]
全景视觉的Depth Anything来了!200万数据打造全场景360°空间智能
具身智能之心· 2025-12-30 09:11
文章核心观点 - 由Insta360研究团队、加州大学圣地亚哥分校、武汉大学及加州大学默塞德分校的研究者共同推出的Depth Any Panoramas (DAP)模型,是首个在大规模多样化数据集上训练的全景度量深度基础模型,它通过构建200万量级的数据引擎和创新的模型设计,有效解决了全景深度估计领域长期存在的数据稀缺与模型泛化能力差的问题,并在多项基准测试中刷新了纪录,为机器人、自动驾驶、VR/AR等空间智能应用提供了强大的几何感知基座 [1] 模型概述与意义 - DAP是一个统一室内外场景的全景度量深度基础模型,其训练数据规模达到200万(2M)级别,通过创新的几何一致性设计,在多种开放世界场景下保持优异效果 [1] - 该模型对由Gemini或DiT-360等合成的全景图以及全景视频流均展现出极佳的预测效果,生成的深度图边缘锐利、逻辑自洽,且具备优秀的帧间一致性与稳定性,是空间AIGC和动态场景处理的理想几何基石 [3] - DAP的出现标志着全景深度估计进入了开放世界时代,能为自动驾驶、机器人避障提供全知视角,并为3D场景重建、VR/AR内容创作提供低成本的深度获取手段 [19] 数据引擎构建 - 为解决全景深度数据标注成本高、规模小(通常仅几万张)的瓶颈,DAP团队构建了规模空前的全景数据引擎,将数据量推至200万级别 [6][7] - 数据构成包括:170万张来自互联网的真实全景图、90K张利用虚幻引擎5模拟器生成的带精准标签的室外航拍数据,以及20万张由DiT-360模型生成的室内全景图,覆盖了极为丰富的真实与合成场景 [12] - 与现有方法相比,DAP的数据集在规模和场景覆盖上具有显著优势,具体对比如下:PanDA数据集为12.2万,DA2为60.6万,Unik3D为69.4万,DAC为80万,而DAP达到200万,其中包含50万室内、150万室外、30万合成和170万真实世界数据 [8] 核心技术:三阶段伪标签管线 - 面对190万张无标签的原始全景图,DAP设计了一个三阶段伪标签精炼管线来挖掘数据价值,层层筛选以淬炼出高质量的监督信号 [9][10] - 第一阶段:使用小规模精准的合成数据训练一个场景不变标注器,确立物理深度基准 [10] - 第二阶段:引入深度质量判别器,从190万预测结果中筛选出最靠谱的60万样本,再次训练标注器以消除合成与真实数据间的纹理鸿沟 [10] - 第三阶段:在汇集了精炼伪标签和原始强监督标签的200万数据集上,训练出最终的DAP基础模型 [11] 模型架构与优化 - DAP采用最新的DINOv3-Large作为特征提取骨干,赋予了模型极强的视觉先验和零样本泛化能力 [16] - 模型设计了距离自适应分支,允许用户根据应用场景切换深度感知范围,有效解决了全景图中远景区域深度分布不均、预测不稳的问题 [16] - 引入了针对全景图等距柱状投影畸变进行补偿的多维几何优化,包括SILog损失、锋利度损失、表面法线损失以及点云一致性损失,确保预测深度图数值准确、边缘锐利、几何结构稳定 [16] 性能表现与基准测试 - 在斯坦福2D3D室内数据集上,DAP的绝对相对误差为0.0921,均方根误差为0.3820,δ1分数为0.9135,性能优于对比方法 [14] - 在Matterport3D室内数据集上,DAP的绝对相对误差为0.1186,均方根误差为0.7510,δ1分数为0.8518 [14] - 在Deep360户外数据集上,DAP的绝对相对误差为0.0659,均方根误差为5.224,δ1分数为0.9525,显著超越此前的DAC和Unik3D模型 [14] - 在更具挑战性的DAP-Test户外数据上,DAP的绝对相对误差为0.0781,均方根误差为6.804,δ1分数为0.9370,同样大幅领先对比基线 [14] - 实测对比显示,DAP在复杂的家具纹理和远处的山脉轮廓预测上均清晰可见,避免了基线模型出现的远景模糊和天空深度误判问题 [14]
英伟达主管!具身智能机器人年度总结
具身智能之心· 2025-12-29 20:50
文章核心观点 - 英伟达机器人主管Jim Fan认为,机器人领域在2025年仍处于缺乏统一标准、硬件可靠性制约软件迭代的“蛮荒时代”,当前主流的VLA技术范式也存在结构性问题 [1][11][13] 行业现状与核心挑战 - 硬件进展快于软件,前沿硬件(如Optimus、e-Atlas、Figure、Neo、G1)的潜力未被AI完全发挥,机器人“身体”能力强于“大脑”指令 [11][14][15] - 硬件可靠性严重不足,过热、马达损坏、固件问题频发,需要整个运维团队维护,错误不可逆,这限制了软件的快速迭代速度 [16][17][18][30] - 领域缺乏统一、可复现的标准评测体系,基准测试是一场“史诗级灾难”,在硬件平台、任务定义、评分标准等方面均无共识,导致人人都可通过定义新基准宣称达到SOTA [8][9][20][21] 主流技术范式(VLA)的局限与未来方向 - VLA(视觉-语言-动作模型)是2025年机器人领域最热的词汇,当年发表了超200篇相关工作,它赋予机器人处理多模态信息的大脑,具备任务泛化能力 [44][45][47] - 当前基于VLM(视觉-语言模型)的VLA范式存在根本性结构问题:VLM是为视觉问答优化,其大多数参数服务于语言和知识,而非物理世界;其视觉编码器会丢弃对灵巧操作至关重要的低层细节 [11][24][26][27][49] - VLA的性能不会随VLM参数规模增长而线性提升,因为预训练目标与机器人控制不对齐 [26][51] - 未来方向包括:转向以**视频世界模型**作为更合理的机器人策略预训练目标,因其天然编码时序动态与物理规律 [28][53];发展整合物理驱动世界模型的VLA,统一语义指令与物理精度 [50];采用“形态无关表征”解耦规划与控制,实现零样本跨具身迁移,而非盲目堆叠参数 [51] 硬件与数据进展 - 2025年涌现多款新硬件本体,如Figure03、宇树H2、众擎T800、小鹏IRON机器人、智元精灵G2,它们在运动能力上表现亮眼,大型机器人已能像小型机器人一样灵活 [33][35] - 核心工程挑战在于如何在维持高性能的同时,提升硬件的抗摔性、电池发热、长时间运行稳定性等可靠性问题 [35] - 数据在具身智能领域的重要性已不言自明,数据规模存在Scaling Law,例如Generalist项目证明数据越大、参数越高,模型表现越好 [36][37][43] - 数据采集方式多样,如Sunday机器人利用技能捕捉手套能以近90%的成功率转换人类动作为机器人数据,Egocentric-10K数据集汇集了1万小时工作数据 [38][40][42] - 具体数据路线(人类中心采集、真机遥操、仿真、互联网数据等)及模态配比仍是未收敛的开放问题 [43] 数据与评测的未来趋势 - 未来数据范式可能转向 **“模拟优先、失败为中心”** ,依赖高保真模拟环境生成多样化轨迹,并充分利用失败轨迹学习,以提高数据利用效率和可持续性 [54][55][56] - 现有评测标准过于依赖二元成功率,未来需进行更全面的能力评估,以反映鲁棒性、效率和安全裕度 [56] 市场前景与产业动态 - 机器人产业市场前景广阔,据摩根士丹利研究,其规模有望从当前的910亿美元激增至2050年的25万亿美元 [57] - 硅谷科技巨头(除微软/Anthropic外)均已加码机器人软/硬件布局 [59]
为什么π系列对行业产生了这么大的影响?
具身智能之心· 2025-12-29 08:04
π系列VLA模型的技术演进与行业影响 - π系列被视为视觉语言动作(VLA)领域的里程碑,其通过持续技术突破引领生成式AI时代的机器人学习范式,重塑了行业应用逻辑 [2] - 2024年10月发布的π0首创Flow Matching连续动作轨迹预测,突破传统离散动作精度瓶颈,为精密制造、自动驾驶等场景提供毫米级操作基础 [3] - 2025年4月发布的π0.5通过异构任务协同训练与层次化推理,在陌生环境复杂任务泛化成功率高达94%,利用人类视频训练使数据成本降低90%,大幅提升了跨本体适应性并降低了机器人规模化部署门槛 [3] - 2025年11月发布的π0.6通过RECAP强化学习赋能零样本泛化与高效微调,在真实世界中的效率与精度超越人类,实现了工业级高任务完成率与数十分钟快速换型,推动了柔性生产落地 [3] - 其模型能力引领通用机器人从实验室走向工业制造、家庭服务等实景应用,成为2025年以来业界众多VLA模型的核心参考 [3] - 不少公司基于π系列搭建自己的真机演示,或基于其思路进行改进优化,该系列的新工作发布总能引起行业反响 [3] 行业学习与应用的挑战 - 尽管π系列先进,但存在模型不易调试、难以达到预期效果的问题,导致许多从业者将大量时间“浪费”在踩坑上 [4] - 对于初学者而言,想要基于π系列完成从数据、VLA模型训练优化到部署的一整套任务非常困难,有的甚至踩坑半年仍无法真正入门或取得较好效果 [5] - 行业中存在对缺乏真机、缺乏项目指导的普遍需求 [7] 具身智能之心的VLA实战课程解决方案 - 为解决上述挑战,具身智能之心平台联合业内VLA专家开发了国内首个《面向实战与求职的VLA小班课》 [8] - 该课程手把手带领学员复现π0系列等方法,旨在解决缺乏真机和项目指导的问题 [7][8] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验以及具身产业讲解等 [13] - 课程被描述为目前该平台最大、最完全的一门课程,采用软硬结合的方式助力有效学习 [14] - 购买课程的学员将获赠一套SO-100机械臂(包含示教臂和执行臂) [16] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,聚焦产学研协同落地,并在顶级期刊发表学术论文10余篇 [19] 课程目标人群与收获 - 课程面向正在具身领域求职需要实战项目的同学、VLA领域需要进阶的同学、从事具身智能研究的各学历层次学生、希望从传统领域转行进入具身的同学,以及对领域感兴趣的其他人员 [24] - 课程要求学员具备一定的Python和PyTorch基础,推理建议使用RTX 3060及以上显卡,训练建议使用2张以上RTX 3090 Ti显卡或可自租云服务器资源 [24] - 学员学后预期能掌握真机调试与数据采集、各类VLA算法在真机上的部署,并对VLA模型量化及具身产业落地有清晰认识 [24] - 完成课程后,学员简历上将有足够多的项目支撑,学完可达到具备1-2年以上经验的算法工程师水平 [24] 课程安排与信息 - 课程于2025年12月30日正式开课,后续章节将持续至2026年2月25日 [27] - 课程购买后不支持退款,有效期为2年,并提供微信VIP群内答疑服务 [25]
亚马逊团队15分钟单GPU搞定人形机器人步态训练!
具身智能之心· 2025-12-29 08:04
文章核心观点 - 亚马逊FAR实验室团队提出了一套快速强化学习方案,通过“算法调优-极简奖励设计-大规模并行仿真”三位一体的技术体系,首次实现了在单GPU上仅用15分钟训练出鲁棒的人形机器人运动控制策略,并支持全身运动追踪任务的快速部署,彻底重构了人形机器人从仿真到现实的迭代范式 [3][4][23] 问题根源:人形机器人强化学习的效率瓶颈 - **算法样本效率低**:传统在线RL算法(如PPO)需丢弃大量历史数据,在高维人形机器人控制中样本利用率低,训练周期长达数小时甚至数天 [6] - **高维控制稳定性差**:人形机器人(29自由度)动作空间复杂,关节限制、力矩平衡等约束导致离线RL算法易出现训练振荡,难以稳定收敛 [7] - **奖励设计冗余繁琐**:传统方案依赖20多项奖励塑造条款,增加调参难度且易导致策略“过拟合”特定场景,降低真实环境适配性 [8] - **域随机化适配难**:真实场景中的地形变化、外力扰动、动力学参数波动等要求策略在强随机化仿真中学习,进一步加剧了训练难度与耗时 [9] 方案设计:三位一体的快速训练技术体系 - **第一层:算法优化——离线RL的规模化适配** - 基于优化的离线RL算法FastSAC(Soft Actor-Critic优化版)与FastTD3(TD3优化版)[11] - 采用关节限制感知动作边界,根据机器人关节极限与默认姿态的差值设定动作边界,减少调参成本并避免扭矩不足问题 [11] - 结合观测归一化与层归一化进行双重归一化,解决高维任务中的梯度爆炸问题,提升FastSAC在复杂场景下的稳定性 [11] - 采用Q值平均替代裁剪双Q学习,避免与层归一化的兼容性冲突,并搭配C51分布式critic网络提升价值估计精度 [11] - 优化探索与优化超参:FastSAC设置最大标准差1.0、初始温度0.001,采用自动温度调优;FastTD3使用混合噪声策略(σ_min=0.01, σ_max=0.05);优化器采用Adam(学习率3e-4,权重衰减0.001,β₂=0.95)[11] - **第二层:奖励设计——极简主义的鲁棒性导向** - 设计仅包含核心要素的奖励函数(少于10项),兼顾策略鲁棒性与泛化能力 [13] - 运动任务核心奖励包含:线速度/角速度追踪奖励、足高追踪奖励、默认姿态惩罚、足部朝向惩罚、躯干直立惩罚、动作速率惩罚以及存活奖励 [14] - 全身运动追踪奖励基于BeyondMimic框架,以运动追踪目标为主,辅以轻量化正则化,并新增速度推力扰动项提升仿真到现实的鲁棒性 [14] - 采用自适应课程学习,随着训练进程逐步提升惩罚项权重,降低探索难度,加速收敛 [14] - 通过对称数据增广鼓励机器人形成自然对称步态,进一步提升训练效率 [14] - **第三层:并行仿真——大规模环境的吞吐量提升** - 依托GPU加速仿真框架,通过环境并行化突破训练瓶颈 [13] - 运动任务采用单RTX 4090 GPU,支持数千并行环境;全身运动追踪任务扩展至4×L40s GPU,并行环境数达16384,大幅提升数据采集吞吐量 [14] - 仿真中集成强域随机化,包括动力学随机化(质量、摩擦、质心)、PD增益随机化、动作延迟、崎岖地形、推力扰动(每1-3秒一次强扰动)等,确保策略适配真实场景变异 [14] - 利用离线RL算法的核心优势,充分复用历史交互数据,避免在线算法的数据浪费,在同等环境吞吐量下实现更快收敛 [14] 验证逻辑:四级性能验证 - **运动任务:15分钟实现鲁棒步态** - 在Unitree G1(29自由度)与Booster T1(29自由度)机器人上,FastSAC与FastTD3表现突出 [16] - 单RTX 4090 GPU仅需15分钟即可完成训练,线性速度追踪奖励显著超越PPO [19] - 在强推力扰动、崎岖地形场景下,PPO难以稳定收敛而FastSAC/TD3表现稳健 [19] - 策略能适应平坦/崎岖地形、随机动力学参数、频繁推力扰动等多种场景,无需额外微调即可迁移,展现出强大泛化能力 [19] - FastSAC凭借最大熵探索机制,在复杂场景下略优于FastTD3,验证了高效探索对高维控制的价值 [19] - **全身运动追踪:复杂动作的快速学习** - 在舞蹈、搬箱子、推力抵抗等任务中,方案展现出强大的复杂动作学习能力 [18] - 在4×L40s GPU支持下,FastSAC/TD3训练速度远超PPO,舞蹈任务(时长超2分钟)的运动追踪奖励更快达到收敛阈值 [20] - **真实硬件部署:零微调的鲁棒迁移** - 训练后的策略成功部署到真实Unitree G1硬件,完成舞蹈、搬箱子、推力抵抗等复杂动作,验证了仿真到现实的迁移鲁棒性 [20] - 在真实Unitree G1机器人上,仿真训练的策略无需额外微调即可稳定运行 [21] - 成功复现仿真中的速度追踪步态,在轻微不平坦地面保持稳定 [24] - 全身运动追踪策略能精准执行舞蹈、搬箱子等复杂动作,抵抗环境中的轻微扰动,展现出强鲁棒性 [24] 局限与未来方向 - **复杂地形适配**:当前主要验证平坦与崎岖地形,未来可扩展至台阶、斜坡等更复杂地形场景 [24] - **动态障碍物避障**:未融入避障逻辑,需结合视觉感知扩展奖励函数,实现感知-控制一体化 [24] - **算法融合潜力**:可集成最新离线RL优化技术(如样本效率提升、探索策略改进),进一步压缩训练时间 [24] - **多机器人适配**:当前聚焦双足人形机器人,未来可扩展至四足、多臂等更广泛机器人形态 [24] 总结:快速迭代范式的行业影响 - 该方案的核心贡献不仅在于15分钟训练的效率突破,更在于建立了“离线RL算法-极简奖励-大规模并行仿真”的快速迭代范式 [23] - 通过算法调优解决高维控制稳定性问题,通过极简奖励降低工程复杂度,通过并行仿真提升数据吞吐量 [23] - 其开源实现(Holosoma仓库)与硬件部署案例,为机器人研究者提供了开箱即用的快速开发工具,大幅降低人形机器人控制的研发门槛,加速了通用人形机器人从实验室走向真实应用的进程 [23]
“以人为中心”的具身数采逐渐成为首选,产业玩家格局初现~
具身智能之心· 2025-12-29 08:04
文章核心观点 - 当前机器人算法在真实场景中应用困难的核心原因是模型泛化能力不足,而泛化能力依赖于大规模高质量数据,因此如何低成本、规模化地获取高质量数据成为行业关键问题 [2] - 行业为解决数据问题已演变出四条主要技术路线,即在数据质量与获取成本间寻求平衡 [3] - 在多种方案中,“以人为中心”的数据采集技术路线,特别是基于UMI(通用操作接口)理念的便携式设备方案,因其在成本、规模和跨场景能力上的综合优势,正成为行业主流方向 [11][13] - 围绕“以人为中心”的数据范式,已初步形成产业玩家格局,多家公司推出了各具特色的便携式数据采集终端并布局规模化数据生产 [14][26] 行业现状与核心挑战 - 机器人算法研究活跃但真实场景应用少,模型泛化性不足是根本原因,场景稍变即性能下降 [2] - 高质量数据采集面临成本高、周期长、难以规模化、定制化属性高等挑战 [2] 主流数据获取方案 - 行业形成四种核心具身数据获取方案:UMI数据、遥控真机数据、仿真数据与人类视频数据 [3] - **UMI数据**:通过手持夹爪与腕部相机采集,实现不同机器人平台的数据互通与高效采集,为模型通用化训练提供基础 [4] - **遥控真机数据**:获取成本极高,但因真实环境不可替代、数据价值密度高(包含完整任务闭环)、是商业化落地必经之路,仍被视为核心数据类型 [5][12] - **仿真数据**:主流有纯仿真和real2sim2real方案,后者借助真实数据生成更逼真仿真数据,但存在真实性问题,真机泛化是挑战 [6] - **人类视频数据**:规模大、成本低、场景覆盖广,但无法直接取得很好泛化效果,适合预训练阶段 [7] 数据方案的关键评估维度 - **规模化**:高质量和不同场景的数据越多,真实场景效果越好 [8] - **跨本体**:能够跨本体使用的数据发挥空间更大,未来是本体形态百花齐放的时代 [9] - **成本**:低成本是保证规模化的必经之路 [10] “以人为中心”数据方案的优势 - **通用性强,打破平台壁垒**:通过标准化接口实现“无本体依赖”的数据采集,提升数据复用价值 [11] - **数据质量稳定,标注精度高**:内置标准化标注模块,采集过程同步完成精准标注,基于真实物理交互,真实性高 [11] - **采集效率高,成本可控**:实现自动化采集与传输,无需为不同平台单独开发系统,降低前期投入成本 [11] - **便携式设备**:允许在真实场景中连续记录人类完成复杂任务的过程,产生“连贯行为链”数据,并能直接采集海量多样化的人类操作数据 [13] 产业玩家格局与产品 - 行业内“以人为中心”相关玩家主要分为两类:拥有自家机器人本体+数据采集终端产品的公司,以及更聚焦数据领域、提供多模态数采终端和一站式数据服务的公司 [14] - 具身智能领域正出现类似智驾行业的生态圈,智驾领域公司(如Momenta、地平线)近1年来有多位高管和技术核心人员参与创业 [15] - **鹿明机器人**:发布FastUMI Pro多模态无本体数据采集软硬件系统,采用轻量化手持式夹爪方案,整体重量仅600g,负载能力达2kg,并已搭建3个数采厂提供数据服务 [16] - **简智**:发布Gen DAS数据采集设备,轻量化、无线化、便携化,其具身智能数据产线通过走进数千个家庭模式批量制造高质量数据 [18][20] - **它石智航**:发布轻便、模态齐全、可穿戴的具身数据采集系统SenseHub,将视觉、触觉与手部动作数据深度融合,持续记录真实高质量操作行为 [21] - **数元时代**:推出MeData Link系列多模态数据采集终端产品,包括手持式夹爪数采终端,无需定位基站、无线、轻量便携,搭建了规模化真实场景数据采集产线,目标实现日产千小时以上高质量数据,并同步搭建超8000平方米的数采厂 [23][25] 行业发展趋势与竞争关键 - 当前具身智能领域现状是重数据和本体,在本体质量提升的同时,谁掌握更多数据,谁就拥有更多市场话语权 [26] - 对于具身公司而言,能够低成本构建丰富的数据库至关重要 [26]