具身智能(Embodied AI)
搜索文档
给机器人造一颗会思考的大脑,白惠源的“反共识”突围
财富FORTUNE· 2026-01-21 21:03
文章核心观点 - 原力无限公司创始人白惠源在2026年CES论坛上提出,当前人形机器人行业的最大瓶颈在于缺乏对世界的因果理解,没有“具身大脑”的机器人只是精致的提线木偶 [1] - 公司自2023年创立起,便选择了一条与行业主流“卷硬件”不同的“反共识”路径,聚焦于打造能够理解物理世界、具备因果推理能力的“具身大脑”,并推行“一脑多身多场景”战略 [2][3][12] - 公司通过“持续学习的Hyper-VLA + 因果世界模型”技术路线,致力于让机器人从依赖大数据的“关联”学习,进化到具备“小数据、强逻辑”的因果推理能力,以解决在物理世界中面临的“数据饥渴”和“鲁棒性缺失”问题 [5][6] - 2025年,公司获得超过5亿元人民币的商业订单,这些来自文旅、科研、能源等领域的头部客户的订单被视为对技术路线的“信任票”,用于在真实场景中验证技术、喂养数据,推动产品从Demo到Pilot的关键跨越 [8] - 公司的长期愿景是成为机器人智能内核的底层提供者,让技术变得无形,使人类忘记是在与机器打交道 [13] 行业背景与公司战略选择 - **行业趋势**:2023年左右,机器人行业陷入一场“造身体”的硬件军备竞赛,全球数百家创业公司比拼关节、步态等硬件参数 [2] - **公司洞察**:行业痴迷于打造完美躯壳,却忽视了机器人的认知能力,没有认知能力的机器人与遥控玩具无异 [2] - **战略路径**:公司确立“一脑多身多场景”战略,不参与硬件参数内卷,战略重心聚焦于能适应不同躯体、理解物理世界的“具身大脑” [3] - **核心逻辑**:硬件是容器,智能是水,先让大脑学会如何定义身体,而非相反 [3] - **关键选择**:公司在行业卷硬件时押注“一脑多身”架构;在行业迷信端到端黑盒时引入“因果推理”逻辑白盒;在行业浮躁时选择用“场景闭环”打磨产品,这三次“反共识”选择构建了公司的护城河 [12] 技术路线与核心理念 - **技术范式**:采用“持续学习的Hyper-VLA + 因果世界模型”技术路线,被硅谷主流技术圈视为对主流范式的“叛逆” [5] - **理论依据**:借鉴Judea Pearl的观点,指出现有AI大多停留在“关联”层面,而真正智能需跨越到“干预”和“反事实”层面 [5] - **现有模型局限**:“端到端学习”范式在物理世界面临严重“数据饥渴”和“鲁棒性缺失”,它基于概率统计,无法理解材质属性(如玻璃易碎)或推导事件后果(如碎片伤人) [6] - **公司解法**:在大模型的直觉之上,叠加一层因果逻辑引擎,让机器人学会因果推理 [6] - **思维类比**:将现有端到端模型比作丹尼尔·卡尼曼理论中的“系统1”(快思考,靠直觉),而公司正给机器人装上“系统2”(慢思考,靠逻辑) [6] - **进化方向**:这是一场从“大数据”向“小数据、强逻辑”的进化,旨在让机器人在缺乏数据的陌生环境中依然安全、可控 [6] - **终极目标**:公司旨在培养理解世界的智能体,而非训练动作模仿者,这被认为是两条完全不同的物种进化树 [6] 商业化进展与市场反馈 - **订单规模**:2025年,公司斩获超过5亿元人民币的商业订单,在行业内引发震动 [8] - **订单性质**:订单并非标准化货架产品,而是来自文旅、科研、能源、智能制造等领域头部客户的“联合实验”,他们为“未来的可能性”买单 [8] - **应用场景**:公司的AstroDroid AD系列人形机器人正在真实场景中跨越,如在博物馆理解游客意图、在实验室操作精密仪器、在家庭提供清洁服务 [8] - **订单意义**:这5亿元订单是市场投出的“信任票”,反映了行业对机器人能否在真实世界干“正经事”的焦虑与期待 [8] - **发展逻辑**:通过商业试点验证技术,用真实场景喂养数据,形成“数据飞轮” [8] 创始人理念与公司愿景 - **创始人观点**:在CES论坛上,白惠源指出“一个不理解世界因果关系的机器人,不过是一个精致的提线木偶” [1] - **创业动机**:基于对底层逻辑的推演,认为具身智能的核心矛盾在于大脑对物理世界的感知与预测能力,而非肢体灵活性 [3] - **中国优势认知**:面对中国供应链优势的提问,创始人表示正因为中国擅长制造,才更清楚制造不是终点,并坚信理想主义者才能改变世界 [10] - **长期愿景**:希望公司成为机器人世界的“空气”和“水”,无论未来机器人形态如何,其智能内核(理解世界、自主决策的大脑)源自原力无限 [13] - **技术境界**:最顶级的技术会变得无形,让人类彻底忘记是在与机器打交道 [13]
AI4S电池创新价值兑现,三个痛点:真实、规律、效率
高工锂电· 2026-01-13 23:57
文章核心观点 - 当前主流AI(如大语言模型)在理解真实物理世界方面存在根本性局限,而AI for Science (AI4S) 是让AI进入并理解由物理、化学和数学规律构成的真实科学世界的关键方向 [1] - AI4S正从概念走向产业实践,其核心价值在于回归真实科学问题,通过理解微观世界的规律来驱动高效的研发创新,并已在电池、医药等领域创造出真实的经济价值 [2][3][5] - 以SES AI的“分子宇宙”平台为例,AI4S的成功路径在于:先长期深耕垂直科学领域以积累对现实的理解(“科学品味”),再运用AI工具放大这种判断力,最终实现研发效率的质变和产业突破 [4][6][20][21] AI4S的产业价值与市场验证 - **产业突破实例**:基于SES AI的“分子宇宙”平台,已有6款突破性新型电解质材料完成开发验证,并与全球超过40家电池及材料企业推进测试与量产导入 [3] - **资本市场关注**:AI4S领域已出现多笔大额融资,例如SandboxAQ完成3亿美元融资后估值达56亿美元,Periodic Labs以13亿美元估值完成3亿美元种子轮融资 [3] - **独立估值参考**:如果“分子宇宙”平台是一个独立公司,其价值也将达到数十亿美元量级 [3] - **成功上市案例**:晶泰科技作为AI4S赛道公司,于2024年成功在港股上市,其成长源于在医药研发垂直领域的长期深耕,获得了国际药企与资本市场的认可 [4] AI4S在电池领域的具体应用与成果 (以SES为例) - **平台演进逻辑**:“分子宇宙”平台的核心逻辑是先锚定真实的微观世界,提炼科学规律,再叠加AI捕捉数据背后的数学规律,最终释放科研效率 [10] - **六大关键场景解决方案**:平台已催生覆盖低硅负极、高硅负极、锂金属、高电压LCO、LFP储能以及凝胶电解质等场景的突破性电解液方案 [7] - **低硅负极电解液**:在60°C高温存储测试中,性能较行业基准提升26% [7] - **高硅负极电解液**:目标在1C/1C和4C/1C条件下,实现比商业标杆超过20%的循环寿命提升 [8] - **极致快充电解液**:在4C-4C极速充放电循环条件下,已展现出比传统基线配方更优的循环寿命 [9] - **高电压电解液**:在4.58V超高电压、45°C高温下循环200周后,容量保持率稳定超越行业头部客户的现有基线配方 [9] - **LFP体系电解液**:在多项关键性能上达到或超越了全球动力电池龙头的产品 [9] - **凝胶电解质**:在多项测试中,性能均优于主流商用液态电解液 [9] - **性能突破**:借助平台发现的新电解液配方,公司将锂金属电池能量密度推至500Wh/kg,并将硅碳电池提升至接近400Wh/kg水平 [18] “分子宇宙”平台的核心能力框架 - **真实:构建可计算的电池分子世界** - **数据规模与真实性**:平台构建了映射真实微观理化性质的可计算世界,其MU-1版本基于超过2亿分子的DFT计算与混合精度建模 [11] - **数据源**:分子数据不仅包括结构,更附着了由高精度计算校准的物化性质,以及来自实际电芯测试的性能与失效数据(包含“失败样本”) [12] - **验证闭环**:平台工作流强调“预测-验证”的强制闭环,迫使AI推理建立在与物理世界一致的约束之上 [12] - **持续深化**:MU-1.5版本新增对12%硅碳负极和100%硅碳负极搭配高镍正极的专项支持,并利用前沿研发的独家数据使虚拟筛选更贴近真实高端应用工况 [12] - **规律:从统计关联到因果洞察** - **引入领域智慧**:MU-1.5引入了“Flavor”(风味标签)系统,将人类科学家数十年积累的领域智慧进行系统化编码,包含7种结果导向标签和9种机制导向标签 [14][15] - **搜索逻辑升级**:AI搜索从基于分子结构相似性,升级到基于功能与机理的相似性,相当于将顶级科学家的经验与直觉转化为可被AI复制和拓展的数字化规律 [15] - **自主发现规律**:平台的Predict模块能通过分析海量电芯循环时序数据,学习退化模式并预测长期寿命,捕捉可能连科学家都未清晰阐明的高阶数理关联规律 [15] - **效率:从流程工具到可私有进化的研发大脑** - **智能工作流**:平台构建了Ask → Search → Formulate → Design → Predict的智能工作流,系统性地将灵感生成、方向筛选、时间验证成本“坍缩”进计算循环 [16] - **私有化部署**:“MU in a Box”是一套可实现完全离线、数据不出厂的本地化部署一体机,解决了顶级企业对数据安全的顾虑 [17] - **个性化与自进化**:企业可利用自身专有数据训练专属的“私人宇宙”,让AI工具迅速适配自身最紧迫的研发战线,使效率竞争升级为企业间“私有智能体”进化速度的竞争 [17] - **能力产品化**:平台淬炼出的效率能力开始以软硬结合形式产品化,例如通过收购获取海量LFP数据训练预测模型,并将其封装为硬件提供“电池健康预测即服务” [18] AI4S的成功路径与护城河 - **发展路径**:真正有价值的AI4S公司往往成长于具体科学领域的长期实践之中,先在微观世界具备“理解现实”的能力,再在AI4S领域大展拳脚 [4][6] - **核心护城河**:在AI时代,“品味”(Taste)是唯一的护城河,对于AI4S而言,“科学品味”源于在真实研发中长期深耕、反复校准后形成的判断力 [21] - **平台定位**:“分子宇宙”平台旨在成为AI时代电池研发的工作台,帮助研发工作者将其“研发品味”转化为现实中可验证的性能提升与产业成果 [21]
无需人工标注,轻量级模型运动理解媲美72B模型,英伟达、MIT等联合推出FoundationMotion
机器之心· 2026-01-11 10:17
当前视频大模型的局限性 - 视频大模型发展迅速,但在面对复杂的空间移动和物理规律时,依然“看不懂”物体如何运动[2] - 模型或许能描述视频中发生了什么,但难以回答涉及时序关系(如“红色的车是在蓝色车转弯之前还是之后通过路口”)或物理轨迹(如“皮球的抛物线轨迹最高点在哪里”)的复杂问题[2] - 在测试中,Gemini 3 Pro Preview未能理解视频中车辆最主要的运动行为(变道与超车),而是错误地描述为在车道上行驶[8] - 模型可以生成高速行驶的赛车,却难以判断刹车究竟是发生在碰撞之前还是之后;能描绘复杂的街景,却常常搞错行人的移动方向与相对位置关系[10] - 空间与运动是人类理解世界的基础,而这一能力恰恰是当前视频模型最薄弱的部分[9] 问题根源:数据匮乏 - 高质量运动数据极度匮乏是根本原因[3] - 现有数据集要么规模太小,要么依赖昂贵的人工标注,难以支撑模型学习真实世界中细粒度的物理运动[3] - 现有视频数据要么只包含静态描述,要么高度依赖昂贵、难以扩展的人工标注,使得大规模、细粒度的“运动理解”数据几乎无法获得[12] FoundationMotion解决方案 - 来自MIT、NVIDIA、UC Berkeley等机构的研究者提出了FoundationMotion,一套完全不依赖人工标注的自动化数据管线[4] - FoundationMotion是一套端到端、无需人工参与的自动化数据生成系统,可被视为一座全自动的“运动数据工厂”[13] - 其工作流程分为四步:1. 预处理;2. 使用目标检测与跟踪模型,将视频中的关键物体转化为连续的时空轨迹;3. 采用多模态融合策略,将轨迹信息转化为语言模型能理解的“运动说明书”;4. 利用GPT-4o-mini自动生成高质量的标注与问题[14][16][17][18] - 最终,团队基于InternVid构建了约50万条高质量运动理解数据,形成了FoundationMotion数据集[18] 技术效果与性能表现 - 仅用FoundationMotion生成的数据微调后,15B参数的视频模型在运动理解任务上超越了更大规模的模型[4] - 具体表现为:NVILA-Video-15B在AV-Car基准测试上达到90.6%,超越了Gemini-2.5-Flash的84.1%以及Qwen-2.5-VL-72B的83.3%[4] - 微调后的7B/15B模型在多个运动理解基准上,实现了对Gemini-2.5 Flash与Qwen2.5-VL-72B的越级挑战[26] - 这一提升是纯数据驱动的,不依赖额外的模型结构设计或复杂的推理策略,完全归功于数据的质量[26] - 模型在增强物理感知的同时,并未损害原本的通用视频理解能力,且在不同领域(自动驾驶、机器人操作、日常活动)均具备良好表现和强泛化性[26] 行业意义与应用前景 - FoundationMotion的意义远不止于刷榜,被认为是构建真正的具身智能的基础设施[23][27] - 在自动驾驶与机器人领域,“理解物体如何运动”直接关系到系统的安全与决策能力[24] - 该方案提供了一条低成本、可扩展的路径,让AI能够通过观看海量视频,逐步建立对物理世界的直觉[25] - 这套管线未来可广泛用于视觉语言模型、世界模型等领域,实现将轨迹转化为结构化文本描述、生成精细化运动描述(包含速度变化、方向、终止位置等细节)以及多维度运动理解问答(覆盖动作识别、时序关系、动作-物体关联、空间位置以及重复计数等关键能力)[25]
全面梳理 VLA 20大挑战的深度综述,方向清晰可见,每周更新,助力时刻掌握最新突破!
AI科技大本营· 2025-12-25 09:18
文章核心观点 - 一篇名为《An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges》的综述论文发布,旨在为快速演进但结构复杂的视觉-语言-动作模型研究领域提供一个清晰、系统的参考框架 [4] - 该综述的核心贡献在于不再简单罗列研究工作,而是致力于理清问题结构,将五大核心挑战作为全文分析主线,并按照从基础到前沿的自然认知顺序构建学习路线 [6][9] - 综述被设计成一份长期可用的工具型资源,不仅提供系统知识梳理,还配套一个持续更新(每周一上午)的在线参考框架,以帮助研究者和从业者建立整体认知、定位能力短板并判断未来方向 [5][10] 综述的目标与价值 - 旨在解决领域内新入门者不知从何学起、从业者难以系统性提升能力的结构性困惑 [1][3] - 其价值在于帮助读者快速梳理核心技术脉络与关键问题,高效定位VLA系统当前受限的能力环节,并对“下一步如何改进”形成可靠判断 [10] - 对于从业者而言,其价值在于以更低的认知成本,持续、有效地定位和提升VLA系统的关键能力,提升科研工作的聚焦度和效率 [16][17] 综述的结构与内容 - **基础模块解析**:首先在Basic Modules章节系统拆解VLA系统的基础构成,包括视觉编码、语言理解、跨模态融合、规划机制与动作生成等关键设计,旨在建立一套统一的“模块级词汇表” [18][19] - **里程碑回顾**:沿时间轴系统回顾VLA的关键演进阶段,覆盖了从对齐、大模型、开源框架到强化学习与世界模型等多条核心技术路线,勾勒出VLA从概念验证走向可持续、可扩展具身智能体的范式迁移 [20][21][24] - **五大挑战分析**:将当前技术难点系统收敛为五大核心挑战,并将其作为全文主线,而非文末展望,这五大挑战覆盖了VLA系统从“感知世界”到“真实部署”的完整路径 [25][26][29] VLA领域面临的五大核心挑战 - **挑战1:表征**:在真实物理环境中,语言表达的抽象意图难以被稳定、精确地映射为连续动作,视觉、语言与动作的统一涉及空间结构、时间一致性与物理因果关系的长期建模 [30] - **挑战2:执行**:在长时序、多约束任务中,系统需要在任务拆解、规划决策与底层控制之间保持高度一致,并应对环境扰动与不确定性,这决定了VLA是停留在演示层面还是具备工程可用性 [33][34] - **挑战3:泛化**:现实世界的变化远超训练数据覆盖,许多方法在跨任务、跨场景乃至跨机器人时性能显著下降,实现跨分布迁移和快速适应是VLA走向通用能力必须跨越的门槛 [35][36] - **挑战4:安全**:安全不仅意味着避免危险动作,还包括决策过程的可解释性、对不确定性的感知能力以及请求人类介入的机制,这些能力决定了VLA是否具备被信任与规模化部署的前提 [37] - **挑战5:数据与评测**:缺乏高质量、多样化的数据来源以及统一、细粒度的评测标准,导致领域难以客观衡量系统在过程质量、鲁棒性、失败恢复等维度的能力 [37] 未来发展方向 - 未来可能的方向包括“原生多模态架构”、融合物理与语义的因果世界模型,以及具备“自我觉察”能力、能在闭环中反思与纠错的智能体 [43] - 这勾勒出下一代具身智能体的雏形:不仅会做事,还能在真实世界里做得稳、做得对、做得可控 [44] - 总体目标是推动VLA从开环执行走向闭环自治 [42]
华人博士在英国做出颠覆性人机交互“皮肤”,已在汽车、医疗行业应用
创业邦· 2025-12-20 09:09
公司概况与核心业务 - 公司TG0(触零科技)是一家由纯华人团队在英国创办的硬科技公司,致力于打造下一代“AI+材料”人机交互产品 [5] - 公司通过将AI算法芯片嵌入普通导电柔性材料,使其能感知触摸的位置、压力和手势,实现无需触摸屏、按钮或传统传感器阵列的交互 [7] - 公司名称TG0寓意“触感新时代:以零为始,大道至简”,T代表可触摸,G代表新时代,0代表从零开始 [11] - 公司联合创始人兼CTO郭留成博士拥有帝国理工学院AI博士学位,联合创始人孔明拥有帝国理工与皇家艺术学院双硕士学位,分别追求极致效率与极简美学 [11] - 公司自2015年创业,经过长达十年的探索,已从最初被嘲笑“异想天开”到成功打入汽车、医疗等行业供应链 [7] 核心技术方案 - 公司核心技术是“材料+芯片”,模仿人类皮肤的触觉生物机制,使用导电聚合物材料作为“皮肤”,嵌入运行轻量级AI算法的芯片作为“大脑” [14][15][17] - 该技术只需在材料上布置极少量电极,通过算法解析电流信号的微弱变化来实时计算触摸的三维坐标、压力及手势,实现“被动感知”或“隐性交互” [16][17] - 与传统方案相比,该技术具有颠覆性优势:传统电容屏/触摸板依赖铺满的传感器网格,成本高且形状受限;而公司方案大幅简化结构 [14] - 在机器人领域,公司技术可用不到1毫米厚的材料包裹机器人手指,不仅能感知正向压力,还能感知360度的剪切力,替代传统昂贵的力矩传感器阵列 [18] - 公司技术能实现“降维打击”,将原本需要60个组件的产品界面简化为1层材料、1根导线和1个芯片,使机器结构更简单、成本更低、更环保 [20] 商业化进展与市场应用 - 公司经过五年研发与专利布局后,于2020年迎来商业化转折点,目前拥有9组核心专利,覆盖中国、英国、欧盟和美国等主流市场 [14] - 汽车行业是公司最早攻下的领域之一,其解决方案可将触控功能“种”在汽车内饰如车门把手、木纹饰板、真皮座椅上,实现无需触控屏的直接接触调节,解决了触控屏缺乏物理反馈的安全问题 [23] - 在医疗领域,公司与美国医疗公司合作开发了带有感知功能的假肢衬垫,通过柔性传感材料实时监测压力数据,帮助残障人士快速适应假肢,减少摩擦溃疡 [28] - 公司营收在过去五年保持每年50%以上的增长,目前已达到千万级人民币,未来一到两年有望突破亿元大关 [29] - 公司的护城河在于“端侧AI”能力,其轻量级嵌入式AI算法无需联网和昂贵GPU,可在本地完成复杂信号解算,在汽车、医疗等对实时性和隐私性要求高的场景中具备绝对优势 [29][30] 行业定位与未来愿景 - 公司是2025年英国“Future Fifty”榜单中唯一一家由纯华人团队创办的硬科技公司,并在2025年10月获得“英国最佳科技奖·深科技创新类”大奖 [5] - 在环保法规日益严苛的欧洲,公司技术因能简化结构、降低成本及更环保,成为撬动大客户的关键杠杆 [21] - 公司正加速在中国布局,以上海为重要落脚点,未来会将更多研发重心向国内倾斜,并考虑建立专门的研发中心,以利用国内机器人产业基础 [35][36] - 公司瞄准“具身智能”未来趋势,旨在成为机器人时代的“皮肤供应商”,让机器人拥有触觉,其技术有望像电力和网络一样成为未来世界的基础设施 [33][34] - 公司构想的未来是万物皆可交互,物体通过无处不在的接触与人建立无声的默契,例如地板感知脚步、椅子感知疲惫、杯子感知渴求 [37]
“木头姐”站队:不是泡沫!AI正在复制互联网的财富爆炸时刻
金十数据· 2025-11-26 12:13
AI行业周期判断 - 当前AI浪潮并非泡沫,而是类似1995年互联网初期的技术革命,未来十年将带来巨大财富机会[1] - 泡沫产生于"提供的产品缺乏需求",而目前市场状况是供不应求,公司甚至不得不限制对其底层数据中心的访问[2] - 全球约有10亿AI聊天机器人用户,仅占全球智能手机用户的15%多一点,预计到本十年末可能增长到40亿至50亿,实现用户数量5倍增长[2] 技术成熟度与历史对比 - 与科技和电信泡沫时期对比,当前技术已经就绪:2006年出现云计算,2012年出现深度学习突破,2017年出现Transformer架构[3] - 测序完整人类基因组的成本从27亿美元并耗费13年计算能力大幅下降,过去25到30年种下的技术种子正在开花结果[3] - 将当前周期定位为1995年互联网时刻,思科股价从每股2美元、英特尔从7美元在泡沫结束前有10到20倍上涨空间[3] 估值与增长前景 - 公司收入增长和利润率扩张将压倒估值的压缩,Palantir美国商业收入增长达到123%[4] - AI变现速度极快,周活跃用户达10亿,可能是任何企业集合达到300亿美元经常性收入最快的一次[4] - OpenAI预计到今年年底年化收入约200亿美元,明年可能400到500亿美元,2027年达到1000亿美元年化收入[5] 企业战略差异 - OpenAI面向消费者世界,有8亿用户(其中约4000万付费用户),变现路径更长,将利用广告模式和商业杠杆[5] - Anthropic更偏向B2B,致力于开发编程能力,与10x Genomics合作显示医疗保健可能是AI最深刻的应用[5] 技术创新平台与机会 - 五大创新平台包括AI、机器人技术、储能、区块链技术和多组学测序,其中AI是最大的催化剂[6] - 具身智能是最大机会,Robotaxi目前全球收入不到10亿美元,未来5到10年内将扩大到8到10万亿美元[6] - 人形机器人是一个比几乎任何东西都要大的机会,平台即服务层规模几乎与基础模型层相当[6] 市场竞争格局 - SaaS应用层正在将市场份额输给PaaS平台即服务部分[7] - Meta、亚马逊、Google、微软等"现金堡垒"都在增加资本支出,看到了收入增长的公司获得回报[7] - 自动驾驶卡车的运输成本预计将低于铁路(每吨英里3美分对比4美分),传统资产可能成为"搁浅资产"[7] 市场增长预测 - 整个市场直到本十年末可能以每年百分之十几的速度复利增长[8] - "美股七雄"之外的颠覆性创新增长率将远高于此(50%)[8] - 实际GDP增长将在未来5到10年内加速,达到可持续的5%左右水平,推动全球实际GDP增长到7%至8%[8]
DeepMind招募波士顿动力前CTO,哈萨比斯点赞宇树
机器之心· 2025-11-22 15:03
核心观点 - 谷歌DeepMind聘请波士顿动力前CTO Aaron Saunders,标志着公司在具身智能领域的战略深化,旨在解决AGI在物理世界落地的硬件问题 [2][3][8] - 此次人才流动反映了机器人行业从追求高机动性向发展通用操作能力的范式转移,谷歌正通过整合顶尖硬件人才与Gemini AI系统,试图打造类似安卓的机器人操作系统 [9][11][13] - 行业竞争格局发生变化,中国公司如宇树科技在四足机器人供应链成本优势显著,但谷歌DeepMind仍将战略重心放在AI"大脑"的研发上 [14][15] 人才战略与行业意义 - Aaron Saunders于本月初正式加入DeepMind担任硬件工程副总裁,其核心任务是"负责任地解决具身智能问题" [8][9] - 此次招聘是DeepMind CEO Demis Hassabis宏大愿景的关键部分,旨在将Gemini打造为可跨身体构型工作的机器人操作系统 [11][13] - 谷歌与波士顿动力存在历史渊源:Alphabet于2017年将波士顿动力出售给软银,后者又转售给现代汽车,时隔8年后谷歌重新引入其核心技术高管 [5][6] 技术范式与行业趋势 - 机器人领域正从"去任何地方"(高机动性)向"做任何事情"(通用操作能力)转型 [9] - 制造足式机器人的组件和专业知识日益普及,美国公司如Agility Robotics、Figure AI、1X及特斯拉均在研发人形机器人 [14] - 中国公司宇树科技在面向制造业和建筑业的四足机器人供应方面已超越波士顿动力,成为全球最大供应商 [14] 公司战略定位 - DeepMind强调其战略重心在于AI"大脑"而非硬件,Hassabis对宇树科技表示印象深刻但更关注Gemini的多模态能力 [15] - 公司采用类似安卓的开放策略,目标是构建可适配不同身体构型(包括人形与非人形)的通用AI系统 [11][13] - Hassabis预测AI驱动的机器人技术将在未来几年迎来"突破性时刻",此次高管招聘被视为实现该目标的关键拼图 [15]
ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo
具身智能之心· 2025-11-13 10:05
文章核心观点 - 联合研究团队发布了名为UnrealZoo的高保真具身智能仿真平台,旨在通过提供大规模、多样化的近真实虚拟环境,解决当前具身智能研究在环境复杂性和智能体泛化能力方面的短板 [1][2][8] - 该平台基于虚幻引擎构建,包含超过100个高质量3D场景和66个可交互实体,并提供了优化的编程接口,以支持算法验证、数据合成和智能体训练等多种研究需求 [5][13][16] - 平台相关论文已被ICCV 2025接收并入选Highlight Award,占录用论文总数的10% [2] 平台核心特性与优势 - UnrealZoo收录了100余个高质量、高逼真、大尺度3D场景,覆盖从室内家居、城市街道到自然景观和大型工业工厂等多种环境,最大场景达16平方公里 [2][15] - 平台内置了7种类型共66个具身实体,包括人类、动物、汽车、无人机、机器人等,各具不同的动作空间和视点 [5][31] - 相较于现有模拟器如Habitat、AI2-THOR等,UnrealZoo在场景多样性、风格覆盖(古代、现代、科幻、东方、西方等)和智能体形态多变性方面具有明显优势 [11] 技术创新与系统优化 - 平台对开源工具UnrealCV进行了优化,推出UnrealCV+,显著提升了通信效率和渲染性能,例如物体掩码捕获帧率从70 FPS提升至154 FPS(提升120%),深度图捕获从52 FPS提升至97 FPS(提升86%) [48][53] - 提供了易于使用的Python API和Gym接口,支持环境增强、演示收集和分布式训练/测试,降低了使用门槛 [5][48] - 智能体运动系统基于Smart Locomotion,支持跑、跳、攀爬等复杂三维空间探索;导航系统基于NavMesh,支持自主路径规划和避障 [36][38][39] 实验验证与应用潜力 - 在视觉导航任务中,实验揭示了当前智能体(包括基于RL和GPT-4o的模型)在复杂开放3D世界中面临巨大挑战,与人类玩家表现存在显著差距 [56][60] - 在主动视觉跟踪任务中,实验表明,随着训练环境数量从1个增加到8个,智能体的泛化能力显著提升,尤其是在野外环境中成功率提高明显 [64][68] - 研究同时发现,高控制频率(如30 FPS)对智能体在动态环境中的性能至关重要,当频率低于10 FPS时性能会显著下降 [70] 行业意义与发展方向 - UnrealZoo填补了现有具身智能模拟器在开放世界复杂性和多变性方面的空白,为智能体从虚拟世界走向现实世界的广泛应用奠定了基础 [7][8][72] - 平台的开放下载(通过Modelscope)有助于推动整个具身智能行业在导航、主动追踪、社会交互等任务上的研究进程 [5][9] - 未来的工作将继续丰富虚拟世界的场景、实体和交互任务,以进一步提升智能体的空间感知和泛化能力 [72]
ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo
机器之心· 2025-11-12 01:11
核心观点 - 联合研究团队推出了基于虚幻引擎的高保真具身智能仿真平台UnrealZoo,旨在解决现有模拟器场景单一、真实性不足的问题,为复杂开放世界中的AI训练提供支持 [2] - 该平台包含超过100个高质量3D场景和66个可自定义操控的实体,提供优化的编程接口和工具链,显著提升了仿真效率与易用性 [5][7][15] - 实验证明环境多样性对智能体泛化能力至关重要,同时揭示了当前基于强化学习和大模型的智能体在复杂3D空间推理中的局限性 [50][55][58] 平台概述与定位 - UnrealZoo是一个基于虚幻引擎UE5开发的高保真虚拟环境集合,包含100余个场景地图和66个可自定义操控的具身实体 [5] - 平台被ICCV 2025接收并入选Highlight Award,本届共有280篇论文入选,占录用论文总数的10% [2] - 旨在弥补现有模拟器如Habitat、AI-Thor和Carla等在场景多样性和开放性方面的短板,推动具身智能体在多变环境中的适应能力发展 [8] 场景与实体多样性 - 平台收录100多个高质量3D场景,涵盖住宅、超市、火车站、工厂、城市、乡村、寺庙及自然景观等多种风格,最大场景达16平方公里 [13][16] - 提供人类、动物、汽车、摩托车、无人机、移动机器人和飞行相机等七种类型共66个实体,各具不同的动作空间和视点 [24] - 与主流虚拟环境相比,UnrealZoo在场景类别、规模、风格和实体多样性方面具有显著优势,支持古代、现代、科幻等多种风格 [12] 技术特性与系统功能 - 运动系统基于Smart Locomotion,支持智能体在复杂三维空间中进行跑步、跳跃、攀爬等基础移动能力 [31] - 内置基于NavMesh的自主导航系统,支持智能路径规划和避障;交互系统支持物体拿放、碰撞、上下车、开关门等丰富物理交互 [33][34][36][38][40] - 支持多智能体之间的合作与对抗交互,为研究社会智能行为如合作、竞争与沟通提供平台 [41] 软件接口与性能优化 - 提供一套易用的Python API和工具(UnrealCV+),包括环境增强、演示收集和分布式训练/测试功能 [15][42] - UnrealCV+优化了渲染管道和通信协议,帧率(FPS)显著提升:物体级分割图性能提升120%,深度图提升86%,多智能体交互(N=10)提升100% [45][46] - 开发基于Gym接口的高级Python API,简化环境交互,使初学者也能轻松使用和定制环境 [44][46] 实验验证与应用潜力 - 视觉导航实验中,在线RL智能体在需要立体空间感知的复杂环境中表现优于GPT-4o,但与人类玩家存在显著差距 [47][50] - 主动视觉跟踪实验表明,随着训练环境数量从1个增加到8个,智能体的泛化能力显著提升,尤其在野外环境中成功率提高明显 [55][58] - 在动态干扰测试中,RL方法在0D、4D、10D干扰设置下均保持较高成功率(0.76/0.68/0.56),显著优于PID、GPT-4o和OpenVLA等方法 [60][61] - 控制频率实验显示,当感知-控制循环频率低于10 FPS时性能显著下降,30 FPS时成功率可达0.92,凸显高效模型的重要性 [62]