具身智能(embodied AI)
搜索文档
图片生成仿真!这个AI让3D资产「开箱即用」,直接赋能机器人训练
量子位· 2025-11-23 12:09
技术突破与核心创新 - 提出PhysX-Anything框架,是首个面向仿真、具备物理属性的3D生成范式,仅需单张图像即可生成高质量、可直接用于仿真的3D资产[5] - 该框架能同时生成显式几何结构、关节运动以及物理参数,解决了现有方法普遍缺失密度、绝对尺度、关节约束等关键物理信息的问题[5][6] - 采用由粗到细的生成框架,通过多轮对话依次生成整体物理描述与各部件几何信息,最终解码输出六种常用格式的可仿真3D资产[8] 技术实现细节 - 提出一种新型3D表征方式,基于体素构建几何表示,在32体素网格上由视觉语言模型建模粗略几何,再由下游解码器细化,实现超过193倍的token压缩比[10][27] - 设计可控的flow transformer模块,将粗体素表示作为扩散模型的引导信号,以控制细粒度体素几何的生成[14] - 使用最近邻算法将重建网格划分为部件级组件,结合全局结构信息与细粒度体素几何,生成用于仿真的URDF、XML及部件级网格[15] 性能评估与比较 - 在PhysX-Mobility数据集上的评估显示,PhysX-Anything在几何与物理两类指标上均取得最优表现,其绝对尺度误差大幅降低至0.30[18][19] - 在基于视觉语言模型的评估中,PhysX-Anything在几何与运动学参数两项指标上均显著优于所有对比方法,得分高达0.94[20][21] - 人类志愿者评估结果显示,PhysX-Anything的生成结构在几何与物理属性都获得最高分,几何得分为0.98,物理属性多项得分在0.84至0.98之间[22] 应用潜力与行业影响 - 生成的仿真就绪3D资产可以直接导入模拟器,并用于接触丰富的机器人策略学习,展示了在推动多种下游机器人与具身智能应用方面的巨大潜力[25][26] - 该框架有望为3D视觉、具身智能与机器人研究开辟新的方向,推动从“视觉建模”到“物理建模”的范式转变[28] - 团队构建了覆盖47个常见真实类别、具备丰富物理标注的PhysX-Mobility数据集,大幅拓展了现有物理3D资产的多样性[27]
苹果AI陷“信心危机”:又一位华人高管出走,转投Meta机器人团队
36氪· 2025-09-04 17:30
核心人才流失情况 - 苹果AI部门2025年以来持续遭遇人才流失,机器人AI研究团队负责人张健及基础模型团队三名研究员约翰・皮布尔斯、杜楠、孟兆确认离职[1][3] - 自Meta开启人才争夺战以来,苹果累计流失至少10名AI核心人才,包括基础模型团队前负责人庞若鸣[1][3] - 流失人才主要流向Meta、OpenAI、Anthropic等竞争对手,其中庞若鸣加入Meta的薪酬包价值超过2亿美元[3][9] 关键人员背景及影响 - 张健在苹果任职十年,领导十余人的机器人研究团队,其团队为苹果搭建了覆盖环境感知、动作执行到情感表达的完整机器人技术体系[5] - 张健团队研发的技术原型支撑苹果零售环境桌面设备开发,其计算成像专业能力为Apple Intelligence提供关键技术保障[6] - 张健学术论文被国际顶级会议引用数千次,离职后加入Meta担任机器人技术首席总监,主导模型训练与物理机器控制结合项目[5][8] 战略与管理问题 - 苹果内部考虑采用第三方模型支持下一代Siri,高层否决开源部分模型提议,与公司强调自主创新的传统相悖[1][10][12] - Siri的"V2"架构重建陷入混乱,导致高级功能推迟至至少2026年上线[12] - 公司保密文化与AI研究需要的开放协作特性冲突,官僚流程阻碍创新,研究人员认为在苹果"创新被流程扼杀"[9][12] 资源与组织挑战 - 苹果数据中心老旧硬件难以满足大模型训练需求,相比竞争对手数百亿美元的基础设施投入处于明显劣势[14] - 人工智能与机器学习团队在内部资源分配中处于"二等公民"地位,硬件和产品部门始终享有优先权[14] - 领导层频繁变动加剧内部不稳定,团队士气严重受挫,主动寻求外部机会成为普遍现象[12][14] 行业竞争格局 - Meta通过高额薪酬包(如超过2亿美元方案)和加速推进"超级智能"计划持续吸引苹果人才[9][13] - Meta致力于打造人形机器人AI平台,目标成为第三方机器人制造商的核心AI供应商[8] - 竞争对手OpenAI、Anthropic、xAI在AI领域加速布局,而苹果内部调整进度迟缓[15]