Workflow
具身智能之心
icon
搜索文档
库克挤爆牙膏!5999元iPhone17上高刷,新款耳机能测心率+同传
具身智能之心· 2025-09-11 10:07
iPhone 17系列产品更新 - 标准版iPhone 17起售价5999元,首次配备最高120Hz的ProMotion自适应高刷屏[15][17][19] - 全系搭载3nm工艺A19芯片,苹果官方称其性能相比A18有20%提升[22][23] - 采用4800万像素融合式双摄系统,主摄像头融合2倍长焦,前置升级为1800万像素Center Stage摄像头,传感器面积是前代近2倍大[25][26][28][30] - 电池续航最长可播放30小时视频,支持充电10分钟播放8小时视频,20分钟最多充电50%[36] iPhone 17 Air新品特性 - 新品iPhone Air主打轻薄,厚度仅5.6毫米,重165克,采用钛金属机身,起售价7999元[39][42][44] - 搭载A19 Pro芯片,CPU为目前最快手机CPU,GPU峰值算力是A18 Pro的3倍[46][48][49] - 配备6.5英寸120Hz高刷屏,峰值亮度3000尼特,全球仅支持eSIM,国行版本同步发售但仅支持联通[42][44][58][59] - 采用高密度电池,视频播放时长增加4小时,配合新MagSafe充电宝可实现40小时视频播放[60][62][66] iPhone 17 Pro/Pro Max专业升级 - Pro系列采用铝金属一体成型设计,散热效率达此前钛金属Pro的20倍,起售价分别为8999元和9999元[68][71][72][74] - 搭载6CPU+6GPU的A19 Pro芯片,Pro最长播放33小时视频,Pro Max最长播放39小时视频[74][75] - 影像系统配备4800万像素融合式三摄,支持最多8倍光学变焦,支持ProRes视频拍摄,可拍4K60fps视频[77][79][80][81][83] - 苹果宣称发布会全程使用iPhone 17 Pro拍摄,展示其专业影像能力[84] AirPods Pro 3功能升级 - 新一代AirPods Pro 3定价1899元,主动降噪效果达前代2倍,具备IP57防水[87][88][89][90] - 新增机器学习算法加持的心率传感功能,运动时可监测心率和卡路里[90][91] - 支持Apple Intelligence实时翻译功能,对话双方佩戴可实现直接翻译[93][94][96] - 降噪模式续航6-8小时,通透模式续航10小时,9月19日正式发售[98][99] Apple Watch系列新品 - Series 11起售价2999元,为最薄最舒适款式,抗刮能力提升2倍,支持5G通信且国内三大运营商均支持[100][101][103][105][106] - 新增高血压通知功能,通过光学心率传感器数据监测高血压征兆,预计一年内帮助发现100万未确诊病例[109][110][111][113][114] - 新增睡眠质量评分功能,对睡眠指标进行分析并提供改善指导,电池重新设计后续航提升至24小时[116][118][120] - SE 3起售价1999元,支持5G,首次在SE系列引入全天候显示等功能,支持快充,充电15分钟可用8小时[122][124][130] - Ultra 3起售价6499元,支持5G和卫星通信,续航42小时,采用OLED和LTPO3技术,拥有最大屏幕但无需更换保护壳[131][133]
西湖大学最新!ARFM:结合VLA模仿学习与强化学习的优势
具身智能之心· 2025-09-11 10:07
文章核心观点 - 西湖大学团队提出自适应强化流匹配方法,旨在解决现有视觉-语言-动作流模型在复杂任务中动作精度不足的问题 [2] - 该方法通过在损失函数中引入自适应缩放因子,动态平衡强化学习信号与训练稳定性,使模型能更关注高质量数据 [2][6] - 实验证明该方法在泛化能力、抗干扰性、少样本学习及持续学习方面均优于现有基准模型 [6][49] 研究背景与问题 - 基于流匹配的视觉-语言-动作模型在常规场景表现良好,但依赖模仿学习后训练,难以理解数据质量分布特性 [1][4] - 在复杂下游任务中,现有模型动作精度显著下降,离线强化学习方法在流模型上效果不佳,因无法高效指导动作轨迹生成 [1][4] 主要贡献 - 提出自适应强化流匹配方法,填补了视觉-语言-动作流模型高效离线强化学习微调的技术空白 [6] - 从理论上构建了偏差-方差权衡目标函数,并推导出实时更新缩放因子的二分迭代算法 [6] - 在仿真与真实平台的大量实验中,该方法在多项性能指标上均展现出当前最优水平 [6] 核心算法设计 - 方法核心是构建能量加权损失以融合强化学习信号,并设计自适应机制平衡训练稳定性 [8] - 通过能量引导分布重塑动作轨迹的学习偏好,使模型更关注高强化学习优势的样本 [11][12] - 采用批次采样近似策略将理论损失转化为可高效计算的批次加权损失 [15] 实验设置 - 仿真实验采用LIBERO基准测试平台,涵盖4个核心套件共40个独立任务,评估不同操控能力 [27][29] - 真实世界实验使用UR5机械臂平台,设计3类抓取-放置任务并引入外部物理扰动 [29] - 基准方法包括非流匹配型与流匹配型两大类,以确保对比的全面性与公平性 [27][30] 核心实验结果 - 在多任务学习中,自适应强化流匹配平均成功率达92.1%,较基础流模型提升4.5个百分点,优于其他基准 [32][35] - 在动作扰动实验中,该方法平均成功率为48.2%,较基础流模型提升11.4%,显示出更强鲁棒性 [33][36] - 在少样本学习场景下,该方法平均成功率为36.5%,较基础流模型提升12.2%,证明其高效的数据利用效率 [34][37][45] - 在持续学习实验中,该方法平均负向后迁移指标为4.7,较基础流模型降低38.0%,抗遗忘能力显著提升 [38][39] 方法优势 - 自适应机制降低了对超参数的敏感性,不同超参数下模型成功率波动小于2个百分点,便于工程落地 [40][43] - 二分迭代算法轻量化且高效,仅需10次迭代即可获得近似最优缩放因子,计算成本低 [40][43] - 该方法无需修改模型骨干结构,与现有视觉-语言-动作流模型兼容,工程落地成本低 [25][49]
上交发布U-Arm:突破成本壁垒,实现超低成本通用机械臂遥操作
具身智能之心· 2025-09-11 10:07
文章核心观点 - 公司推出了一款名为U-ARM的超低成本、开源主从遥操作系统,旨在解决双机械臂策略学习中真实世界操作数据收集的瓶颈问题 [4][5] - 该系统通过创新的硬件设计和成本优化,将单臂成本显著降低至50.5美元(6自由度)和56.8美元(7自由度),远低于市场主流方案如ALOHA(超5万美元)和GELLO(270美元) [6][9] - U-ARM在真实世界实验中展现出显著效率优势,平均任务耗时17.7秒,相比低成本代表Joycon(29.04秒)数据收集效率提升39% [22][24] 研究背景与核心需求 - 大规模高质量的真实世界操作数据是双机械臂策略学习的关键瓶颈,相比仿真或纯人类数据,真实机械臂数据对训练鲁棒政策的直接适用性最强 [4] - 当前获取这类数据的主要方式仍是人类演示,需要可靠的遥操作接口作为支撑 [4] 现有方案的痛点与U-ARM的定位 - 现有遥操作设备存在明显痛点:末端执行器轨迹记录设备(如DexCap)收集的数据常出现运动学奇点、精度不足等问题;主从遥操作系统(如ALOHA)虽能确保轨迹可执行,但适配不同商用机械臂需大量工程工作且成本极高 [6] - 高成本方案如ALOHA(双臂超5万美元)虽易用性强但限制普及;低成本方案如VR头显存在晕动症问题,SpaceMouse难以实现双手操作,Joycon(20美元)实际操作效率低;过渡方案如GELLO(270美元)成本仍有下降空间;入门级方案如LeRobot无法适配常用的6/7自由度商用臂 [6][9] - U-ARM的定位是填补“超低成本”与“高兼容性”之间的空白,借鉴3D打印思路但进一步简化设计,主臂无需主动驱动仅记录关节角度 [9] U-ARM系统设计 - 硬件设计基于多数商用6/7自由度机械臂遵循的3种标准化关节序列,设计了三种主臂构型(两种6DoF、一种7DoF)以适配不同商用机械臂,如Xarm6、Fanuc、KUKA、UR5、Franka等 [10][12][14] - 所有部件采用PLA 3D打印,最小壁厚设为4mm以保证耐用性,并采用双轴固定设计缓解关节连接板松动/断裂问题 [14] - 通过拆解中菱舵机、移除内置齿轮箱仅保留编码器,并调整关节轴螺丝松紧控制阻尼,平衡“易移动性”与“稳定性” [14] - 主臂关节活动范围故意设为较窄区间以覆盖典型桌面操作需求,避免极端姿态破坏结构完整性,提升系统稳定性 [14][15] 算法设计 - 安装前需手动将编码器调至135°中性位,确保主臂在正常操作中不会超出编码器有效范围(0-270°) [16] - 每次遥操作需执行初始化让从臂移动到预定义姿态,主臂靠近后完成初始化并接管控制 [17][19] - 采用滤波与插值算法:若目标角度变化量小于阈值则不执行动作避免抖动,否则将变化量分步发送控制指令确保从臂运动平滑准确 [17] 实验验证与结果分析 - 仿真适配部分在ManiSkill环境中支持7种商用机械臂,用户可在操作真实机械臂前验证潜在问题,并收集演示数据用于降低真实数据收集成本 [20] - 真实世界实验对比U-ARM(Config-1)和Joycon操控Xarm6执行5种典型桌面任务,U-ARM平均耗时17.7秒,成功率75.8%;Joycon平均耗时29.04秒,成功率83% [22][24] - U-ARM效率提升39%主要得益于其主从关节映射设计,使操作者能更自然快速地完成大范围移动;成功率略低因实时传输手部动作在精细操作时易出现微小误差,但属于可接受的权衡 [24]
π0.5开源前,国内也开源了一个强大的端到端统一基础模型!具备强泛化和长程操作
具身智能之心· 2025-09-11 10:07
开源模型技术突破 - Physical Intelligence开源π0.5模型 通过知识隔离训练实现更强的开放世界泛化能力[1] - 自变量机器人开源端到端具身智能基础模型WALL-OSS 包含完整预训练模型权重、训练代码和部署文档[3] - WALL-OSS采用紧耦合架构与多策略训练 在单一框架内整合指令推理、子目标分解与细粒度动作合成[8] 技术架构创新 - 采用QwenVL2.5-3B作为主干网络 接收视觉与文本输入并生成多模态输出[12] - 训练采用"先离散、后连续、再联合"三阶段pipeline 仅需RTX 4090级别算力即可完成全流程[14] - 通过流匹配方法实现离散到连续动作预测的转换 采用共享注意力+专家分流架构[16] - 实现统一跨层级思维链 覆盖从语义到感觉运动的完整推理链条[18] 性能表现优势 - 在具身视觉问答基准测试中 WALL-OSS在物体定位任务达到91.6%准确率 较基础模型46.1%提升显著[27][28] - 场景描述任务准确率87.6% 较基础模型57.7%提升近30个百分点[27][28] - 在抓取放置任务中 对已知物体指令达到85%平均任务进度 对新物体指令保持61%性能[29] - 在数据稀缺任务中(500条演示) 预训练模型保持90%以上成功率 未预训练模型降至20%以下[31] - 在积木拼写任务中 字母识别准确率达87% 数字识别达95% 显著高于动作专用模型的26%和80%[34] 数据集与训练 - 构建数万小时具身中心多源数据集 包含自收集机器人数据、开源动作数据和多模态视觉问答数据[20] - 数据集涵盖短程操作任务和长程推理任务 需任务分解、进度跟踪和实时决策能力[22] - 采用多模型pipeline进行细粒度步骤标注 辅以人工抽查和质量控制[23] - 按场景/物体/任务/形态分层抽样 对长程任务和稀缺技能采用温度控制重采样策略[24] 行业影响与公司发展 - 端到端系统被业内公认为最终形态 国内外具身团队都在深入研究突破[3] - 自变量机器人成立于2023年12月 聚焦自研通用具身智能大模型[39] - 公司已完成近10亿元A+轮融资 资金将投入全自研通用具身智能基础模型的持续训练[39] - 行业形成本体和大脑两条创业路线 硬件看宇树 大脑看自变量[39]
当老师给我指了VLA作为研究方向后......
具身智能之心· 2025-09-10 19:00
VLA技术范式与行业地位 - VLA是具身智能领域新范式 直接从语言指令和视觉信号生成机器人可执行动作 打破传统单任务训练局限 推动机器人向更通用和场景泛化方向发展[1] - VLA将视觉信息 语言指令和行动决策有效整合 显著提升机器人对复杂环境的理解和适应能力 在学术界和工业界具有重要性[1] - VLA模型已成为研究热点 推动多个前沿项目发展 包括pi0 RT-2 OpenVLA QUAR-VLA和HumanVLA 促进学术界与工业界合作[3] VLA应用场景与平台适应性 - VLA广泛应用于制造业 物流和家庭服务等领域 使机器人能在多样化场景中自主决策 灵活应对未见过的环境[3] - VLA模型适应性体现在可应用于机械臂 四足机器人和人形机器人等多种平台 为各类智能机器人发展提供广泛潜力和实际应用价值[3] - VLA成为智能机器人领域关键驱动力[3] 具身智能产业发展格局 - 国内外具身智能领域处于蓬勃发展阶段 Unitree 智元 星海图 银河通用 逐际动力等团队从实验室走向商业化[5] - 华为 京东 腾讯等科技巨头积极布局 与国外Tesla Figure AI等公司共同推动领域发展[5] VLA技术演进与核心挑战 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆 再到近期Diffusion Policy和多模态基础模型[8] - 前沿模型如RT-2 OpenVLA和PI0实现从视觉输入和语言指令到机器人动作的端到端映射 应用于复杂任务规划和执行[8] - 具身智能面临核心挑战包括跨域泛化 长期规划与世界模型构建 需将大型语言模型推理能力与机器人控制系统结合[9] - PaLM-E RT-X等模型通过多模态预训练和微调策略 增强机器人在开放环境中的适应性和鲁棒性[9] 前沿研究方向与突破重点 - 具身智能前沿发展方向包括多模态感知融合 触觉反馈整合 基于物理的推理以及社会互动能力[9] - 研究目标包括突破"看得见但摸不着" "只关注当下不能预测未来"等局限性 向真正通用机器人智能迈进[9] - 未解决难点包括长期记忆 VLA+RL原子技能库构建 动作解码问题 多模态思维链等多个前沿方向[15]
厦门大学曹刘娟团队FastVGGT:四倍速度提升,打破VGGT推理瓶颈并降低累积误差!
具身智能之心· 2025-09-10 14:18
核心观点 - 提出FastVGGT方法 通过分析VGGT模型推理效率瓶颈并引入token merging技术 在保持3D重建精度的同时实现最高4倍加速 显著提升大规模3D视觉任务实用性[5][26] 主要贡献 - 系统分析VGGT推理速度瓶颈 首次将token merging引入前向3D模型[5] - 基于工程优化使VGGT在单GPU(80G VRAM)处理能力从300张提升至1000张输入图像[5] - 在1000张图像推理任务中实现4倍加速 同时降低累积误差[5] 瓶颈分析 - 推理效率问题: Global Attention计算量随帧数增加占据主要时间消耗 时间复杂度保持O(n²d)量级[6] - 累积误差问题: 全局注意力机制在跨帧关联时放大细微错误 导致预测结果漂移和重建稳定性下降[6] 冗余观察 - 全局注意力存在大量冗余 同一Block下不同token注意力图几乎重合 出现token collapse现象[7] - 全局退化反映场景一致性 但带来计算冗余 为优化提供空间[7] 方法设计 - Token划分采用三种策略: 参考系约束(第一帧作为destination token) 关键token保留(特异性最高token) 基于区域采样(确保采样均匀性)[11] - Token Merging通过计算余弦相似度将source token合并到最相似destination token[12][13] - Token Unmerging机制恢复输入token数量 保证密集3D重建输出完整性[15] 实验结果 点云重建性能 - ScanNet-50数据集: 1000帧输入下推理时间从724.6秒降至180.7秒 加速4倍 Chamfer Distance从0.471改善至0.425[18][19] - 7Scenes数据集: Stride 3设置下推理时间从76.7秒降至28.0秒 Normal Consistency从0.611提升至0.617[21] - NRGBD数据集: Stride 3设置下推理时间从136.1秒降至53.1秒 Normal Consistency从0.727提升至0.730[21] 相机位姿估计 - 1000帧输入时ATE从0.196降至0.164 ARE从4.636降至3.860[23][24] - RPE-rot从0.997降至0.667 RPE-trans从0.039降至0.029[24] - 有效缓解长序列推理过程中的误差累积问题[23] 结论 - FastVGGT作为training-free加速方法 在ScanNet-50 7Scenes NRGBD等数据集验证实用性[26] - 在保持VGGT精确度的同时实现最高4倍推理加速 适用于大规模3D视觉系统[26]
上海交大发布U-Arm:突破成本壁垒,实现超低成本通用机械臂遥操作系统
具身智能之心· 2025-09-10 11:31
研究背景与核心需求 - 在双机械臂策略学习中,大规模高质量的真实世界操作数据是主要瓶颈,其直接适用性最强但获取困难 [4] - 当前获取真实机械臂数据的主要方式仍是人类演示,需要可靠的遥操作接口作为支撑 [4] 现有方案痛点与U-ARM定位 - 现有遥操作设备主要分为末端执行器轨迹记录设备和主从遥操作系统两类,分别存在数据质量差或成本高昂的问题 [6] - 高成本方案如ALOHA双臂系统价格超过5万美元,虽易用性强但限制普及 [6][9] - 低成本方案如VR头显存在晕动症问题,SpaceMouse难以实现双手操作,Joycon游戏手柄虽仅20美元但实际操作效率低 [9] - 过渡方案如GELLO单臂成本270美元,依赖较贵的Dynamixel电机,成本仍有下降空间 [6][9] - U-ARM定位为填补“超低成本”与“高兼容性”之间的空白,单臂成本压至50.5美元(6DoF)和56.8美元(7DoF) [9] U-ARM系统硬件设计 - 硬件设计基于多数商用6/7自由度机械臂遵循的三种标准化关节序列,开发了三种主臂构型以广泛适配商用机械臂 [10] - Config-1(6DoF)适配Xarm6、Fanuc LR Mate 200iD、KUKA LBR iiSY等 [12][14] - Config-2(6DoF)适配Dobot CR5、UR5、AUBO i5等,特别调整了关节顺序以适配交叉轴腕部结构 [12][14] - Config-3(7DoF)适配Franka FR3、Franka Emika Panda、Flexiv Rizon等 [12][14] - 采用PLA 3D打印材料,最小壁厚设为4mm以保证耐用性,并采用双轴固定设计缓解关节负载问题 [14] - 通过拆解中菱舵机、移除齿轮箱仅保留编码器,并调整关节阻尼,实现了主臂的成本优化与操作体验平衡 [14] U-ARM算法设计 - 编码器需手动调至135°中性位,确保主臂在正常操作中不超出编码器有效范围(0-270°) [16] - 算法包含初始化、角度映射、滤波与插值步骤,以确保从臂运动的平滑与准确,避免微小扰动导致抖动 [17][19] 实验验证与结果分析 - 仿真适配实验在ManiSkill环境中成功适配7种商用机械臂,可用于提前验证问题和收集演示数据 [20] - 真实世界实验对比U-ARM(Config-1)和Joycon操控Xarm6执行5种典型桌面任务 [21] - U-ARM平均任务耗时为17.7秒,显著低于Joycon的29.04秒,数据收集效率提升39% [22][24] - U-ARM平均成功率为75.8%,略低于Joycon的83%,但在精细操作任务上存在可接受的权衡 [22][24] - U-ARM在任务“Fanta-to-shelf-2”上成功率(72.2%)高于Joycon(60.0%),而在“Can-stacking”任务上成功率(39.6%)较低 [22]
大赛报名中|2025无锡国际人工智能创新应用大赛,66万奖金聚焦具身智能赛道
具身智能之心· 2025-09-10 08:03
赛事概况 - 2025无锡国际人工智能创新应用大赛于8月25日开赛 面向全球开放算法赛道和具身智能创新应用赛道双赛道 召唤算法开发者 创新团队 科研院所和企业共同参与具身AI大赛 实现人工智能技术创新与应用 [1] - 大赛聚焦具身智能领域 算法赛道参赛者使用极市平台和DISCOVERSE具身仿真平台进行算法开发角逐 [3] - 具身智能创新应用赛道面向具身智能创新应用企业 具身生态链企业 智能终端企业 创业团队 科研院所团队和个人 基于具身智能进行创新和应用开发 提出并实现具有创新性和实用价值的解决方案 [4] - 赛事官网为https://cvmart.net/cv_landing/list/wuxi2025 提供详情和报名入口 [5] 算法赛道详情 - 算法赛道包含机器人原料识别和积木拼装挑战两个赛题 均设置初赛 复赛和决赛三个环节 [11][19] - 机器人原料识别赛题致力于精准识别生产线或特定场景中的原料 通过视觉系统获取物料图像 运用图像处理与分析技术辨别原料 结合机器学习模型对原料类型 形状 位置等特征进行分类与定位 机器人依据算法结果实现自动化整理 为制造业等领域智能化管理提供支持 [8] - 积木拼装挑战赛题致力于提升机器人在复杂空间认知与精密操作方面的综合能力 机器人通过视觉感知系统获取积木散件图像 运用深度学习与计算机视觉技术精准识别不同形状和尺寸的积木块 分析几何特征 空间位置和拼装属性 根据给定目标图样自主完成积木拼装 [12] - 初赛在极市平台完成计算机视觉算法开发 复赛在DISCOVERSE具身仿真平台完成算法开发(提供大赛baseline) 决赛为仿真作品得分评比加线下算法方案答辩 [11] - 决赛设置机械臂真机比赛环节 让虚拟算法在现实世界中接受检验 [7] 具身智能应用方案赛道详情 - 具身智能创新应用赛题聚焦具身智能的实际应用 鼓励参赛者提出并实现具有创新性和实用价值的应用解决方案 [14] - 赛道方向涵盖具身智能整机系统 关键零部件与执行机构 感知模块 决策控制模块 具身大模型 垂直领域专用模型等软件架构 具身智能在感知识别 移动导航 精准操作 智能决策 人机交互 自主学习等方面的技术能力 以及集成具身智能核心技术的智能终端产品及机器人系统 [14] - 应用场景包括工业制造 医疗健康 居家服务 社交娱乐 科学研究 教育培训 交通运输 仓储物流 公共安全等领域 [14] - 赛题设置初赛和决赛两个环节 初赛需提交参赛表和具身智能应用方案PPT 决赛为线下路演和答辩 [17] - 决赛前安排线下真机培训环节 决赛为线下真机比赛加算法方案答辩 [15] 奖项设置 - 算法赛道(包含机器人原料识别和积木拼装挑战共2个赛题)冠军共2支队伍 每支队伍35,000元奖金加荣誉证书 亚军共2支队伍 每支队伍25,000元奖金加荣誉证书 季军共2支队伍 每支队伍16,000元奖金加荣誉证书 优胜奖共6支队伍 每支队伍8,000元奖金加荣誉证书 [19] - 具身智能创新应用赛道冠军共1支队伍 每支队伍100,000元奖金加荣誉证书 亚军共2支队伍 每支队伍60,000元奖金加荣誉证书 季军共3支队伍 每支队伍40,000元奖金加荣誉证书 优胜奖共10支队伍 每支队伍12,000元奖金加荣誉证书 [20] 附加支持 - 大赛设置创赛基金 对参与大赛的优秀企业和团队给予资金支持 鼓励将方案转化为实际应用 并提供投融资对接 推动方案的开发和产业化落地 [20] - 大赛配备AI人才专项奖 申请入口为https://doc.weixin.qq.com/smartsheet/form/1_wpf2ziCAAAAkeaqlXg1UMqzDQ0NSm14A_e59633 [25]
3个月,为大家梳理清了整个具身技术路线......
具身智能之心· 2025-09-10 08:03
具身智能概述 - 具身智能是通往通用人工智能的关键方向,强调智能体与物理环境的交互与适应,使其具备感知、理解、执行和反馈学习的能力 [1] - 具身智能的核心模块类比于人脑,分为负责思考感知与任务规划的“大脑”,以及负责高精度运动执行的“小脑” [1] 产业发展与竞争格局 - 近2年,星海图、银河通用、逐际动力等明星团队从实验室走向商业和工业界,推动技术进步 [3] - 国内大厂积极布局:华为于2024年底启动“全球具身智能产业创新中心”并与乐聚机器人、大族机器人等合作;京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司;腾讯、蚂蚁集团、小米等也通过战略投资与合作加快构建产业生态 [5] - 国外企业侧重基础模型与原型研发:Tesla/Figure AI推进工业与物流机器人应用;美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人 [5] - 国内外企业在该领域正加速进入关键竞赛阶段,国内以产业链投资与综合平台驱动落地,国外侧重基础模型、模拟环境与类人机器人原型研发 [5] 技术演进路径 - **第一阶段**:聚焦抓取位姿检测,通过点云或图像预测末端执行器姿态,实现静态物体抓取,但策略多为单步决策,缺乏任务上下文和动作序列建模 [6] - **第二阶段**:进入行为克隆阶段,机器人借助专家演示数据学习端到端映射,模仿人类完成复杂任务,但存在泛化能力弱、误差累积等问题 [6] - **第三阶段**:2023年兴起的Diffusion Policy方法通过扩散模型生成整个动作轨迹,提升了策略的稳定性与泛化能力;2024年进入Vision-Language-Action模型阶段,代表性工作如OpenVLA、RT-2、PIO,融合视觉、语言与动作生成,支持零样本或小样本快速泛化,实现从“感知+控制”向“感知+推理+行动”的范式跃迁 [6][7] - **第四阶段**:2025年以来,业界探索VLA模型与强化学习、世界模型、触觉感知等模块的融合,以弥补现有局限 [9] - VLA与强化学习结合提升机器人在长时任务中的试错与自我改进能力;VLA与世界模型结合引入环境动态预测,使机器人具备“想象未来”的能力;VLA与触觉信息融合拓展了“看+触”的多模态感知边界 [11][12] - 技术演进从“低层感知->中层策略->高层理解”链条上补齐能力短板,迈向通用任务和开放环境的智能体时代 [14] 市场应用与人才需求 - 技术发展推动了人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等领域的落地,相关产品和融资络绎不绝 [14] - 行业岗位呈现爆发式增长,导致许多人员转入具身智能领域进行研究 [14] - 从研究走向落地,对工程与系统能力需求激增,产业界更重视从“论文”到“部署”的工程能力 [17]
光刻机巨头ASML,108亿控股了一家大模型公司
具身智能之心· 2025-09-10 08:03
编辑 丨量 子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 光刻机巨头 ASML ,也来投大模型了。 就在刚刚,荷兰半导体设备巨头ASML正式成为法国AI明星公司 Mistral AI 的第一大股东,一口气砸下13亿欧元(约108亿元人民币)真金 白银。 这次ASML领投Mistral AI 的C轮融资总额17亿欧元(约142亿元人民币),直接把这家成立时长两年半的公司估值推高到100亿欧元(约835 亿元人民币),一举成为欧洲最值钱的AI公司。 更有意思的是,ASML不仅要掏钱,还要求 进董事会占一个席位 。 全球唯一能造EUV光刻机的半导体巨头,正式和"欧洲的OpenAI"深度绑定了。 Mistral的开挂之路 根据知情人士透露,这笔交易的谈判过程相当低调,双方都签了保密协议。 美国银行作为ASML的财务顾问,在整个过程中发挥了重要作用。 就在几周前,彭博社报道就透露Mistral AI的估值可能达到140亿美元(约119亿欧元或1000亿元 ...