Workflow
具身智能之心
icon
搜索文档
小米的MiMo-Embodied,到底讲的是什么?整合自驾和具身任务,29项SOTA!
具身智能之心· 2025-11-23 00:03
文章核心观点 - 小米推出首个跨领域统一模型MiMo-Embodied,成功整合自动驾驶与具身智能两大领域,在29项相关基准测试中取得SOTA性能 [5] - 该模型解决了现有模型局限于单一领域、缺乏跨场景泛化能力的问题,为动态物理环境中的理解与推理提供了统一解决方案 [5][7] - 通过精心设计的四阶段训练策略,实现了自动驾驶与具身智能能力的正向迁移与相互增强,性能显著超越单一领域训练和直接混合训练的方法 [9][27] 模型解决的问题与核心能力 - **解决跨领域统一性问题**:首次将自动驾驶(户外场景)与具身智能(室内场景)任务整合进单一模型,突破现有模型跨场景泛化能力不足的局限 [5][7] - **全面覆盖核心能力**:同时支持自动驾驶的环境感知、状态预测、驾驶规划三大核心能力,以及具身智能的可用性预测、任务规划、空间理解三大核心能力 [8] - **构建统一评估体系**:弥补了现有基准仅针对单一领域部分能力测试的不足,提供了全面的跨具身能力评估 [5] 模型架构与训练策略 - **核心架构组件**:基于MiMo-VL的ViT视觉编码器、MLP投影器以及负责文本理解与逻辑推理的大语言模型,支持单图、多图、视频等多种视觉输入 [12][13] - **四阶段训练策略**: - 阶段1:融合通用数据集与具身智能数据集,建立基础理解能力 [21] - 阶段2:注入自动驾驶专用数据,强化动态环境理解与安全关键任务能力 [21] - 阶段3:思维链推理微调,增强模型逻辑连贯性与决策透明度 [21] - 阶段4:强化学习微调,针对短板场景优化,提升输出精度与可靠性 [21] - **训练参数配置**:前三个阶段批量大小为512,学习率为2×10⁻⁶,第四阶段批量大小为32,学习率为1×10⁻⁶,均采用AdamW优化器和Cosine学习率调度 [20] 性能表现与基准测试 - **具身智能基准测试(17项)**:在可用性预测、任务规划、空间理解等领域全面领先,其中在VABench-Point基准得分为82.30,在Part-Afford基准得分为69.81,显著优于Qwen2.5-VL、GPT-4o等对比模型 [22][24] - **自动驾驶基准测试(12项)**:在环境感知、状态预测、驾驶规划等任务中表现优异,在CODA-LM基准得分为76.14,在NAVSIM基准得分为83.58,超越RoboTron-Drive等专用模型 [24][25][26] - **消融实验验证**:四阶段训练策略使具身任务平均性能达62.4%(较混合训练提升4%),自动驾驶性能达63.3%(较混合训练提升8.1%),显著优于单一领域训练方案 [27][38] 真实世界应用展示 - **目标物体定位**:在具身导航任务中能够准确指示目标物体位置(如床、吸尘器、植物、马桶),定位精度显著高于GPT-4o、Qwen2.5-VL等对比模型 [31][32] - **复杂操作任务执行**:能够理解并执行"将锅盖放在锅左侧"、"将粉色勺子放入锅中"等多步骤操作指令,展现出强大的空间推理与任务规划能力 [33][34] - **跨领域泛化能力**:模型在部署到下游具身操作任务时表现出色,验证了其在真实物理环境中的实用性与可靠性 [33][34]
从零把π0和π0.5部署上去!
具身智能之心· 2025-11-23 00:03
产品定位与目标市场 - 公司推出专为具身智能科研领域设计的轻量级高性价比机械臂Imeta-Y1,旨在解决硬件选择中价格过高或低端产品难用的问题[3] - 该产品主要面向学生、教育工作者及机器人领域初学者,支持低成本、高效率的算法验证与项目开发[3] - 产品采用紧凑型结构与模块化接口,适用于嵌入式AI与机器人学习平台的开发与应用推广[7] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖数据采集、模型训练到推理部署全环节,支持视觉、力控等多模态数据融合[4][18][37] - 兼容TensorFlow、PyTorch等主流框架,并支持ROS1/ROS2开发环境,提供URDF模型实现仿真与真机无缝联动[4][18][20][23] - 提供Python/C++双语言接口,降低用户上手门槛,并承诺24小时快速售后响应[4][19][20] - 后期将陆续升级VLA、VA相关源码,新老客户均可享受升级服务[20] 机械臂技术参数 - 本体重量4.2KG,额定负载3KG,具备6自由度,工作半径612.5mm,重复定位精度达±0.1mm[9][20][21] - 供电电压24V,采用铝合金材质,通讯方式为CAN,控制方式支持轨迹跟踪、示教及API[9][20] - 各关节运动范围覆盖J1(-165°~165°)至J6(-150°~150°),最大运动速度达180°/s至220°/s[9][22] - 配套末端执行器重量631g-704g,行程0-80mm,定位精度±0.5mm,接口为电源+CAN XT30 2+2[11][12][14] 软件开发与生态支持 - 提供完整开源SDK,含驱动程序、API接口及示例代码,支持Python/C++等语言[30][31] - 已开源代码库包含y1_ros和y1_sdk模块,近期更新包括master/slave启动文件[32] - 模型推理时间测试显示单次推理耗时约30-36毫秒,适配ALOHA ACT算法可在RTX 4060显卡完成训练与推理[39][51] - 目前已适配RealSense D435系列、奥比中光DCW2相机,未来将扩展支持lerobot、act等开源模型[51] 交付与售后政策 - 产品交付周期为1-2周,质保期半年(非人为损坏),质保期后按市场价收费[49][50] - 明确表示不支持无理由退货或测试,仅针对产品质量问题提供售后支持[51]
移动操作的AlohaMini来啦!600美元成本,全开源
具身智能之心· 2025-11-22 11:07
产品核心定位 - 推出AlohaMini双臂移动机器人平台 旨在降低真实世界操作与具身AI研究的门槛[3][4] - 产品定位为面向家庭建造者和研究实验室的全栈开源机器人[4] - 平台设计支持完全3D打印 组装时间约60分钟[5][8] 产品核心特性 - 具备双机械臂和移动底盘 集成电动垂直升降系统 垂直行程0-60厘米[5][10] - 配备5个720p摄像头感知阵列 包括顶置 前向 后置及双机械臂摄像头[10][13] - 硬件与软件完全开源 原生兼容LeRobot生态系统实现即插即用[5][12] 成本结构与可及性 - 物料清单总成本约为600美元 极具成本效益[3][5] - 核心部件包括16个舵机 成本13.89美元/个 2块电机控制板及树莓派5计算平台[13] - 移动系统采用3个全向轮 成本36美元 机身框架依赖约4公斤3D打印线材[13]
两院院士增选结果揭晓:周志华、刘云浩当选科学院院士
具身智能之心· 2025-11-22 00:03
2025年两院院士增选总体情况 - 中国科学院选举产生73名院士和27名外籍院士,中国工程院选举产生71名院士和24名外籍院士 [1][5][24] - 增选后中国科学院院士总数达908人,中国工程院院士总数达1002人 [2] - 新当选中国科学院院士平均年龄57.2岁,最小年龄44岁,60岁及以下占比67.1% [1] 人工智能及相关领域院士增选亮点 - 计算机与人工智能领域多位顶尖学者入选,显示国家对前沿科技的重视 [3][6] - 清华大学刘云浩教授当选,研究方向包括物联网、工业互联网、具身智能导航,谷歌学术引用48000余次,H-index达105 [7][9][10] - 南京大学周志华教授当选,长期从事机器学习理论与方法研究,相关技术已应用于大型企业和国家重大工程 [11][13][14] 信息技术科学领域新当选院士 - 信息技术科学部共增选11名院士,涵盖计算机系统结构、机器学习、信号处理、脑认知模式识别等方向 [15] - 具体包括清华大学刘云浩(计算机系统结构)、南京大学周志华(机器学习理论与方法)、国防科技大学胡德文(脑认知模式识别)等 [15] 中国工程院信息与电子工程学部增选 - 信息与电子工程学部增选9名院士,来自北京邮电大学、中国科学技术大学、中国移动等高校和企业 [26] - 研究方向涵盖通信、网络安全、人工智能等,如中国科学技术大学吴枫 [26] 外籍院士中的科技领域专家 - 中国科学院外籍院士包括多位人工智能和信息技术专家,如迈克尔·乔丹(信息技术科学)、阿洛基亚·那桑(信息技术科学)等 [20][21] - 中国工程院外籍院士包括郭毅可(数据科学、人工智能)、申作军(人工智能与供应链优化)等人工智能领域专家 [36]
VLA-Pruner:面向高效VLA推理的时序感知视觉token剪枝
具身智能之心· 2025-11-22 00:03
研究背景与核心挑战 - 视觉-语言-动作模型是具身智能的核心方向,能整合视觉感知、语言理解和动作执行,但处理连续视觉流时计算开销巨大,视觉Token数量通常是文本Token的一个数量级,严重限制实时部署 [2] - 现有视觉Token剪枝方法仅依赖预填充阶段的语义显著性指标筛选Token,但VLA模型存在双系统本质,高层语义理解与底层动作执行对视觉信息需求截然不同,导致现有方法过度偏向保留语义相关Token,却剪掉动作执行必需的局部细节Token [3] - 实验显示预填充与动作解码的Top-k Token重叠率仅约50%,甚至低于30%,直接证明单一语义准则无法适配VLA模型 [4] - 机器人操作具有天然的时间连续性,连续时序的动作解码注意力高度重叠,这为解决动作解码注意力在预填充阶段不可得的核心矛盾提供了突破口 [5] 方法设计:VLA-Pruner的核心逻辑 - VLA-Pruner采用双级重要性准则,兼顾语义与动作需求,语义级相关性采用视觉-语言预填充阶段的注意力分数量化语义重要性,动作级重要性则利用时间连续性通过历史数据估计动作解码注意力 [7][9] - 采用双级Token选择策略,遵循最小冗余-最大相关性原则,先进行双级Top-k筛选得到语义候选集和动作候选集,再通过最大化Token特征多样性去除冗余 [9][11] - 动作解码注意力的时序平滑估计采用衰减窗口平均机制,窗口大小设为3,衰减率设为0.8,既捕捉时序趋势又避免陈旧数据干扰 [13] - 实现细节显示该方法在50%、25%和12.5%的Token保留率下,最大内存占用和CUDA时间均优于或接近基线方法 [14] 实验验证:性能与效率的双重突破 - 在50%剪枝率下,VLA-Pruner不仅无性能损失,还能提升成功率,OpenVLA平均提升2.45%,OpenVLA-OFT提升1.05%,原因是精准过滤了语义冗余且不影响动作的噪声Token [16] - 在87.5%的高剪枝率下,VLA-Pruner仍保持88.9%和88.27%的相对性能,远超基线最高34.39% [16] - 在SIMPLER环境中75%剪枝率下,整体成功率达96.8%,显著高于FastV的73.1%和VLA-Cache的77.2%,证明在分布偏移场景下的鲁棒性 [19] - 在π₀模型上,50%剪枝率下平均成功率达100.89%,87.5%剪枝率仍保持87.97%,验证跨架构适配性 [20] - 效率方面,50%剪枝率下FLOPs降至原生模型的60%左右,87.5%剪枝率降至30%左右,最高实现1.8倍推理加速 [26] 消融实验与关键设计验证 - 消融实验证明双级准则的必要性,仅语义准则导致动作操控精度下降,仅动作准则牺牲任务规划能力,两者性能均远低于双级准则 [23] - 时序平滑价值分析显示窗口大小w=3最优,w=1性能下降,证明短期时序连续性的重要性 [27] - 剪枝层位置分析表明第3层剪枝能平衡性能与效率,层数过浅导致特征提取不充分,过深则计算量节省有限 [25][27] 核心贡献与未来方向 - 首次揭示VLA模型的双系统注意力特性,提出语义加动作双级剪枝准则,解决现有方法的本质缺陷 [31] - 利用机器人操作的时间连续性,通过时序平滑桥接预填充阶段无法获取动作注意力的矛盾 [31] - 设计无训练、即插即用的剪枝框架,在不修改模型架构的前提下实现高效推理 [31] - 未来优化方向包括用自适应预测模块替代固定窗口平滑,结合量化、层剪枝等技术提升部署效率,扩展至多模态视觉输入的Token剪枝 [31]
每家具身公司都在重复造轮子,数据孤岛问题怎么解决?
具身智能之心· 2025-11-22 00:03
智源Open Day行业合作与数据开源 - 智源作为非营利第三方组织,召集星海图、银河通用、原力灵机、智元、自变量、加速进化、北京人形等多家头部具身公司CEO或联合创始人,共同探讨打破数据孤岛、共建生态 [1] - 平台正逐渐开源移动操作、机械臂等多个本体数据,并宣布开源百万级高质量真机具身数据,这些数据经过清洗、标注和对齐 [1] - 发布全流程开发平台RoboXstudio和数据软件框架CoRobot,打通从数据采集、标注管理、训练到评测部署的整套流程,帮助创业公司降低平台搭建成本 [1] 行业统一评测标准与生态优化 - 引入“统一评测”机制,旨在通过统一标准区分机器人产品优劣,改变以往各自宣称最佳的局面 [2] - 对于本体公司,向开源平台贡献更多数据将获得更好的优化效果,统一评测促进整个行业从各自为战转向有组织发展 [2] 具身智能之心知识星球社区资源 - 社区已搭建近一年,形成技术路线分享、直播、问答、求职、赛事等多个版块,实现产业、学术、求职、问答交流的闭环 [2] - 社区成员近3000名,来自国内外200多家具身公司与机构,包括斯坦福大学、清华大学、智元机器人、优必选等知名高校和企业 [12][13][81] - 社区汇总了40+开源项目、60+具身智能相关数据集以及行业主流具身仿真平台 [14] 社区技术学习路线与内容体系 - 提供完整的技术学习路线,涵盖具身智能感知、交互、强化学习、多模态大模型、机械臂抓取、机器人导航等近20个方向 [14] - 社区内容包含持续直播分享、产业项目方案、内推求职服务,并与多家具身公司建立岗位内推机制 [4][9][10][11][12] - 汇总国内外具身智能高校实验室和公司信息,涉及教育、宠物、工业、救援、物流、交互、医疗等多个方向 [16][17][19] 行业研究资料与开发工具汇总 - 社区内部汇总大模型、人形机器人等行业研报,以及机器人导航、概率机器人等方向的PDF书籍 [21][24][25] - 提供机器人零部件品牌汇总,包括芯片、激光雷达、相机、IMU、底盘等知名制造厂商 [27] - 针对机器人仿真、抓取、控制、感知等领域汇总开源项目,并详细整理各类开源数据集,方便开发者快速上手 [30][34][36]
第一家人形机器人公司,被量产拖死了......
具身智能之心· 2025-11-21 17:59
公司概况与事件 - 公司为K-Scale Labs,成立仅一年,曾获种子轮融资,估值达5000万美元 [2] - 公司近期正式宣布解散,倒闭直接原因为现金流枯竭及无法继续融资 [2] - 公司曾对标机器人公司宇树 [2] 战略失误分析 - 公司战略失误之一为放弃低端市场产品Z-Bot,该小型机器人价格不到1000美元,是一款易于验证市场并可能带来现金流的产品 [2] - 公司转而将所有精力投入高端市场产品K-bot的开发 [2] 量产与供应链问题 - 高端产品K-bot成本极高,近一年仅生产出10台原型机,每台成本高达10万美元 [2] - 公司缺乏完整的本土供应链,导致成本无法降低,与国内许多公司已实现低成本形成对比 [2] - 尽管从5月初至今获得100台订单,总金额超过200万美元,但因量产成本过高,公司最终选择向客户全额退款并解散 [3]
实力出圈,43秒搞定工业任务!拎桶分拣惊艳全场。
具身智能之心· 2025-11-21 12:01
赛事与获奖情况 - 公司携自主研发的TeleAvatar机器人参加2025年第二届中关村具身智能机器人应用大赛,在遥操作模式下的7个细分赛项中全部斩获一等奖[2] - 本届大赛由中关村科学城管委会主办,旨在推动具身智能技术从算法突破走向场景落地,赛事设置三大赛道,构建总额200万元的差异化奖励体系[4] - 大赛汇聚全球157支顶尖团队同台竞技,公司参与的第二赛道为具身智能场景应用赛[2][4] 技术应用与场景表现 - 公司报名参与了遥操作模式下的家庭服务、工业制造、安全处置三大场景的7个细分赛项,覆盖物料搬运、零件装配、桌面清洁、危险物品识别与抓取等实用任务[4] - 在工业制造场景中,TeleAvatar机器人完成物料搬运任务耗时43秒,完成零件装配任务耗时1分22秒[6] - 在家庭服务场景中,完成桌面清洁任务耗时45秒,完成衣物晾晒任务耗时55秒,并在垃圾拣选任务中展示了创新的操作方式[7] - 在安全处置场景中,完成表数读取任务耗时1分27秒,并在危险物品识别与抓取环节反应迅速[10] 技术实力与公司背景 - 公司由清华大学自动化系顶尖运动控制团队创立,核心成员多来自清华优势学科,依托创始人莫一林教授的科研资源构建技术根基[17] - 公司成立于今年2月,专注高性能遥操作技术,参赛的TeleAvatar机器人搭载自研TeleDroid控制平台,集成七轴机械臂与双目视觉系统,实现低延迟传输与高精度动作复刻[17] - 赛事中,机器人展现了“快、准、稳”的核心优势,各项任务耗时均远超赛事均值时间标准,并以“零失误”完成比赛[6][17] 行业认可与市场反馈 - 海淀区委书记张革一行现场视察了TeleAvatar机器人的实操演示,并与公司CEO金戈进行交谈,对公司的创新方向给予肯定,鼓励公司持续深耕技术,加快成果转化[11] - 现场观众、媒体记者及大赛工作人员对机器人的操作流畅度、实用性和技术落地性给予了高度评价[14] - 公司联合创始人李章晶表示,参与此次大赛提升了项目的行业知名度与关注度,为后续推广与融资奠定了基础[17] 未来发展方向 - 公司未来将持续以场景需求为导向,迭代优化TeleAvatar机器人的核心性能,推动“真干活、能落地”的具身智能技术走进产业生产与日常生活[23] - 公司旨在通过技术赋能,为产业升级与民生改善贡献科技力量[23]
GEN-0 以及后续的 VLA 发展的看法
具身智能之心· 2025-11-21 08:04
GEN-0模型的技术突破 - GEN-0通过数据工厂采集了270,000小时(约31年)的真实机器人操作数据,目前每周新增10,000小时采集能力[2] - 数据规模相当于每周采集三个当前最大数据集(如OXE或AgiBot-World)的总和[2] - 模型经过半年预训练后展现出比Pi系列更强的性能增益,为后训练提供了更好基础[2] 具身智能领域数据技术演进 - 真实数据采集(UMI)相比仿真数据在长时序任务中具有显著效率优势,成功率接近100%而仿真数据为子任务成功率的乘积[8] - 仿真数据面临sim2real差距挑战,包括视觉差距和物理差距,对布料和软体等物理现象仿真仍不完善[8] - 数据工厂方案在数据多样性方面超越仿真方案,GEN-0通过规模化人力投入实现了数据问题的解决[7] 视觉语言动作模型发展趋势 - 模型参数规模必须增大才能有效利用海量数据,小模型在数据过载时会出现“僵化”现象而大模型持续提升[11] - VLA基础设施(Infra)存在巨大发展空间,需要专门针对时序因果性的研究而非简单套用上游领域方法[11] - 预训练主要学习动作空间的探索能力而非概念泛化能力,模型在VL(视觉语言)能力上的泛化表现有限[12] 预训练科学发现 - 数据质量与多样性比单纯数据量更关键,不同数据混合策略会产生不同模型特性[13] - 低MSE+低reverse-KL模型适合监督后训练,高MSE+低reverse-KL模型更具分布多峰性适合强化学习后训练[13] - 预训练科学将逐渐成熟,国内数据工厂预计会跟进为行业带来预训练环境[14] 合成数据技术的现状与前景 - 仿真平台仍具有价值,特别是在强化学习、提供丰富标注和作为基准测试平台方面[9] - GenManip平台可在14K Objaverse资产上生成数万量级跨具身长时序数据,支持快速构建Manipulation基准[6] - InternData A1合成数据集展现出与Pi Dataset相当的预训练效果,证明合成数据技术的潜力[6]
分割一切并不够,还要3D重建一切,SAM 3D来了
具身智能之心· 2025-11-21 08:04
Meta SAM系列技术更新核心观点 - Meta发布SAM 3D和SAM 3两项重大更新,将图像3D理解与概念分割能力提升至新水平[1] - 两项新技术均具备业界领先的SOTA性能,并同步开放模型权重与推理代码[2][7] - 公司推出Segment Anything Playground平台,方便用户体验新模型能力[8] SAM 3D技术细节 - SAM 3D包含两个模型:SAM 3D Objects支持物体与场景重建,SAM 3D Body专注于人体形状与姿态估计[4] - SAM 3D Objects能从单张自然图像实现稳健、真实感强的3D重建与物体姿态估计,生成带姿态信息的3D模型[11][15] - 技术核心创新在于构建可扩展的数据引擎,通过标注近100万张图像生成约314万个3D网格,突破真实世界3D数据获取瓶颈[20][26] - SAM 3D Body基于全新开源3D网格格式MHR,构建于Transformer架构,使用包含约800万张图像的数据集训练,能处理遮挡、罕见姿态等复杂情况[30][31][33] SAM 3技术细节 - SAM 3引入可提示概念分割能力,能根据文本或图像提示找到并分割某个概念的所有实例,克服现有模型在细致请求下的困难[38][40] - 模型架构建立在Meta Perception Encoder等多项AI进展之上,检测模块基于DETR,跟踪模块基于SAM 2的memory bank技术[42] - 性能取得跨越式提升,将cgF1分数提升两倍,优于Gemini 2.5 Pro等基础模型和专业模型[44] - 推理效率极高,在H200 GPU上对单张含超100个检测目标的图像仅需30毫秒,视频中多目标情况下仍可保持近实时表现[44]