Workflow
具身智能之心
icon
搜索文档
毫末智行突然原地解散!宇宙第一正式下线
具身智能之心· 2025-11-23 10:11
公司运营状况 - 毫末智行于11月22日被社交媒体曝出已正式解散,公司账户冻结,赔偿方案尚未公布,经与内部人士核实消息属实 [2][3] - 公司自2023年起出现严重人才流失,去年职能部门裁员约三分之一至近半,数据智能科学家贺翔离职;今年包括董事长张凯、技术副总裁艾锐、产品副总裁蔡娜、品牌官王佳等多位技术骨干及公关负责人相继离职,整个公关团队几乎均已离职 [5] - 公司官方公众号自2024年6月起停止发布自身资讯,仅整理行业资讯,最新更新停留在10月1日的一张节日海报 [5] 公司历史与技术发展 - 公司成立于2019年11月29日,前身为长城汽车2015年成立的智能驾驶系统开发部,核心团队融合了长城汽车技术骨干及来自百度、华为等公司的人才 [6] - 研发进展迅速,2020年11月推出首款末端物流自动配送车“小魔驼”;2021年12月发布自动驾驶数据智能体系MANA,截至2023年其学习时长超62万小时 [6] - 2023年4月发布自动驾驶生成式大模型DriveGPT;其HPilot辅助驾驶系统3.0版本已打通高速与城市场景,截至2025年搭载于长城汽车近20款车型 [8] 市场地位与竞争格局变化 - 2024年3月,元戎启行开始为长城汽车提供端到端智能驾驶方案,包括无图城区NOA技术,并迅速搭载于长城多款车型 [8] - 业界认为毫末智行从长城的“亲儿子”变为“弃子”,其选择的高通Snapdragon Ride计算平台在研发中需克服较多新问题 [8] - 公司解散消息传出后,社交媒体上有相关车型用户对产品后续使用体验表示担忧和不满 [9]
移动操作的AlohaMini来啦!600美元成本,全开源
具身智能之心· 2025-11-23 00:03
产品核心定位 - 推出AlohaMini双臂移动机器人平台 旨在推动真实世界操作与具身AI研究的普及化[3][4] - 产品定位为面向家庭建造者和研究实验室的低成本开源解决方案[4] - 平台设计精美且完全支持3D打印 组装时间约为60分钟[5][8] 硬件配置与成本 - 物料清单总成本约为600美元 具备极高的成本可及性[3][5] - 采用双机械臂设计并配备电动升降系统 垂直行程达0-60厘米[5][10] - 搭载5个720p USB摄像头构成感知阵列 包括顶置 前向 后置及双机械臂摄像头[10][13] - 核心部件包括16个Feetech STS3215伺服电机 单价13.89美元 以及树莓派5计算平台 单价60美元[13] - 移动系统采用3个全向轮 单价36美元 并配备2个12V锂离子电池包 单价32.99美元[13] 软件生态与开源策略 - 硬件与软件完全开源 原生兼容LeRobot框架可实现开箱即用的训练与部署[5][8][12] - 通过GitHub平台开放全部源代码与设计文件 促进社区协作与创新[3][6] - 采用现代极简设计理念 兼具功能性与美学价值[12]
小米的MiMo-Embodied,到底讲的是什么?整合自驾和具身任务,29项SOTA!
具身智能之心· 2025-11-23 00:03
文章核心观点 - 小米推出首个跨领域统一模型MiMo-Embodied,成功整合自动驾驶与具身智能两大领域,在29项相关基准测试中取得SOTA性能 [5] - 该模型解决了现有模型局限于单一领域、缺乏跨场景泛化能力的问题,为动态物理环境中的理解与推理提供了统一解决方案 [5][7] - 通过精心设计的四阶段训练策略,实现了自动驾驶与具身智能能力的正向迁移与相互增强,性能显著超越单一领域训练和直接混合训练的方法 [9][27] 模型解决的问题与核心能力 - **解决跨领域统一性问题**:首次将自动驾驶(户外场景)与具身智能(室内场景)任务整合进单一模型,突破现有模型跨场景泛化能力不足的局限 [5][7] - **全面覆盖核心能力**:同时支持自动驾驶的环境感知、状态预测、驾驶规划三大核心能力,以及具身智能的可用性预测、任务规划、空间理解三大核心能力 [8] - **构建统一评估体系**:弥补了现有基准仅针对单一领域部分能力测试的不足,提供了全面的跨具身能力评估 [5] 模型架构与训练策略 - **核心架构组件**:基于MiMo-VL的ViT视觉编码器、MLP投影器以及负责文本理解与逻辑推理的大语言模型,支持单图、多图、视频等多种视觉输入 [12][13] - **四阶段训练策略**: - 阶段1:融合通用数据集与具身智能数据集,建立基础理解能力 [21] - 阶段2:注入自动驾驶专用数据,强化动态环境理解与安全关键任务能力 [21] - 阶段3:思维链推理微调,增强模型逻辑连贯性与决策透明度 [21] - 阶段4:强化学习微调,针对短板场景优化,提升输出精度与可靠性 [21] - **训练参数配置**:前三个阶段批量大小为512,学习率为2×10⁻⁶,第四阶段批量大小为32,学习率为1×10⁻⁶,均采用AdamW优化器和Cosine学习率调度 [20] 性能表现与基准测试 - **具身智能基准测试(17项)**:在可用性预测、任务规划、空间理解等领域全面领先,其中在VABench-Point基准得分为82.30,在Part-Afford基准得分为69.81,显著优于Qwen2.5-VL、GPT-4o等对比模型 [22][24] - **自动驾驶基准测试(12项)**:在环境感知、状态预测、驾驶规划等任务中表现优异,在CODA-LM基准得分为76.14,在NAVSIM基准得分为83.58,超越RoboTron-Drive等专用模型 [24][25][26] - **消融实验验证**:四阶段训练策略使具身任务平均性能达62.4%(较混合训练提升4%),自动驾驶性能达63.3%(较混合训练提升8.1%),显著优于单一领域训练方案 [27][38] 真实世界应用展示 - **目标物体定位**:在具身导航任务中能够准确指示目标物体位置(如床、吸尘器、植物、马桶),定位精度显著高于GPT-4o、Qwen2.5-VL等对比模型 [31][32] - **复杂操作任务执行**:能够理解并执行"将锅盖放在锅左侧"、"将粉色勺子放入锅中"等多步骤操作指令,展现出强大的空间推理与任务规划能力 [33][34] - **跨领域泛化能力**:模型在部署到下游具身操作任务时表现出色,验证了其在真实物理环境中的实用性与可靠性 [33][34]
从零把π0和π0.5部署上去!
具身智能之心· 2025-11-23 00:03
产品定位与目标市场 - 公司推出专为具身智能科研领域设计的轻量级高性价比机械臂Imeta-Y1,旨在解决硬件选择中价格过高或低端产品难用的问题[3] - 该产品主要面向学生、教育工作者及机器人领域初学者,支持低成本、高效率的算法验证与项目开发[3] - 产品采用紧凑型结构与模块化接口,适用于嵌入式AI与机器人学习平台的开发与应用推广[7] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖数据采集、模型训练到推理部署全环节,支持视觉、力控等多模态数据融合[4][18][37] - 兼容TensorFlow、PyTorch等主流框架,并支持ROS1/ROS2开发环境,提供URDF模型实现仿真与真机无缝联动[4][18][20][23] - 提供Python/C++双语言接口,降低用户上手门槛,并承诺24小时快速售后响应[4][19][20] - 后期将陆续升级VLA、VA相关源码,新老客户均可享受升级服务[20] 机械臂技术参数 - 本体重量4.2KG,额定负载3KG,具备6自由度,工作半径612.5mm,重复定位精度达±0.1mm[9][20][21] - 供电电压24V,采用铝合金材质,通讯方式为CAN,控制方式支持轨迹跟踪、示教及API[9][20] - 各关节运动范围覆盖J1(-165°~165°)至J6(-150°~150°),最大运动速度达180°/s至220°/s[9][22] - 配套末端执行器重量631g-704g,行程0-80mm,定位精度±0.5mm,接口为电源+CAN XT30 2+2[11][12][14] 软件开发与生态支持 - 提供完整开源SDK,含驱动程序、API接口及示例代码,支持Python/C++等语言[30][31] - 已开源代码库包含y1_ros和y1_sdk模块,近期更新包括master/slave启动文件[32] - 模型推理时间测试显示单次推理耗时约30-36毫秒,适配ALOHA ACT算法可在RTX 4060显卡完成训练与推理[39][51] - 目前已适配RealSense D435系列、奥比中光DCW2相机,未来将扩展支持lerobot、act等开源模型[51] 交付与售后政策 - 产品交付周期为1-2周,质保期半年(非人为损坏),质保期后按市场价收费[49][50] - 明确表示不支持无理由退货或测试,仅针对产品质量问题提供售后支持[51]
移动操作的AlohaMini来啦!600美元成本,全开源
具身智能之心· 2025-11-22 11:07
产品核心定位 - 推出AlohaMini双臂移动机器人平台 旨在降低真实世界操作与具身AI研究的门槛[3][4] - 产品定位为面向家庭建造者和研究实验室的全栈开源机器人[4] - 平台设计支持完全3D打印 组装时间约60分钟[5][8] 产品核心特性 - 具备双机械臂和移动底盘 集成电动垂直升降系统 垂直行程0-60厘米[5][10] - 配备5个720p摄像头感知阵列 包括顶置 前向 后置及双机械臂摄像头[10][13] - 硬件与软件完全开源 原生兼容LeRobot生态系统实现即插即用[5][12] 成本结构与可及性 - 物料清单总成本约为600美元 极具成本效益[3][5] - 核心部件包括16个舵机 成本13.89美元/个 2块电机控制板及树莓派5计算平台[13] - 移动系统采用3个全向轮 成本36美元 机身框架依赖约4公斤3D打印线材[13]
两院院士增选结果揭晓:周志华、刘云浩当选科学院院士
具身智能之心· 2025-11-22 00:03
2025年两院院士增选总体情况 - 中国科学院选举产生73名院士和27名外籍院士,中国工程院选举产生71名院士和24名外籍院士 [1][5][24] - 增选后中国科学院院士总数达908人,中国工程院院士总数达1002人 [2] - 新当选中国科学院院士平均年龄57.2岁,最小年龄44岁,60岁及以下占比67.1% [1] 人工智能及相关领域院士增选亮点 - 计算机与人工智能领域多位顶尖学者入选,显示国家对前沿科技的重视 [3][6] - 清华大学刘云浩教授当选,研究方向包括物联网、工业互联网、具身智能导航,谷歌学术引用48000余次,H-index达105 [7][9][10] - 南京大学周志华教授当选,长期从事机器学习理论与方法研究,相关技术已应用于大型企业和国家重大工程 [11][13][14] 信息技术科学领域新当选院士 - 信息技术科学部共增选11名院士,涵盖计算机系统结构、机器学习、信号处理、脑认知模式识别等方向 [15] - 具体包括清华大学刘云浩(计算机系统结构)、南京大学周志华(机器学习理论与方法)、国防科技大学胡德文(脑认知模式识别)等 [15] 中国工程院信息与电子工程学部增选 - 信息与电子工程学部增选9名院士,来自北京邮电大学、中国科学技术大学、中国移动等高校和企业 [26] - 研究方向涵盖通信、网络安全、人工智能等,如中国科学技术大学吴枫 [26] 外籍院士中的科技领域专家 - 中国科学院外籍院士包括多位人工智能和信息技术专家,如迈克尔·乔丹(信息技术科学)、阿洛基亚·那桑(信息技术科学)等 [20][21] - 中国工程院外籍院士包括郭毅可(数据科学、人工智能)、申作军(人工智能与供应链优化)等人工智能领域专家 [36]
VLA-Pruner:面向高效VLA推理的时序感知视觉token剪枝
具身智能之心· 2025-11-22 00:03
研究背景与核心挑战 - 视觉-语言-动作模型是具身智能的核心方向,能整合视觉感知、语言理解和动作执行,但处理连续视觉流时计算开销巨大,视觉Token数量通常是文本Token的一个数量级,严重限制实时部署 [2] - 现有视觉Token剪枝方法仅依赖预填充阶段的语义显著性指标筛选Token,但VLA模型存在双系统本质,高层语义理解与底层动作执行对视觉信息需求截然不同,导致现有方法过度偏向保留语义相关Token,却剪掉动作执行必需的局部细节Token [3] - 实验显示预填充与动作解码的Top-k Token重叠率仅约50%,甚至低于30%,直接证明单一语义准则无法适配VLA模型 [4] - 机器人操作具有天然的时间连续性,连续时序的动作解码注意力高度重叠,这为解决动作解码注意力在预填充阶段不可得的核心矛盾提供了突破口 [5] 方法设计:VLA-Pruner的核心逻辑 - VLA-Pruner采用双级重要性准则,兼顾语义与动作需求,语义级相关性采用视觉-语言预填充阶段的注意力分数量化语义重要性,动作级重要性则利用时间连续性通过历史数据估计动作解码注意力 [7][9] - 采用双级Token选择策略,遵循最小冗余-最大相关性原则,先进行双级Top-k筛选得到语义候选集和动作候选集,再通过最大化Token特征多样性去除冗余 [9][11] - 动作解码注意力的时序平滑估计采用衰减窗口平均机制,窗口大小设为3,衰减率设为0.8,既捕捉时序趋势又避免陈旧数据干扰 [13] - 实现细节显示该方法在50%、25%和12.5%的Token保留率下,最大内存占用和CUDA时间均优于或接近基线方法 [14] 实验验证:性能与效率的双重突破 - 在50%剪枝率下,VLA-Pruner不仅无性能损失,还能提升成功率,OpenVLA平均提升2.45%,OpenVLA-OFT提升1.05%,原因是精准过滤了语义冗余且不影响动作的噪声Token [16] - 在87.5%的高剪枝率下,VLA-Pruner仍保持88.9%和88.27%的相对性能,远超基线最高34.39% [16] - 在SIMPLER环境中75%剪枝率下,整体成功率达96.8%,显著高于FastV的73.1%和VLA-Cache的77.2%,证明在分布偏移场景下的鲁棒性 [19] - 在π₀模型上,50%剪枝率下平均成功率达100.89%,87.5%剪枝率仍保持87.97%,验证跨架构适配性 [20] - 效率方面,50%剪枝率下FLOPs降至原生模型的60%左右,87.5%剪枝率降至30%左右,最高实现1.8倍推理加速 [26] 消融实验与关键设计验证 - 消融实验证明双级准则的必要性,仅语义准则导致动作操控精度下降,仅动作准则牺牲任务规划能力,两者性能均远低于双级准则 [23] - 时序平滑价值分析显示窗口大小w=3最优,w=1性能下降,证明短期时序连续性的重要性 [27] - 剪枝层位置分析表明第3层剪枝能平衡性能与效率,层数过浅导致特征提取不充分,过深则计算量节省有限 [25][27] 核心贡献与未来方向 - 首次揭示VLA模型的双系统注意力特性,提出语义加动作双级剪枝准则,解决现有方法的本质缺陷 [31] - 利用机器人操作的时间连续性,通过时序平滑桥接预填充阶段无法获取动作注意力的矛盾 [31] - 设计无训练、即插即用的剪枝框架,在不修改模型架构的前提下实现高效推理 [31] - 未来优化方向包括用自适应预测模块替代固定窗口平滑,结合量化、层剪枝等技术提升部署效率,扩展至多模态视觉输入的Token剪枝 [31]
每家具身公司都在重复造轮子,数据孤岛问题怎么解决?
具身智能之心· 2025-11-22 00:03
智源Open Day行业合作与数据开源 - 智源作为非营利第三方组织,召集星海图、银河通用、原力灵机、智元、自变量、加速进化、北京人形等多家头部具身公司CEO或联合创始人,共同探讨打破数据孤岛、共建生态 [1] - 平台正逐渐开源移动操作、机械臂等多个本体数据,并宣布开源百万级高质量真机具身数据,这些数据经过清洗、标注和对齐 [1] - 发布全流程开发平台RoboXstudio和数据软件框架CoRobot,打通从数据采集、标注管理、训练到评测部署的整套流程,帮助创业公司降低平台搭建成本 [1] 行业统一评测标准与生态优化 - 引入“统一评测”机制,旨在通过统一标准区分机器人产品优劣,改变以往各自宣称最佳的局面 [2] - 对于本体公司,向开源平台贡献更多数据将获得更好的优化效果,统一评测促进整个行业从各自为战转向有组织发展 [2] 具身智能之心知识星球社区资源 - 社区已搭建近一年,形成技术路线分享、直播、问答、求职、赛事等多个版块,实现产业、学术、求职、问答交流的闭环 [2] - 社区成员近3000名,来自国内外200多家具身公司与机构,包括斯坦福大学、清华大学、智元机器人、优必选等知名高校和企业 [12][13][81] - 社区汇总了40+开源项目、60+具身智能相关数据集以及行业主流具身仿真平台 [14] 社区技术学习路线与内容体系 - 提供完整的技术学习路线,涵盖具身智能感知、交互、强化学习、多模态大模型、机械臂抓取、机器人导航等近20个方向 [14] - 社区内容包含持续直播分享、产业项目方案、内推求职服务,并与多家具身公司建立岗位内推机制 [4][9][10][11][12] - 汇总国内外具身智能高校实验室和公司信息,涉及教育、宠物、工业、救援、物流、交互、医疗等多个方向 [16][17][19] 行业研究资料与开发工具汇总 - 社区内部汇总大模型、人形机器人等行业研报,以及机器人导航、概率机器人等方向的PDF书籍 [21][24][25] - 提供机器人零部件品牌汇总,包括芯片、激光雷达、相机、IMU、底盘等知名制造厂商 [27] - 针对机器人仿真、抓取、控制、感知等领域汇总开源项目,并详细整理各类开源数据集,方便开发者快速上手 [30][34][36]
第一家人形机器人公司,被量产拖死了......
具身智能之心· 2025-11-21 17:59
公司概况与事件 - 公司为K-Scale Labs,成立仅一年,曾获种子轮融资,估值达5000万美元 [2] - 公司近期正式宣布解散,倒闭直接原因为现金流枯竭及无法继续融资 [2] - 公司曾对标机器人公司宇树 [2] 战略失误分析 - 公司战略失误之一为放弃低端市场产品Z-Bot,该小型机器人价格不到1000美元,是一款易于验证市场并可能带来现金流的产品 [2] - 公司转而将所有精力投入高端市场产品K-bot的开发 [2] 量产与供应链问题 - 高端产品K-bot成本极高,近一年仅生产出10台原型机,每台成本高达10万美元 [2] - 公司缺乏完整的本土供应链,导致成本无法降低,与国内许多公司已实现低成本形成对比 [2] - 尽管从5月初至今获得100台订单,总金额超过200万美元,但因量产成本过高,公司最终选择向客户全额退款并解散 [3]
实力出圈,43秒搞定工业任务!拎桶分拣惊艳全场。
具身智能之心· 2025-11-21 12:01
赛事与获奖情况 - 公司携自主研发的TeleAvatar机器人参加2025年第二届中关村具身智能机器人应用大赛,在遥操作模式下的7个细分赛项中全部斩获一等奖[2] - 本届大赛由中关村科学城管委会主办,旨在推动具身智能技术从算法突破走向场景落地,赛事设置三大赛道,构建总额200万元的差异化奖励体系[4] - 大赛汇聚全球157支顶尖团队同台竞技,公司参与的第二赛道为具身智能场景应用赛[2][4] 技术应用与场景表现 - 公司报名参与了遥操作模式下的家庭服务、工业制造、安全处置三大场景的7个细分赛项,覆盖物料搬运、零件装配、桌面清洁、危险物品识别与抓取等实用任务[4] - 在工业制造场景中,TeleAvatar机器人完成物料搬运任务耗时43秒,完成零件装配任务耗时1分22秒[6] - 在家庭服务场景中,完成桌面清洁任务耗时45秒,完成衣物晾晒任务耗时55秒,并在垃圾拣选任务中展示了创新的操作方式[7] - 在安全处置场景中,完成表数读取任务耗时1分27秒,并在危险物品识别与抓取环节反应迅速[10] 技术实力与公司背景 - 公司由清华大学自动化系顶尖运动控制团队创立,核心成员多来自清华优势学科,依托创始人莫一林教授的科研资源构建技术根基[17] - 公司成立于今年2月,专注高性能遥操作技术,参赛的TeleAvatar机器人搭载自研TeleDroid控制平台,集成七轴机械臂与双目视觉系统,实现低延迟传输与高精度动作复刻[17] - 赛事中,机器人展现了“快、准、稳”的核心优势,各项任务耗时均远超赛事均值时间标准,并以“零失误”完成比赛[6][17] 行业认可与市场反馈 - 海淀区委书记张革一行现场视察了TeleAvatar机器人的实操演示,并与公司CEO金戈进行交谈,对公司的创新方向给予肯定,鼓励公司持续深耕技术,加快成果转化[11] - 现场观众、媒体记者及大赛工作人员对机器人的操作流畅度、实用性和技术落地性给予了高度评价[14] - 公司联合创始人李章晶表示,参与此次大赛提升了项目的行业知名度与关注度,为后续推广与融资奠定了基础[17] 未来发展方向 - 公司未来将持续以场景需求为导向,迭代优化TeleAvatar机器人的核心性能,推动“真干活、能落地”的具身智能技术走进产业生产与日常生活[23] - 公司旨在通过技术赋能,为产业升级与民生改善贡献科技力量[23]