具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

多家具身公司正在推进IPO......

具身智能之心· 2026-01-05 17:28

2025年11月15日，宇树科技IPO上市辅导工作完成，公告显示，宇树科技拟申请在境内IPO。中国证监会官网的这一信息。 2）银河通用 2025年12月，多个媒体报道银河通用完成股改，开始筹赴港上市。最近社区分享了几家正在IPO进程的公司，都在大考，还有许多公司正在排队准备了。这里为大家整理了下相关内容，本次整理参考各类已经公开的内容，若有不足欢迎后台指正。 1）宇树科技 3）智元机器人智元机器人于2025年3月完成股改，11月宣布拟赴港IPO。 2025年7月通过其持股平台计划收购科创板上市公司上纬新材63.62%的股份，被市场解读为"借壳上市"的关键落子。尽管智元对外回应称"本次行动仅为收购控股权，不构成《重大资产重组办法》所定义的借壳上市"，但这一动作被业界视为加速上市进程的重要举措。 4）乐聚机器人 1）持续的直播分享社区为大家准备了很多圆桌论坛、直播，从本体、数据到算法，各类各样，逐步为大家分享具身行业究竟在发生什么？还有哪些问题待解决。 2025年10月30日，乐聚智能（深圳）股份有限公司在深圳证监局完成上市辅导备案登记，辅导券商为东方证券。 5）云深处 2025年12月23日， ...

网传某头部具身公司上市“绿色通道”被叫停，当事人正式回应......

具身智能之心· 2026-01-05 11:30

点击下方卡片，关注" 具身智能之心 "公众号转载丨澎湃新闻本文只做学术分享，如有侵权，联系删文宇树科技于2025年7月8日提交了辅导备案登记材料，由中信证券担任辅导机构； >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。近日，某媒体发布宇树科技上市相关报道，涉及"所谓绿色通道被叫停"，并被众多媒体、网络平台及自媒体大规模转载。昨日，宇树科技正式向相关新闻媒体回应。该报道涉及我司上市工作相关动态情况的内容与事实情况不符，我司未涉及申请"绿色通道"相关事宜。相关报道误导公众认知，已严重侵害我司合法权益。我司已向主管部门反映，同时督促相关方撤回不实报道。我司在此严正声明，后续将保留通过法律手段追责的权利。宇树科技表示，目前，公司上市工作正常推进，相关进展将依法依规进行披露，感谢社会各界对公司的关心与支持。 4日早些时候，有报道称，宇树科技A股上市的绿色通道被叫停，但常规上市流程仍继续，被叫停或是因为"目前机器人赛道泡沫太大了"，管理层希望能降降温。随后，一张疑似宇树科技创始人、董事长王兴兴 ...

人形机器人

四足机器人

人形机器人

四足机器人

全职/兼职/实习！具身智能之心招募运营、编辑和销售的同学了

具身智能之心· 2026-01-05 11:30

公司业务与平台定位 - 公司运营“具身智能之心”平台，该平台是具身智能领域的技术创作平台，为行业输出前沿技术、课程、行业概况、融资、产品及政策等内容 [1] - 平台目前正处于业务上升期 [1] 公司招聘需求 - 公司面向粉丝群体招募全职及实习岗位，岗位包括编辑、运营和销售 [1] - 编辑岗位负责公众号平台的内容创作与编辑，要求应聘者具备专业基础及在知乎、公众号等内容平台的经验 [1] - 销售岗位负责平台课程、硬件等产品的销售推广，要求应聘者具备销售基础，并对具身智能用户需求与市场有一定了解 [2] - 运营岗位负责公众号、小红书、社群等渠道的运营，旨在提升粉丝粘性和关注度，要求应聘者具备运营能力并对自媒体平台玩法有认识 [3] - 实习岗位中，除编辑岗外均需线下工作 [1] 行业与平台内容 - 平台专注于具身智能领域，其产出内容涵盖该领域的前沿技术、课程、行业概况、融资动态、产品信息及政策解读 [1]

王鹤团队最新！解决VLA 模型缺乏精准几何信息的问题

具身智能之心· 2026-01-05 09:03

文章核心观点 - StereoVLA模型通过创新性地融合立体视觉的几何线索与语义理解，系统性解决了现有视觉-语言-动作模型在空间感知精度上的核心不足，为机器人高精度操纵提供了全新解决方案 [1] 问题根源：VLA模型空间感知的挑战 - **单模态视觉局限**：现有方案如手腕相机视野有限且易遮挡，深度传感器对透明或镜面物体噪声大，多相机配置则增加硬件复杂度且泛化性受相机姿态影响显著 [4][5] - **几何与语义融合难题**：立体视觉能提供丰富空间线索，但现有VLA模型缺乏有效机制融合几何信息与语义理解，直接输入立体图像会因视角细微差异导致性能次优 [6] 方案设计：StereoVLA的三层技术架构 - **第一层：特征提取模块** - 几何特征提取：基于FoundationStereo预训练模型，提取过滤后的代价体积作为几何特征源，通过注意力混合代价过滤模块捕捉长程空间关联，无需额外深度估计计算 [12] - 语义特征提取：利用SigLIP和DINOv2模型仅对左视角图像进行处理，获取富含语义的视觉令牌，以解决立体视觉模型语义信息不足的问题 [12] - 特征融合策略：通过空间池化统一分辨率，采用通道维度拼接方式融合几何与语义特征，生成兼具几何精度与语义丰富度的混合特征表示 [12] - **第二层：辅助训练任务** - 聚焦交互区域：将采样范围限制在通过物体2D边界框定位的夹持器与目标物体交互区域，引导模型关注关键空间细节 [12] - 度量深度预测：基于合成数据集的真实深度标签，训练模型预测交互区域内采样点的度量深度，以提升操纵精度并加速模型收敛，且不增加推理计算负担 [12] - **第三层：大规模数据支撑** - 合成数据生成：利用MuJoCo与Isaac Sim生成500万条合成抓取-放置动作序列，渲染立体图像对，相机参数在真实Zed Mini相机参数的5%范围内随机化 [12] - 语义增强数据：融入互联网规模接地数据集GRIT，新增2D边界框预测辅助任务以提升模型语义接地能力 [12] - 数据多样性设计：生成三种不同随机化范围的数据集，覆盖15×10×15cm至150×50×60cm的空间变化，以验证相机姿态鲁棒性 [12] 验证逻辑：全面性能验证 - **核心任务性能突破** - 通用操纵任务：在常见物体抓取/放置、立方体堆叠等任务中，成功率较基线模型提升明显 [13] - 条形物体抓取：针对0°、45°、90°三种朝向的条形物体，实现近完美抓取成功率，解决了长轴视觉重叠导致的定位难题 [13] - 中小尺寸物体抓取：在1-2cm小型物体抓取任务中，以30.0%的成功率成为唯一有效模型，其他基线模型完全失败 [13] - **相机配置对比** - 在四种主流相机配置对比中，StereoVLA展现出最优的性能-鲁棒性平衡 [14] - 立体视觉配置在中、大姿态随机化场景下性能优势显著，较其他配置降低了相机姿态变化对操纵的影响 [17] - 相比前+侧面相机配置，StereoVLA在大姿态随机化场景下成功率提升157%，且部署更简洁，无需多相机校准 [17] - **核心模块消融验证** - 几何特征选择：过滤后的代价体积表现最优，较相关体积加语义特征的组合，成功率从54.0%提升至77.0% [15][18] - 语义特征作用：缺失语义特征时，模型抓取错误物体的概率显著增加，成功率平均下降20%以上 [15][18] - 深度估计策略：交互区域深度估计较全图像均匀采样，成功率提升18%，且避免了背景信息干扰 [18] 局限与未来方向 - 图像分辨率限制：当前224×224分辨率对1-2cm小型物体的语义接地与定位精度不足，需在高分辨率与计算成本间寻求平衡 [18] - 长时程依赖缺失：当前模型未捕捉长时程时间依赖，难以应对复杂连续操纵任务 [18] - 多机器人适配：验证仅基于Franka机械臂，未来需扩展至人形机器人等多具身化场景 [18] - 特征提取优化：可探索更多立体视觉基础模型的适配，以进一步提升几何特征质量 [18] StereoVLA的范式价值与行业影响 - 该模型的核心贡献在于首次将立体视觉系统融入VLA模型，并建立了“几何-语义融合-聚焦式辅助训练-鲁棒性验证”的完整技术链路 [16] - 其在条形物体、小型物体抓取等高精度任务中的突破，以及对相机姿态变化的强鲁棒性，为机器人操纵从实验室走向真实复杂场景提供了关键技术支撑 [16]

视觉语言动作模型（VLA）

StereoVLA模型

视觉语言动作模型（VLA）

StereoVLA模型

AAAI 2026 | 小鹏联合北大，专为VLA模型定制视觉token剪枝方法

具身智能之心· 2026-01-05 09:03

文章核心观点 - 小鹏汽车与北京大学联合提出了一种专为端到端自动驾驶设计的视觉语言模型视觉token剪枝新框架FastDriveVLA [1] - 该框架基于“前景信息比背景信息对驾驶决策更有价值”的假设 [2] - 通过创新的基于重建的剪枝器ReconPruner，在显著提升推理效率的同时，保持了甚至超越了原始模型的驾驶性能 [2][8][25] 研究背景与问题 - 端到端自动驾驶系统因其简洁性和减少误差传递的潜力而受到关注，但现有VLA模型将视觉输入转换为大量视觉token，导致巨大的计算开销和推理延迟，对车端部署构成挑战 [7] - 现有的视觉token剪枝方法（如引入新投影器、基于注意力或相似性的策略）并非为自动驾驶设计，在自动驾驶场景中存在局限性 [1][7] 方法与创新 - 构建了大规模自动驾驶前景标注数据集nuScenes-FG，包含来自6个摄像头视角的24.1万个图像-掩码对，明确定义了对驾驶决策有直接影响的前景区域（如行人、车辆、道路、交通标志等） [2][13] - 提出了一个轻量级、可即插即用的基于重建的剪枝器ReconPruner [16] - ReconPruner采用MAE风格的像素重建策略，并创新性地引入了对抗性前景-背景重建策略，以增强其区分前景与背景视觉token的能力 [16][19] 实验结果 - 在nuScenes开环规划基准测试中，FastDriveVLA在不同剪枝比例下均取得了SOTA性能 [2] - 当视觉token数量从3249个减少至812个（剪枝75%）时，FastDriveVLA的FLOPs直降约7.5倍 [2][26] - 在CUDA推理延迟方面，FastDriveVLA将预填充时间减少了3.7倍、将解码时间减少了1.3倍 [2][26] - 在剪枝25%时，FastDriveVLA的L2轨迹误差和碰撞率指标分别比未剪枝的原始模型低了0.1%和1.0% [28] - 研究建议在实际部署中采用50%的剪枝比例，以实现性能与效率的最佳平衡 [25] 效率与性能对比 - 在剪枝75%的情况下，FastDriveVLA的Token FLOPs为5.1T，预填充时间为51 ms/token，解码时间为18 ms/token [27] - 与基于注意力的基线（FastV, SparseVLM）和基于相似性的基线（DivPrune, VisPruner）相比，FastDriveVLA在各种剪枝比例下均展现出更优或更具竞争力的性能 [24] - 可视化分析表明，ReconPruner能有效保留前景关键信息（如车道、车辆），而其他方法存在漏检或定位不准的问题 [29]

小鹏汽车(US:XPEV)

视觉token剪枝

端到端自动驾驶

视觉token剪枝

端到端自动驾驶

RoboMIND 2.0：面向通用化具身智能的大规模双臂移动操作数据集

具身智能之心· 2026-01-05 09:03

文章核心观点 - 北京人形机器人和北京大学团队发布了RoboMIND 2.0数据集及MIND-2算法框架，旨在解决机器人通用化操作的数据与算法瓶颈 [1] - RoboMIND 2.0是一个大规模、多模态、虚实融合的双臂移动操作数据集，包含310K条轨迹，覆盖6种异构机器人平台、759个复杂任务和129项核心技能 [1][14][16] - 配套提出的MIND-2快慢双系统框架，通过高层视觉语言模型规划与低层视觉语言动作模型执行，结合离线强化学习，在长时域复杂任务中性能超越传统方法 [1][26][31] 机器人操作领域的瓶颈 - **数据集维度单一**：现有数据集多聚焦单一机器人形态或任务类型，缺乏支撑跨场景泛化的大规模双臂协同与移动操作样本 [3][4] - **感知模态残缺**：几乎所有现有数据集仅依赖视觉与基础驱动状态，缺失触觉、力扭矩等关键物理交互反馈，限制了精细操作能力 [5][6] - **长时域任务数据稀缺**：现有数据多为短时域单一操作，缺乏长时域、多步骤的移动操作数据，导致模型在复杂连续决策场景中表现不佳 [7][8] - **虚实迁移成本高**：模拟数据与真实场景存在“虚实鸿沟”，而真实数据采集依赖昂贵硬件与人工监督，数据扩充面临效率与成本瓶颈 [9][10] - **双臂协同数据缺失**：真实世界中超过70%的复杂操作依赖双臂协同，但现有数据集相关高质量数据极度稀缺 [11][12] RoboMIND 2.0数据集核心设计与优势 - **规模与覆盖范围**：包含310K条双臂操作轨迹，累计时长超1000小时，覆盖759个复杂任务、129项核心技能、6种异构机器人平台及1139种不同物体 [14][16] - **数据采集与质量控制**：通过统一遥操作协议采集，设计三阶段质量控制流程过滤12类数据异常，确保数据可靠性 [18][20] - **数据标注**：采用“自动生成+人工修正”方案，利用大语言模型对长时域任务进行语义分割，为每条轨迹提供精细的自然语言注释，形成多模态对齐标注 [22][23] - **虚实融合**：配套发布高保真数字孪生资产与20K条模拟轨迹，模拟与真实任务在结构、物体配置上完全一致，支持虚实混合训练 [24][27] - **多样性设计**：涵盖形态、任务、物体、信息、模拟五大核心维度的多样性，远超现有数据集的单一维度覆盖 [26][28] MIND-2双系统框架设计 - **整体设计理念**：采用分层协作思路，高层慢系统负责语义级任务规划与进度监控，低层快系统负责感知-动作映射与精准执行 [30][31] - **高层规划系统**：基于开源VLM模型InternVL3-8B微调，输入多视角视觉、任务上下文与机器人状态，输出标准化的子任务索引与执行进度 [32][34][40] - **低层执行系统**：是一款视觉-语言-动作模型，采用离线强化学习范式，同时利用数据集中的成功与失败轨迹学习最优策略 [36][41] - **多模态融合**：输入融合多视角RGB-D视觉、语言指令、本体感受及触觉数据，通过统一特征编码器实现信息对齐 [37] - **协同机制**：高层系统监控状态并输出子任务指令，低层系统生成控制动作，子任务完成后自动触发下一个，支持多机器人异构协作 [38][42] 关键实验结果与分析 - **模仿学习算法对比**：3D感知类算法的成功率显著高于2D方法，在需要双臂空间协同的任务中优势明显，如DP3在固定场景任务中成功率可达0.5-0.8 [44][49] - **VLA模型对比**：跨形态模型XR-1在固定基座、移动平台、人形机器人上均保持高成功率，在6种平台任务评估中表现最优 [46][50] - **触觉数据的价值**：融入触觉反馈后，模型在接触密集型任务中成功率显著提升，例如XR-1在“堆叠易滑物体”任务中成功率从0.4提升至0.6 [52][53] - **虚实混合训练效果**：真实与模拟数据按1:5比例混合训练时模型性能最优，部分任务成功率甚至超越纯真实数据训练，能有效降低数据采集成本 [54] - **MIND-2系统性能**：在长时域移动操作任务中，MIND-2成功率显著高于现有VLA模型，其离线强化学习优化版本在超市协作任务中成功率达到0.9 [48][55] - **泛化能力验证**：模型展现出较强的物体级泛化能力，在颜色/形状替换任务中成功率保持0.7-0.8，训练数据的物体多样性是核心保障 [56][60] - **模拟数据集质量**：仅使用模拟数据训练的模型在真实机器人任务中成功率可达0.5-0.7，验证了模拟资产的高保真特性与虚实迁移效果 [57][60]

RoboMIND 2.0数据集

MIND - 2双系统框架

RoboMIND 2.0数据集

MIND - 2双系统框架

半年交付5000台！这家公司开启了26年具身领域的首笔融资～

具身智能之心· 2026-01-05 09:03

公司融资与产业认可 - 智身科技完成连续多轮融资，累计金额达数亿元，投资方均为智元机器人、贵安鲲鹏基金、金马游乐、柯力股份、豪鹏科技等产业资本及上下游合作伙伴 [3] - 本轮融资侧重于支持产业升级和技术创新，提高产业整体竞争力，推动技术创新与应用 [4] - 2025年具身智能领域大额融资络绎不绝，智身科技在2026年初官宣的融资是“领域内开年第一融”，且投资方清一色为产业相关资本 [4] 公司发展历程与定位 - 智身科技是一家聚焦具身智能全产业链的企业，以自主研发为核心，覆盖核心部件、整机制造、场景落地全流程 [8] - 公司虽年轻，但在2年时间内完成了产品设计、核心零部件研发和自建工厂 [4] - 公司始于人形与四足机器人领域，与杭州的宇树科技、云深处等公司同处具身智能赛道 [7][8] 产品与技术突破 - 公司实现了从一体化关节模组到整机产品的全栈自研与生产，并建立了规模化量产体系和质量防线 [12] - 已推出两款实现规模化量产的主力机型：钢镚L1和铜锤M1 [13] - 钢镚L1自重15kg，具备IP54防护、20cm越障能力与50%动力冗余，专为安防、巡检等中轻载场景设计 [13] - 铜锤M1自重35kg，水陆两栖，实现近1:1负载比（35kg），拥有IP67防护等级及-20℃~55℃工作温域，适用于电力、消防等重载场景，是行业首款1:1负载自重比的产品 [15][28] - 两款产品均基于自研的一体化关节模组，目前已达成千台级月产能 [17] 量产交付与市场表现 - 公司于2025年6月启动量产，半年内（截至2025年12月底）交付量已达6000台，营收突破1亿元 [4][30] - 2025年12月底完成了第5000台机器人的量产交付 [13] - 量产交付能力将公司推向了“产品交付大厂”的俱乐部 [30] 核心能力与护城河 - 公司的护城河在于能够为行业提供清晰价值的能力，在零部件、本体、硬件、算法软件、解决方案等多个维度上实现了闭环 [18] - 在硬件层面，全栈自研的一体化关节模组已实现系列化、平台化，不仅用于自有机器人，也向生态伙伴开放供应 [19] - 在软件层面，公司推出并全面开源了MATRiX仿真平台，集成场景构建与仿真调试，助力合作伙伴提升开发与落地效率 [21] 2025年关键里程碑 - 2025年4月，推出钢镚L1-W轮足版 [25] - 2025年6月，钢镚L1实现规模化量产 [25] - 2025年9月，发布CHAMP冠军系列一体化关节 [25] - 2025年10月，发布MATRiX仿真平台，推出钢镚L1-EDU智航版 [25] - 2025年，在IROS 2025四足机器人挑战赛中，公司“钢镚L1”携手曼彻斯特大学首次参赛便夺冠 [25] - 2025年12月，铜锤M1正式上新 [28] - 2025年12月，公司联合创始人刘宇龙入选工信部人形机器人与具身智能标准化技术委员会委员名单 [36] 应用场景落地 - 公司通过“技术产品+场景生态”双轮驱动，与合作伙伴共建解决方案，已在安防、巡检、电力运维、服务等多个行业实现价值落地 [36] - 在电力巡检场景，四足机器人在酒泉卫星发射中心承担无人化、智能化电力巡检任务 [33] - 在消防应用场景，打造四足机器人+无人机地空协同作战的消防救援解决方案 [33] - 在商业文娱领域，打造“钢镚大冲关”亲子娱乐项目，落地全国多座商圈，探索科技赋能文娱与科普教育的新商业模式 [34]

MATRiX仿真平台

MATRiX仿真平台

王鹤团队最新工作！解决VLA 模型多依赖单视角图像，缺乏精准几何信息的问题

具身智能之心· 2026-01-04 16:58

文章核心观点 - 由Galbot、北京大学、香港大学等团队联合提出的StereoVLA模型，通过融合立体视觉的丰富几何线索，系统性解决了现有视觉-语言-动作模型因依赖单视角RGB图像而缺乏精准空间几何信息、难以满足高精度操纵需求的核心问题，为机器人精准操纵提供了全新解决方案 [1] 现有VLA模型的核心挑战 - **单模态视觉局限**：现有解决方案中，手腕相机视野有限且易遮挡、增加碰撞风险；深度传感器对透明或镜面物体测量噪声大；多相机配置则增加硬件复杂度，且泛化性受相机姿态影响显著 [4][5] - **几何与语义融合难题**：立体视觉虽能提供丰富空间线索，但现有VLA模型缺乏有效机制融合几何信息与语义理解，直接输入立体图像会因视角差异细微导致性能次优 [6] StereoVLA的技术架构 - **特征提取模块**：创新性地融合立体视觉的几何线索与单视角的语义信息 [8] - **几何特征提取**：基于FoundationStereo预训练模型，提取过滤后的代价体积作为几何特征源，该特征通过注意力混合代价过滤模块捕捉长程空间关联，且无需额外深度估计计算 [12] - **语义特征提取**：利用SigLIP与DINOv2，仅对左视角图像进行处理，获取富含语义的视觉令牌 [12] - **特征融合策略**：通过空间池化统一几何与语义特征的分辨率，采用通道维度拼接方式融合，生成兼具几何精度与语义丰富度的混合特征表示 [12] - **辅助训练任务**：设计交互区域深度估计任务以强化模型细粒度空间感知能力 [8] - **聚焦交互区域**：将采样范围限制在夹持器与目标物体的交互区域，引导模型关注关键空间细节 [12] - **度量深度预测**：基于合成数据集的真实深度标签，训练模型预测交互区域内采样点的度量深度，提升操纵精度并加速模型收敛 [12] - **大规模数据支撑**：构建多维度数据集以解决立体视觉VLA数据稀缺问题 [8] - **合成数据生成**：利用MuJoCo与Isaac Sim生成500万条合成抓取-放置动作序列，渲染立体图像对 [12] - **语义增强数据**：融入互联网规模接地数据集GRIT，新增2D边界框预测辅助任务 [12] - **数据多样性设计**：生成三种不同随机化范围的数据集，覆盖15×10×15cm至150×50×60cm的空间变化 [12] StereoVLA的性能验证 - **核心任务性能突破**：在真实世界三类关键任务中，StereoVLA显著优于现有基线模型 [10] - **通用操纵任务**：包括常见物体抓取/放置、立方体堆叠等，成功率较基线提升明显 [13] - **条形物体抓取**：针对0°、45°、90°三种方向的条形物体，实现近完美抓取成功率 [13] - **中小尺寸物体抓取**：在1-2cm小型物体抓取任务中，以30.0%的成功率成为唯一有效模型，其他基线模型完全失败 [13] - **相机配置对比**：在四种主流相机配置对比中，StereoVLA展现出最优的性能-鲁棒性平衡 [14] - 立体视觉配置在中、大姿态随机化场景下性能优势显著 [17] - 相比前+侧面配置，StereoVLA在大姿态随机化场景下成功率提升157%，且部署更简洁 [17] - 具体数据：在单视角配置下，SpatialVLA-D模型在小/中/大随机化场景成功率分别为24.6%、13.7%、6.8%；在前+手腕配置下，GraspVLA模型成功率分别为71.3%、63.4%、54.8%；在前+侧面配置下，GraspVLA模型成功率分别为82.5%、55.7%、24.1%；而StereoVLA在立体配置下成功率分别为79.3%、71.9%、61.3% [14] - **核心模块消融验证**：通过系统消融实验验证各关键设计的必要性 [15] - **几何特征选择**：过滤后的代价体积表现最优，较相关体积+语义特征的组合，成功率从54.0%提升至77.0% [18] - **语义特征作用**：缺失语义特征时，模型抓取错误物体的概率显著增加，成功率平均下降20%以上 [18] - **深度估计策略**：交互区域深度估计较全图像均匀采样，成功率提升18% [18] StereoVLA的局限与未来方向 - **图像分辨率限制**：224×224分辨率对1-2cm小型物体的语义接地与定位精度不足 [18] - **长时程依赖缺失**：当前模型未捕捉长时程时间依赖，难以应对复杂连续操纵任务 [18] - **多机器人适配**：验证仅基于Franka机械臂，未来需扩展至人形机器人等多具身化场景 [18] - **特征提取优化**：可探索更多立体视觉基础模型的适配，进一步提升几何特征质量 [18] StereoVLA的范式价值与行业影响 - StereoVLA的核心贡献在于首次将立体视觉系统融入VLA模型，并建立了“几何-语义融合-聚焦式辅助训练-鲁棒性验证”的完整技术链路 [16] - 其在条形物体、小型物体抓取等高精度任务中的突破，以及对相机姿态变化的强鲁棒性，为机器人操纵从实验室走向真实复杂场景提供了关键技术支撑，加速了通用自主机器人的落地进程 [16]

StereoVLA模型

StereoVLA模型

马斯克宣布：量产脑机接口，手术全自动化

具身智能之心· 2026-01-04 08:32

公司核心动态与目标 - 马斯克宣布Neuralink将于2026年开始大规模生产脑机接口设备，并转向一种精简、几乎完全自动化的手术流程 [1] - 公司计划将业务从实验室推向临床 [1] - 早在2024年7月，马斯克便曾透露，预计到2026年，Neuralink有望服务超过1000人 [3] - 2024年消息公布四个月后，Neuralink即开始扩充团队，集中招聘制造技术人员与微纳加工专家，为量产提前铺路 [4] 技术进展与手术革新 - 截至2025年9月，Neuralink累计服务的患者只有12人 [5] - 到2025年12月，接受植入的受试者数量已从9月的12人增加至20人 [41] - 现有植入手术流程复杂，依赖医生经验，难以规模化 [8][9] - 马斯克表示，到2026年，植入手术将升级为一种「高度简化、几乎完全自动化的流程」 [10] - 新技术核心在于电极线将直接穿过硬脑膜，而无需将其切除，这是一种更「微创」的方式 [12][14] - 新方式能带来更低的成本、更小的风险、更短的恢复周期，标准化门槛因此更低 [14] 产品应用与市场潜力 - 公司产品重点仍集中在治疗神经系统疾病，包括瘫痪、肌萎缩、帕金森、老年痴呆和视力障碍 [18] - 2024年1月，首位志愿者Noland Arbaugh（因潜水事故瘫痪）接受植入后，仅凭植入大脑的芯片便能在X上发帖和玩《马里奥赛车》 [19][20] - 对于神经系统疾病而言，脑机接口几乎是当前最具潜力、甚至唯一有效的解决方案 [6] - 规模化生产降低手术门槛与价格，对于潜在患者而言是一项改变命运的事件 [23] 长期愿景与战略定位 - 在马斯克看来，Neuralink并不只是医疗设备，而是人类应对潜在「邪恶AI」的重要防身武器 [25] - 公司长期愿景是让人类拥有与硅基智能相当的高带宽接口，以避免在强人工智能（ASI）时代沦为「被圈养的宠物」 [26] - 最终目标是让所有人能通过脑机接口直连网络，使人类能像软件一样，随时通过OTA更新自己的技能储备，从而迎来文明大爆发 [27][28] 发展历程与关键节点 - Neuralink成立于2016年 [33] - 2019年，首次展示动物实验 [34] - 2020年，展示配有脑机接口设备的小猪 [35] - 2021年，成功让猴子凭借意念玩乒乓球游戏 [36] - 2022年，实验引发争议，进展慢于预期，FDA审批受阻 [37] - 2023年，迎来拐点，获FDA批准，开展人体临床实验 [38] - 2024年，首位患者接受植入 [39] - 2025年，普及速度开始加速 [40] 当前挑战与行业现状 - 技术成熟度是绕不开的因素，但对应用而言，更现实的挑战在于手术本身 [7] - 自动化脑机接口植入手术仍然停留在实验阶段 [30] - 在受控实验环境之外，涉及脑植入设备的自主神经外科手术，仍未得到充分验证 [32] - 手术对象是大脑，一旦出现失误，其风险与后果远非普通外科手术能比拟 [31]

脑机接口设备

脑机接口设备

让机器人“舞得更好”的全身运控的方案还有哪些进化空间？

具身智能之心· 2026-01-04 08:32

文章核心观点文章通过多位行业专家的圆桌讨论，深入探讨了强化学习在视觉语言动作模型及具身智能领域的最新进展、关键挑战与未来趋势，核心观点认为强化学习是提升VLA泛化能力和实现“最后一公里”性能突破的关键技术，但其有效应用依赖于训练范式的创新、高质量仿真环境的构建以及更高效的“不完美”数据利用方法[3][4][8] RL训练范式的创新与价值 - **SPO算法被Pi0.6引用**：张强及其团队开发的Simple Policy Optimization算法被Pi0.6的强化学习部分用作基准算法，这标志着其工作获得了业界重要认可[3] - **RL的核心价值在于利用“不完美”数据**：Pi0.6提出了一个重要观点，即基座模型预训练的数据质量因领域而异，在自动驾驶和具身智能中，大量采集的数据可能只有约1%到10%是“完美”可用的[4][5]，RL的价值函数可以对行为进行评分，从而将大量原本被丢弃的非完美数据利用起来，这对于数据稀缺的具身智能领域至关重要[5][6] - **RL与模仿学习的协同范式**：当前一个逐渐标准化的训练范式是先用模仿学习训练基座模型，再用强化学习进行最后的性能提升，即跑“最后一公里”[3][20]，模仿学习能高效地将模型提升到一定水平（如80分），而强化学习则能通过探索跳出局部最优，从长程任务结果上进行优化，两者结合是合理路径[20] RL for VLA的框架与工具发展 - **现有工具无法满足需求**：在探索RL与VLA结合时，发现缺乏能够支撑大规模研究的专用框架，现有框架多为大语言模型推理设计，无法满足VLA+RL在策略类型、仿真与真实世界训练、异构硬件支持等方面的需求[9][10] - **Rlinf框架的诞生与目标**：为填补工具空白，一个由高校和公司组成的约30人团队开发了名为“Rlinf”的专用框架，其设计目标是全面支持VLA+RL，涵盖on/off policy、online/offline、仿真与真实世界RL以及国产异构卡等[10][11]，该框架的开发投入巨大，仅算力成本就可能达到千万级别[10][11] - **框架开发强调代码质量与扩展性**：开发团队对代码质量要求极高，为了支持目前已涵盖的近十种主流仿真器，正在进行大规模重构以优化环境接口，确保框架的长期工程可行性[15][17] Sim2Real与3D感知技术的挑战与实践 - **仿真真实性是核心瓶颈**：目前没有仿真引擎能达到与真实世界一模一样的程度，人眼可轻易分辨的“不真实感”构成了sim2real的巨大鸿沟，这直接影响了依赖仿真进行训练的强化学习效果[19][24][28] - **3DGS技术有望缩小视觉鸿沟**：3D Gaussian Splatting作为一种3D重建技术，其生成的结果人眼难以分辨真假，因此被视为连接真实与仿真的有力工具[23][24]，它已首次被与RL结合用于操作任务，其显式表征相比神经辐射场更具调控优势[23][24] - **多技术路径探索sim2real**：除了3DGS，行业也在探索其他技术来促进迁移，包括利用文生3D/图生3D技术进行场景生成与重建[21]，使用双目传感器作为仿真与真实环境的适配器[22]，以及研发具备强大几何表达能力的3D视觉基础模型来提升感知泛化能力[22] 行业不同场景下的RL应用现状 - **局部运动控制已广泛应用RL**：在双足机器人的局部运动控制层面，强化学习相比传统规则方法优势明显，在鲁棒性和最终效果上都更好，且sim2real迁移相对容易[18] - **VLA层面RL应用仍处探索期**：尽管认可RL的潜力，但一些团队在VLA层面尚未大规模部署RL，主要原因包括缺乏效果得到验证的sim2real仿真器，以及当前优先专注于打好视觉动作模型的基础[19][20] - **任务类型影响sim2real难度**：导航类任务不主动改变物理环境，其sim2real的挑战与自动驾驶类似；而操作类任务因需与物理环境交互，其sim2real的鸿沟目前仍然很大[27][28] 未来发展方向与关注点 - **从单任务优化到多任务泛化**：当前RL for VLA的研究多集中于提高单一任务的成功率上限，未来的一个重要方向是探索如何激发VLA模型所掌握的先验知识，实现更泛化的、多任务的强化学习[30] - **具身智能是高度综合的系统工程**：具身智能的发展需要感知、决策、控制等各个模块的技术共同推进，任何一个模块的短板都会导致系统级表现的不足，因此需要计算机视觉、机器人学等多领域贡献最新技术[25]

强化学习（RL）

视觉语言模型（VLA）

3DGS（Gaussian Splatting）

强化学习（RL）

视觉语言模型（VLA）

3DGS（Gaussian Splatting）