具身智能之心
搜索文档
会跳舞、能演讲!RoboPerform 让人形机器人听懂声音,即兴解锁双重技能
具身智能之心· 2026-01-07 15:02
文章核心观点 - 北京智源人工智能研究院等机构的研究团队提出了一种名为RoboPerform的一体化音频-运动生成框架,旨在解决音频驱动人形机器人运动时存在的“音频与关节驱动弱耦合”及“多阶段流程信息损失”等行业痛点 [3][6] - 该框架通过“内容-风格”解耦机制,建立从音频到机器人关节动作的直接映射,无需经过“音频→人类运动→机器人动作”的传统重定向流程,从而实现了更精准、实时、泛化性强的即兴表演能力,如随乐起舞和配合语音生成自然手势 [7][22][24] 技术方案与架构 - 团队提出了“对齐-蒸馏-生成”三阶段训练流程,核心是“内容-风格”双潜表征与∆MoE混合专家教师策略 [11][13] - 音频适配模块基于6层Transformer与时序注意力,结合InfoNCE对比学习损失,使音频潜变量与运动潜变量在嵌入空间精准对齐,让机器人能捕捉音乐节拍、旋律起伏及语音重音、语调变化 [12] - ∆MoE混合专家教师策略通过嵌套条件子空间划分,让多个专家网络分别适配不同运动场景,并通过残差融合减少信息冗余,再通过DAgger式蒸馏将知识迁移至扩散模型学生网络 [13] - 采用x₀-prediction训练目标与两步DDIM采样技术,将单动作推理延迟压缩至5.3ms,整体部署时间仅需1.2s,满足实时控制要求 [14][19] 性能表现与实验结果 - 在音频-运动对齐能力上,模型在音乐-运动检索任务中的Top-1准确率达66.7%,Top-3准确率达83.5%;在语音-运动检索任务中,R@1与R@3分别达到64.6%和82.1% [17] - 在Beat Alignment Score指标上显著超越所有基线方案,证明其能精准捕捉音乐节拍与语音重音 [17] - 在运动追踪精度上,在IsaacGym和MuJoCo仿真平台及Unitree G1实机测试中,任务成功率最高达到99%,且Mean Per Joint Position Error与Mean Per Keypoint Position Error数值均显著低于传统重定向方案与vanilla MoE架构 [18] - 具体数据:在IsaacGym平台上使用BEAT2数据集,成功率为0.99,MPJPE为0.05,MPKPE为0.04;在MuJoCo平台上使用FineDance数据集,成功率为0.67,MPJPE为0.26,MPKPE为0.24 [19][23] - ∆MoE架构在各项指标上均优于Vanilla MoE,例如在IsaacGym平台使用BEAT2数据集时,成功率从0.97提升至0.99,MPJPE从0.14降至0.05 [23] 应用与演示 - 在实机演示中,Unitree G1机器人能够流畅跟随音乐节拍完成抬手、转身、踏步等连贯舞蹈动作,并能配合语音的抑扬顿挫做出自然手势与肢体姿态,实现端到端实时响应 [22][26][28] - 在泛化性验证中,面对未见过的音频信号,其运动追踪成功率与稳定性仍优于对比方案,长序列运动无失控情况 [22] - 在仿真环境中验证了策略的Freestyle能力,RoboPerform能做出稳定且语义丰富的舞蹈动作,而基线方法会出现摔倒及抖动现象 [34]
老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛
具身智能之心· 2026-01-07 11:33
文章核心观点 - 英伟达在CES 2026上发布了一系列面向物理AI和Agentic AI的新产品与平台,标志着其战略重心从游戏显卡全面转向AI,并将技术护城河从芯片层拓展至全栈平台层(模型+数据+工具)[1][2][6][9] 下一代数据中心架构:Vera Rubin - 正式推出下一代AI数据中心机柜架构Vera Rubin NVL72,其六大核心组件包括Vera CPU、Rubin GPU、NVLink 6 switch、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6 Ethernet switch[14][15] - Rubin GPU在NVFP4数据格式下,推理性能达50 PFLOPS,是Blackwell GB200的5倍;训练性能达35 PFLOPS,是Blackwell的3.5倍[4][17] - 每颗Rubin GPU封装8组HBM4内存,提供288GB容量和22 TB/s带宽[18] - 引入NVLink 6用于规模内扩展网络,单GPU互连带宽达3.6 TB/s(双向),每个机架配备9颗交换芯片,总规模内带宽达260 TB/s[20][21] - Vera CPU集成88个定制Olympus Arm核心,最多可同时运行176个线程,其与GPU的NVLink C2C互连带宽达1.8 TB/s,可寻址最多1.5 TB的LPDDR5X内存[22] - 推出基于Spectrum-6芯片的共封装光学以太网交换机,用于机架扩展,其中SN688提供409.6 Tb/s总带宽,SN6810提供102.4 Tb/s总带宽[24][25][26][27] - 推出BlueField-4 DPU,构建推理上下文内存存储平台,旨在高效共享与复用键值缓存数据,提升系统响应与吞吐[32][34] - 每个Vera Rubin NVL72机架可提供3.6 exaFLOPS的NVFP4推理性能、2.5 exaFLOPS的NVFP4训练性能、54 TB的LPDDR5X内存以及20.7 TB带宽达1.6 PB/s的HBM4内存[36][37] - 与Blackwell相比,Vera Rubin训练MoE模型所需GPU数量仅为四分之一,在MoE推理场景下每token成本最高可降低10倍[36] - 用于构建该机架的六类芯片已全部从晶圆厂交付,预计2026年下半年启动规模化量产[38] 自动驾驶开源模型与生态 - 发布全新开源模型系列Alpamayo,面向安全推理的自动驾驶,其中Alpamayo 1是全球首款开源、大规模的自动驾驶视觉-语言-行动推理模型,参数为100亿[39][41] - 模型接收车辆运动历史、多摄像头实时视频和用户指令,输出驾驶决策、因果推理结果和行驶轨迹[42] - 配套发布开源仿真框架AlpacaSim,以及一个包含1700小时驾驶数据的开源数据集,数据涵盖全球广泛地理区域与复杂边缘场景[44][45] - Alpamayo将率先搭载于2025年第二季度欧洲上市的梅赛德斯-奔驰CLA车型,后续通过OTA升级推送更多自动驾驶功能[45] - 展示了基于自身技术构建的全球L4级自动驾驶与Robotaxi生态系统全景,覆盖软件开发商、整车厂/出行平台、硬件供应商全产业链[47] AI智能体与多模态模型 - NVIDIA Nemotron模型家族推出针对语音、RAG以及安全三大场景的专项模型[49] - Nemotron Speech包含新的自动语音识别模型,支持实时低延迟场景如实时字幕生成,速度比同类模型快10倍,已被博世采用[51][52] - Nemotron RAG搭载新的视觉语言模型,能精准处理多语言、多模态数据以提升文档搜索效率[53] - Nemotron Safety系列模型专注于增强AI应用安全性与可信度,包括内容安全模型和检测敏感数据的PII模型[53] 物理AI与机器人平台 - 为机器人推出的“大脑”Cosmos平台升级,全新发布Cosmos Reason 2(视觉-语言推理模型)、Cosmos Transfer 2.5与Cosmos Predict 2.5(合成视频生成模型)[56][60] - 发布Isaac GR00T N1.6,一款专为类人机器人打造的开源视觉-语言-行动推理模型,支持全身控制并集成Cosmos Reason模型[61] - 发布NVIDIA AI Blueprint for Video Search and Summarization,提供参考工作流以构建能分析大量录播及直播视频的视觉AI智能体[61] - Cosmos平台已被Figure、Agility Robotics、通用汽车等公司采用,其模型正被Salesforce、Uber等企业用于开发AI智能体[54][58] 医疗健康与生命科学AI - NVIDIA Clara是专门针对医疗健康与生命科学领域的AI技术工具,旨在降低行业成本、加速治疗方案落地[62][63] - 该系列包含多款专项模型:La-Proteina(设计大型蛋白质)、ReaSyn v2(药物生产考虑)、KERMT(预测药物人体反应)、RNAPro(预测RNA 3D结构)[64][69] - 将为研究者提供包含45.5万个合成蛋白质结构的数据集[66] 开源与生态建设 - 宣布持续向社区开源训练框架以及多模态数据集,数据集包括10万亿语言训练token、50万条机器人轨迹数据、45.5万个蛋白质结构、100TB车辆传感器数据[5] - 演讲中提及国产开源模型DeepSeek、Kimi K2、Qwen,体现了对全球开源生态的关注[11][12]
CycleVLA:让 VLAs 具备“预判初期失败、回溯重试恢复”的能力
具身智能之心· 2026-01-07 11:33
文章核心观点 - 文章介绍了一种名为CycleVLA的新型机器人视觉-语言-动作模型框架,其核心创新在于通过“进度感知-失败预判-回溯重试”的主动自纠正循环,解决了传统VLA模型在长序列任务中因缺乏进度感知和事后纠错机制而导致的错误累积与任务失败问题 [2][3] - 该框架通过三大核心模块(进度感知VLA、VLM驱动的失败预测与回溯、MBR解码的测试时缩放)协同工作,使机器人能够像人类一样在失败完全显现前进行预判和修正,显著提升了任务执行的成功率与鲁棒性,尤其在长视野任务和欠训练模型上效果突出 [3][9][10] CycleVLA的核心背景与动机 - 传统机器人执行任务采用“事后纠正”模式,失败后难以挽回,而人类的纠错方式是“主动预判”,在失败完全显现前介入修正 [2] - 现有视觉-语言-动作模型缺乏对子任务进度的感知能力,无法识别失败高发的子任务转换节点,且重试机制效率低下 [2] - CycleVLA旨在让VLA模型具备“预判初期失败、回溯重试恢复”的能力,以应对长视野任务和欠训练模型的性能短板 [2] 核心设计:三大模块构建主动自纠正循环 - **进度感知VLA**:通过微调为模型增加“任务进度表”,将原始7维动作扩展为9维,新增停止信号和进度信号,使模型能实时输出子任务完成度,并在进度达到阈值(如0.9)时触发后续流程 [5][8] - **VLM驱动的失败预测与回溯**:在子任务接近完成时,引入现成的视觉语言模型作为零样本失败预测器和规划器,通过融合多视图信息判断失败概率,并决策是“继续执行”还是“回溯”到能修复问题的最早子任务 [9][14] - **MBR解码的测试时缩放**:在回溯重试时,采用基于最小贝叶斯风险的解码策略,从多个随机采样的候选动作序列中,选择与其他序列平均距离最小的“共识序列”作为执行方案,以提升重试成功率 [10][14] 实验与关键结果 - **任务性能**:在LIBERO基准的四个任务套件中,CycleVLA平均成功率达95.3%,在失败易累积的Long套件中成功率达93.6%,远超传统方法如OpenVLA的53.7% [11][12][15] - **对欠训练模型的适配性**:CycleVLA能显著提升欠训练模型的性能,例如,训练步数200K的模型加装CycleVLA后,平均成功率从73.2%提升至80.0%,接近350K步模型的原始性能 [20][21] - **MBR解码的关键参数分析**: - 假设数量(N)在增至16时性能达到饱和,继续增加收益递减 [22][23] - L2距离作为度量标准表现最优 [23][24] - 欠训练模型从MBR解码中获益更大,200K和350K模型成功率提升5.3%至11.9%,而500K全训练模型提升3.3%至5.3% [24] - **运行时效率**:在A10 GPU上总运行时间增加约30%,其中动作执行是主要瓶颈(占比68.6%),MBR计算开销可忽略(<0.1%);在A100 GPU上总运行时间降至76.9秒 [25][26] - **消融实验**:证明了各核心组件的必要性,移除MBR解码成功率降至92.5%;替换为小型VLM导致性能下降;移除停止信号和过采样成功率降至91.1%;始终启用MBR虽能将成功率提升至96.9%,但运行时间大幅增加至464.3秒 [27][28][30] 关键发现与局限 - **核心发现**: 1. 子任务进度感知与VLM失败预判的组合,能精准捕捉失败高发的转换节点,实现主动纠正 [31] 2. MBR解码是VLA有效的零样本测试时缩放策略,无需额外训练即可提升成功率,对欠训练模型友好 [31] 3. 扩展动作维度的微调方式轻量高效,无需重构VLA架构 [31] - **局限**: 1. 回溯机制依赖“状态可逆”假设,在动态环境或不可逆操作中可能失效 [31] 2. MBR解码需要多次前向传播,对高控制频率的接触密集型任务,效率有优化空间 [31] 3. 实验暂基于仿真环境,真实机器人硬件的适配和验证需后续补充 [31]
打破机器人高门槛!1.98万双臂人形机器人,带你体验具身智能新革命!
具身智能之心· 2026-01-06 12:00
点击下方 卡片 ,关注" VLAI Robotics未来 动力 "公众号 如果你还在为高昂的机器人价格而犹豫不决,或者一直在忍受"无法协同、不够智能"的机器人痛点,今天VLAI Robotics给你带来了真正的突破——X系列双臂人形 机器人,价格仅售 1.98万元起! 产品级价格,科研级性能,让具身智能触手可得! 三大核心突破,重新定义双臂机器人! 超高灵活性,精准还原人类动作 :X系列"人尺度"为核心设计理念,单臂搭载 7 个基础运动自由度与 1 个夹爪控制自由度,总自由度达 8 DOF,双臂协同更是实现 16 DOF 全维度灵活操控,从肩部的自然舒展、肘部的精准弯折到腕部的灵活旋转,每一处动作都 完美还原人类上肢的自然运动轨迹 。基础版双臂可稳定承载 8kg 重物,Air 及以上版本直接将负载能力升级至 12kg ,在保持轻量化设计带来的灵活优势之余,更能精准完成各类 高精度抓取 、复杂操作任务,实用价值拉满! 仿生学技术,解决传统机器人僵硬问题 :X系列双臂机器人凭借前沿仿生运动学建模与高顺应性控制策略,实现了类人运动的自然复刻,能始终维持高精度控制, 为 远程操控、模仿学习与人机交互研究 提供核心基础 ...
正式开始学习!使用低成本机械臂复现pi0和pi0.5~
具身智能之心· 2026-01-06 08:32
文章核心观点 - 文章指出,视觉语言动作模型是当前具身智能领域急需的技术,但学习与实践门槛极高,存在数据采集困难、模型调优复杂、真机部署效果不佳等核心痛点[2] - 为应对上述挑战,具身智能之心平台联合专家推出了国内首个面向实战与求职的VLA小班课,旨在通过系统化、软硬结合的课程,帮助学习者快速掌握从数据到部署的全栈技能,节省“踩坑”时间,并提升求职竞争力[4][5][6] 课程内容与结构 - 课程共分九章,内容全面覆盖VLA基础、机械臂硬件、数据采集、主流模型部署、仿真环境、模型轻量化、世界模型融合、模型评测以及产业趋势分析[8][9] - 课程将详细讲解并复现ACT、GR00T N1/N1.5系列、π0/π0.5/π0-fast等主流VLA模型,涵盖环境配置、核心代码、训练推理及真机效果验证[15] - 课程包含仿真环境搭建与联动、模型量化与蒸馏实战、VLA与世界模型融合的框架详解与复现,以及主流评测基准的实战演练[15][16] 课程特色与资源 - 课程采用“软硬结合”方式,购买课程的学员将获赠一套SO-100机械臂,包含示教臂和执行臂,用于真机实践[16] - 课程基于SO-100机械臂和LeRobot平台,复现了多种主流VLA方法,以解决学习者缺乏真机、不知如何上手的问题[4] - 讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,并在顶级期刊发表学术论文10余篇[20] 目标人群与学习要求 - 课程面向正在具身领域求职、需要实战项目的同学,VLA领域的入门进阶者,从事具身智能研究的本硕博学生,以及希望从传统CV、机器人或自动驾驶领域转行进入具身智能的人员[21][24] - 学习基础要求包括:一定的Python和PyTorch基础,建议使用RTX 3060及以上显卡进行推理,使用2张以上RTX 3090 Ti进行训练,或自租云服务器资源[24] 学习收获与安排 - 完成课程后,学员将能掌握真机调试与数据采集、各类VLA算法在真机上的部署、对VLA模型的量化有深入了解,并对具身产业落地有清晰认识,简历上可获得足够多的项目支撑[24] - 课程宣称学完可达到1-2年以上的算法工程师经验水平[25] - 课程将于2025年12月30日正式开课,按章节分阶段进行至2026年2月25日[25]
Vbot Lab:有生命力的具身智能“行为基础大模型”
具身智能之心· 2026-01-06 08:32
文章核心观点 - 现有四足机器人(机器狗)普遍缺乏“灵性”和“生命力”,其核心问题在于传统控制范式采用“一个动作一个策略”的模式,导致动作切换生硬,难以适应真实、连续的人机交互场景 [4][6][9] - 为解决此问题,公司提出了一套全新的“四足行为基础模型”范式,旨在通过构建统一动作隐空间、利用海量非结构化数据以及引入残差动力学适配技术,赋予四足机器人连续、流畅、富有表现力且能零样本泛化的通用运动能力,使其真正融入生活 [10][11][34] 现有四足机器人的局限性 - **动作模式单一且割裂**:传统四足控制擅长单一任务的稳健执行,主流做法是“一个动作一个策略”(如后空翻、跳高、作揖各自单独训练),导致动作之间的自然衔接被忽视 [6][7] - **缺乏连续性与灵性**:单一动作模式使机器人动作转换生硬,难以展现连续、流畅且富有情感表达力的复杂行为,失去了生物体应有的灵性 [9] - **与真实场景需求脱节**:在真实环境与人一起活动的场景中,用户更在意一起活动的连续性和稳定性,而非某个单项动作的极限指标 [8] 四足行为基础模型解决方案 - **核心范式**:提出一套全新的四足行为基础模型范式,将最前沿的全身运动追踪技术系统化迁移到四足平台,打通从高维数字资产到实体物理环境的高保真落地路径 [11] - **三大核心要点**: 1. **海量非结构化数据注入**:构建高效的动作重定向管线,深度集成3A游戏与影视动画中的大规模、非结构化动作资产,并引入动作设计师编排的原创素材,协同艺术表现力与工程可落地性 [11] 2. **统一动作隐空间**:依托条件变分自编码器等生成式架构,将成千上万种动作模态压缩至连续隐空间,实现运动原语的解耦与融合,为单一通用策略提供统一表达 [11] 3. **残差动力学适配**:引入残差动力学适配技术,弥补虚拟艺术动作与真实物理环境之间的动力学鸿沟,确保单一通用策略的鲁棒性 [11] 技术实现路径 - **第一步:构建跨域动作数据集** - **突破**:构建了行业首个跨域四足动作数据集,解决了四足领域长期缺乏高质量动作数据集的瓶颈 [13][14] - **方法**:以数字动作资产为规模化底座,融合动作设计师创作编排的素材,形成覆盖广、风格丰富的动作谱系,并建立面向运动学与动力学一致性的重定向框架,解决异构映射难题 [16] - **第二步:算法迁移与通用策略学习** - **技术迁移**:将人形机器人最前沿的全身运动追踪技术栈适配并优化至四足构型,摒弃“一个任务一个策略”的传统强化学习范式 [22] - **通用策略训练**:分为两个阶段: 1. **通用策略**:通过运动学解析提取参考轨迹,并引入动力学可行性过滤机制,确保生成轨迹具备可执行的物理基础 [23] 2. **基于残差学习的仿真到现实适配**:采用“基础策略网络+残差策略网络”的双层控制架构。基础网络负责生成富有生命力的姿态语义;残差网络作为适配器,在真实数据回放驱动下训练,专注于处理高频非线性扰动,消除仿真与现实间的差距 [25][27] - **第三步:跨模态动作合成** - **目标**:在通用策略与统一隐空间基础上,探索多模态输入对机器人行为的驱动能力,实现“闻歌起舞” [29] - **音频驱动编舞框架**:提出音频-动作映射框架,利用预训练潜空间的流形连续性,将音频信号实时转化为机器人运动轨迹 [29] - **具体实现**: 1. **风格映射**:实时提取输入音频的梅尔频谱与能量特征,通过轻量级网络将其投影为潜空间中的轨迹序列,实现从“音乐情绪”到“动作语义”的自动映射 [32] 2. **时序对齐**:引入动态时间缩放系数,通过节拍追踪算法提取音频相位信息,实时调制策略网络输入相位,使运动节律与音频信号保持稳定对齐,实现真正的生成式编舞 [33] 方案成果与意义 - **打通技术链路**:该行为基础模型方案成功打通了从“数字艺术”到“实体物理”的具身智能链路 [34] - **赋予新能力**:机器人不再仅被动执行避障或行走,而是获得了零样本的即兴表现能力,在保持高动态运动天赋的同时,赋予了机器狗如生物般灵动、多变的通用行为能力 [34]
空间智能终极挑战MMSI-Video-Bench来了
具身智能之心· 2026-01-06 08:32
文章核心观点 - 上海人工智能实验室等机构联合推出了一个名为MMSI-Video-Bench的全面、高挑战性的视频空间智能评测基准,旨在系统评估多模态大语言模型在真实物理世界中的空间理解与推理能力 [1] - 该基准评测结果显示,当前主流多模态大模型在空间智能方面表现普遍不佳,与人类水平存在巨大差距,揭示了模型在空间构建、运动理解、规划、预测及跨视频推理等多个核心能力上存在显著瓶颈 [10][14] - 研究通过深入错误分析指出,几何推理能力不足是模型表现不佳的关键原因,并且即使引入3D空间线索或思维链提示等辅助方法,也未能显著提升模型性能,表明底层推理能力本身存在根本性不足 [16][18][26] 基准设计与特点 - **全面系统的题型设计**:基准从基础空间感知(空间构建、运动理解)和高层决策(规划、预测)两个层面,构建了覆盖感知、推理与决策全过程的评测体系 [5][6][7] - **五大任务与十三子类**:基准由五大任务类型和13个子类问题构成,全面检验模型能力 [9] - **高质量问题集**:所有问题由11位平均研究年限超过2.5年的3D视觉研究员精心设计打磨,确保了问题的清晰度、准确性和挑战性 [10] - **丰富多样的数据来源**:视频数据来源于25个公开数据集和1个自建数据集,涵盖了机器人操作、室内外场景、自然风光、体育及电影片段等多种类型,全面反映真实世界的复杂空间场景 [11] - **针对性能力测评**:得益于场景和任务的全面性,基准可划分出室内场景感知、机器人和定位三大子基准,方便进行针对性能力测评 [11] 评测结果与模型表现 - **整体表现低下**:对25个主流多模态模型的评测显示,整体得分普遍偏低,表现最优的Gemini 3 Pro准确率仅为38.0%,与人类水平(96.4%)存在接近60%的显著差距 [10][14] - **关键能力瓶颈**:模型在空间构建能力上普遍不足,同时在运动理解、规划、预测以及跨视频推理等能力上也存在明显瓶颈 [14] - **最具挑战的任务**:在所有任务类型中,预测(Prediction)是最具挑战性的主任务,而相机-实体之间的空间关系建模是难度最高的细分类别 [14] - **微调模型泛化能力有限**:即使是经过专门空间任务微调的模型,其能力也未能有效泛化到MMSI-Video-Bench基准上 [14] 错误分析与能力瓶颈 - **五大错误类型**:研究团队将模型错误归纳为五大类型:细致定位错误、ID匹配错误、潜在逻辑推断错误、提示输入对齐错误和几何推理错误 [16] - **核心瓶颈是几何推理**:几何推理错误是最为普遍且影响最大的错误类型,空间构建任务的低表现主要源于几何推理能力不足 [18] - **其他任务的具体困难**:在运动理解任务中,模型难以在快速、细微或长时间跨度的运动中保持精确定位;在规划与预测任务中,模型无法有效结合提示信息与视频进行联合推理;跨视频推理任务的失败则源于多目标跨视频定位的复杂性和利用潜在线索的困难 [20] 辅助方法的局限性 - **辅助方法效果有限**:研究尝试引入3D空间线索(通过3D重建模型生成全局图像)和思维链提示来辅助模型,但均未能带来显著的性能提升 [21][25][26] - **揭示的根本问题**:这些结果表明,如何设计模型真正“可理解、可利用”的空间线索仍是一个开放挑战,且当前模型的失败主要受限于底层推理能力本身的不足,而非缺乏显式推理步骤 [26]
一个近300篇工作的综述!从“高层规划和低层控制”来看Manipulation任务的发展
具身智能之心· 2026-01-06 08:32
文章核心观点 - 机器人操纵作为具身智能的核心难题,正因大型基础模型的出现而迎来变革,其技术框架可统一为“高层规划”与“低层学习型控制”两大模块的协同体系 [1] - 当前技术突破在于基础模型提升了机器人的感知与语义泛化能力,使其能基于自然语言指令在非结构化环境中工作,但规模化落地仍面临通用架构缺失、数据瓶颈、物理交互不足及安全协作等核心挑战 [1][23][26] - 未来研究方向聚焦于构建通用机器人架构、破解数据困境、强化多模态物理交互以及保障安全协作,以推动机器人操纵从实验室走向真实复杂场景 [30][31] 高层规划:任务解构与决策引导 - 高层规划负责明确动作意图、时序组织及环境注意力分配,其核心是融合多模态信息解决“做什么”和“按什么顺序做”的问题,包含六大核心组件 [4] - **基于LLM的任务规划**:以大型语言模型为核心实现自然语言到任务步骤的映射,早期方法如SayCan选择可执行技能,进阶方案如Inner Monologue引入闭环反馈实现动态调整,LLM+P和REFLECT强化了长时程推理与失败处理 [5] - **基于MLLM的任务规划**:联合视觉与语言进行推理,PaLM-E通过机器人具身数据与视觉语言模型共训练实现端到端任务推理,VILA直接复用GPT-4V能力无需微调,机器人专用MLLM如RoboBrain、Gemini Robotics在具身基准测试中表现优于通用模型 [8] - **代码生成**:将规划转化为可执行程序以弥补语言计划的精度缺陷,Code as Policies通过暴露API让LLM生成控制代码,Demo2Code、SHOWTELL支持从演示中提炼程序,Statler、HyCodePolicy通过维护世界状态提升闭环控制鲁棒性 [9] - **运动规划**:利用LLM或视觉语言模型生成连续运动目标以衔接高层推理与低层轨迹优化,VoxPoser构建语言-视觉条件的3D价值图提供优化目标,CoPa、ManipLLM融入物理先验确保可行性,ReKep通过关系关键点实现自主轨迹生成 [10] - **可用性学习**:聚焦“物体能做什么”,从几何、视觉、语义及多模态四个维度学习物体的交互可能性,为操纵决策提供先验知识 [11] - **3D场景表征**:将环境感知转化为结构化动作提案,通过高斯splatting实现可编辑的3D场景表示支持抓取候选生成,借助神经描述场等隐式表征编码几何与语义信息,实现少样本姿态迁移等任务 [12] 低层学习型控制:动作生成与执行落地 - 低层控制负责将高层规划转化为精准物理动作,解决“怎么做”的问题,从学习视角可拆解为学习策略、输入建模、潜态学习、策略学习四大核心组件 [14] - **学习策略**:定义技能获取的核心范式,主要分为三类:强化学习(包括无模型方法如QT-Opt、PTR和有模型方法如Dreamer、TD-MPC)、模仿学习(包括基于动作的模仿如行为克隆和基于观察的模仿)以及辅助任务学习(如世界建模和目标提取) [16][18] - **输入建模**:定义多模态感知的融合方式,主要包括:视觉-动作模型(基于2D视觉如Diffusion Policy或3D视觉如RVT)、视觉-语言-动作模型(整合语义时空信息,如RT-2、OpenVLA、SpatialVLA)以及触觉/力/音频等额外模态(如T-DEX融合触觉信号提升接触-rich操纵的鲁棒性) [19][20] - **潜态学习**:负责从输入数据中获取鲁棒通用的表征并优化其向动作的解码,包括在通用数据上预训练视觉编码器,以及将动作抽象为离散token(如VQVLA)或连续向量(如MimicPlay、LAD)以平衡泛化性与执行精度 [21][24] - **策略学习**:定义将表征解码为可执行动作的模型架构,主流范式包括:结构简单的MLP-based策略、利用注意力建模时序依赖的Transformer-based策略(如ACT)、通过迭代去噪生成多模态轨迹的扩散策略以及提升推理速度与平滑度的流匹配策略 [25] 核心挑战与未来方向 - **通用架构缺失**:现有方法多针对特定任务或机器人形态,缺乏能适配多样模态、载体及任务的通用基础模型,且长时程执行中易出现误差累积,难以维持稳定表现 [26] - **数据与仿真瓶颈**:真实世界机器人数据采集成本高、规模有限,而仿真环境与真实场景存在差异,导致模型迁移性能不佳,缺乏高效的数据循环机制 [27] - **多模态物理交互不足**:当前方法以视觉为中心,对触觉、力等物理交互信号的融合不够充分,难以应对可变形物体、复杂材料等接触动力学主导的场景 [28] - **安全与协作问题**:在人机共存环境中,现有方法在满足内在安全约束、意图推理与故障恢复能力上仍有欠缺 [29] - **未来研究方向**:针对挑战明确了四大重点:构建支持灵活模态接口与载体适配的通用“机器人真脑”架构;建立自主数据采集与提炼的“数据飞轮”并提升仿真保真度;融合触觉、听觉等多模态信号以强化物理交互;设计内在安全的控制策略并建立故障恢复机制,采用“学习+经典控制”的混合范式保障可靠性 [30]
多家具身公司正在推进IPO......
具身智能之心· 2026-01-05 17:28
2025年11月15日,宇树科技IPO上市辅导工作完成,公告显示,宇树科技拟申请在境内IPO。中国证监会官网 的这一信息。 2)银河通用 2025年12月,多个媒体报道银河通用完成股改,开始筹赴港上市。 最近社区分享了几家正在IPO进程的公司,都在大考,还有许多公司正在排队准备了。这里为大家整理了下相 关内容,本次整理参考各类已经公开的内容,若有不足欢迎后台指正。 1)宇树科技 3)智元机器人 智元机器人于2025年3月完成股改,11月宣布拟赴港IPO。 2025年7月通过其持股平台计划收购科创板上市公司上纬新材63.62%的股份,被市场解读为"借壳上市"的关键 落子。尽管智元对外回应称"本次行动仅为收购控股权,不构成《重大资产重组办法》所定义的借壳上市", 但这一动作被业界视为加速上市进程的重要举措。 4)乐聚机器人 1)持续的直播分享 社区为大家准备了很多圆桌论坛、直播,从本体、数据到算法,各类各样,逐步为大家分享具身行业究竟在 发生什么?还有哪些问题待解决。 2025年10月30日,乐聚智能(深圳)股份有限公司在深圳证监局完成上市辅导备案登记,辅导券商为东方证 券。 5)云深处 2025年12月23日, ...
全职/兼职/实习!具身智能之心招募运营、编辑和销售的同学了
具身智能之心· 2026-01-05 11:30
公司业务与平台定位 - 公司运营“具身智能之心”平台,该平台是具身智能领域的技术创作平台,为行业输出前沿技术、课程、行业概况、融资、产品及政策等内容 [1] - 平台目前正处于业务上升期 [1] 公司招聘需求 - 公司面向粉丝群体招募全职及实习岗位,岗位包括编辑、运营和销售 [1] - 编辑岗位负责公众号平台的内容创作与编辑,要求应聘者具备专业基础及在知乎、公众号等内容平台的经验 [1] - 销售岗位负责平台课程、硬件等产品的销售推广,要求应聘者具备销售基础,并对具身智能用户需求与市场有一定了解 [2] - 运营岗位负责公众号、小红书、社群等渠道的运营,旨在提升粉丝粘性和关注度,要求应聘者具备运营能力并对自媒体平台玩法有认识 [3] - 实习岗位中,除编辑岗外均需线下工作 [1] 行业与平台内容 - 平台专注于具身智能领域,其产出内容涵盖该领域的前沿技术、课程、行业概况、融资动态、产品信息及政策解读 [1]