Workflow
具身智能之心
icon
搜索文档
会跳舞、能演讲!RoboPerform 让人形机器人听懂声音,即兴解锁双重技能
具身智能之心· 2026-01-07 15:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zhe Li等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 ★ 本文的主要作者来自北京智源人工智能研究院、哈尔滨工业大学、香港科技大学、上海交通大学、北京大学和悉尼大学。本文的第一作者为北京智源人工智能 研究院的实习生李哲,主要研究方向为具身智能和3D数字人。共同一作是哈尔滨工业大学的韦杨扬。本文的通讯作者为北京大学计算机学院研究员、助理教授 仉尚航和北京智源研究院研究员迟程。 行业痛点:多阶段流程带来的信息损失 当爵士乐的节拍响起,人形机器人即刻舒展肢体,抬手、转身、踏步精准踩中每一个鼓点;当演讲者的话音落下,它又能顺着语调的抑扬、话语的重音,自然抬 手、侧身、点头,用恰到好处的肢体语言强化表达。 这不是科幻电影里的片段,而是 RoboPerform 正在实现的现实。 它打破了人形机器人 "照本宣科" 的动作困境,既让机器能随音乐即兴起舞,也能配合语音生成自然手势,真正听懂声音的情 ...
从10,000小时到2天,灵初智能如何让数采效率狂飙200倍?
具身智能之心· 2026-01-07 11:33
点击下方 卡片 ,关注" 具身智能 之心 "公众号 当具身的上限被数据左右时,一定会有越来越高效的采集方案。这不仅仅是机器人领域的趋势,还是整 个以"数据为驱动"产业的基因。 具身智能行业有一个众所周知的困境,就是数据不够。 当具身智能的上限被数据锁死,一场关于"数采效率"的军备竞赛便成了必然。 这不仅是机器人学的技术演 进,更是所有"数据驱动型"产业刻在基因里的进化逻辑。 然而,理想与现实的鸿沟正横亘在每一位从业者面前。无论是基座模型还是规模化的高质量数据,都在一边 发展一边优化。 当前,在开发的不同阶段和需求下,我们看到具身智能行业大致形成了几种数采路线:UMI、真机遥操、人 类视频、仿真生成等,但它们各有限制: 机器人要完成灵巧操作的学习,必须要从训练数据中找到线索。这个线索可以是抓取的力量、目标物体 的纹理与颜色、每个指头的协调运动以及不断的视角切换。 机器人若要习得真正的"灵巧",必须从数据中寻得线索。 如果我们要求机器人像人一样思考,就必须先赋予 数据"人性"的颗粒度。 近期,灵初智能一套便携式外骨骼穿戴设备的出现,正试图打破僵局。拟人臂、触觉手套、同构外骨骼…… 这不仅是硬件的升级,更是将数采维 ...
老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛
具身智能之心· 2026-01-07 11:33
文章核心观点 - 英伟达在CES 2026上发布了一系列面向物理AI和Agentic AI的新产品与平台,标志着其战略重心从游戏显卡全面转向AI,并将技术护城河从芯片层拓展至全栈平台层(模型+数据+工具)[1][2][6][9] 下一代数据中心架构:Vera Rubin - 正式推出下一代AI数据中心机柜架构Vera Rubin NVL72,其六大核心组件包括Vera CPU、Rubin GPU、NVLink 6 switch、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6 Ethernet switch[14][15] - Rubin GPU在NVFP4数据格式下,推理性能达50 PFLOPS,是Blackwell GB200的5倍;训练性能达35 PFLOPS,是Blackwell的3.5倍[4][17] - 每颗Rubin GPU封装8组HBM4内存,提供288GB容量和22 TB/s带宽[18] - 引入NVLink 6用于规模内扩展网络,单GPU互连带宽达3.6 TB/s(双向),每个机架配备9颗交换芯片,总规模内带宽达260 TB/s[20][21] - Vera CPU集成88个定制Olympus Arm核心,最多可同时运行176个线程,其与GPU的NVLink C2C互连带宽达1.8 TB/s,可寻址最多1.5 TB的LPDDR5X内存[22] - 推出基于Spectrum-6芯片的共封装光学以太网交换机,用于机架扩展,其中SN688提供409.6 Tb/s总带宽,SN6810提供102.4 Tb/s总带宽[24][25][26][27] - 推出BlueField-4 DPU,构建推理上下文内存存储平台,旨在高效共享与复用键值缓存数据,提升系统响应与吞吐[32][34] - 每个Vera Rubin NVL72机架可提供3.6 exaFLOPS的NVFP4推理性能、2.5 exaFLOPS的NVFP4训练性能、54 TB的LPDDR5X内存以及20.7 TB带宽达1.6 PB/s的HBM4内存[36][37] - 与Blackwell相比,Vera Rubin训练MoE模型所需GPU数量仅为四分之一,在MoE推理场景下每token成本最高可降低10倍[36] - 用于构建该机架的六类芯片已全部从晶圆厂交付,预计2026年下半年启动规模化量产[38] 自动驾驶开源模型与生态 - 发布全新开源模型系列Alpamayo,面向安全推理的自动驾驶,其中Alpamayo 1是全球首款开源、大规模的自动驾驶视觉-语言-行动推理模型,参数为100亿[39][41] - 模型接收车辆运动历史、多摄像头实时视频和用户指令,输出驾驶决策、因果推理结果和行驶轨迹[42] - 配套发布开源仿真框架AlpacaSim,以及一个包含1700小时驾驶数据的开源数据集,数据涵盖全球广泛地理区域与复杂边缘场景[44][45] - Alpamayo将率先搭载于2025年第二季度欧洲上市的梅赛德斯-奔驰CLA车型,后续通过OTA升级推送更多自动驾驶功能[45] - 展示了基于自身技术构建的全球L4级自动驾驶与Robotaxi生态系统全景,覆盖软件开发商、整车厂/出行平台、硬件供应商全产业链[47] AI智能体与多模态模型 - NVIDIA Nemotron模型家族推出针对语音、RAG以及安全三大场景的专项模型[49] - Nemotron Speech包含新的自动语音识别模型,支持实时低延迟场景如实时字幕生成,速度比同类模型快10倍,已被博世采用[51][52] - Nemotron RAG搭载新的视觉语言模型,能精准处理多语言、多模态数据以提升文档搜索效率[53] - Nemotron Safety系列模型专注于增强AI应用安全性与可信度,包括内容安全模型和检测敏感数据的PII模型[53] 物理AI与机器人平台 - 为机器人推出的“大脑”Cosmos平台升级,全新发布Cosmos Reason 2(视觉-语言推理模型)、Cosmos Transfer 2.5与Cosmos Predict 2.5(合成视频生成模型)[56][60] - 发布Isaac GR00T N1.6,一款专为类人机器人打造的开源视觉-语言-行动推理模型,支持全身控制并集成Cosmos Reason模型[61] - 发布NVIDIA AI Blueprint for Video Search and Summarization,提供参考工作流以构建能分析大量录播及直播视频的视觉AI智能体[61] - Cosmos平台已被Figure、Agility Robotics、通用汽车等公司采用,其模型正被Salesforce、Uber等企业用于开发AI智能体[54][58] 医疗健康与生命科学AI - NVIDIA Clara是专门针对医疗健康与生命科学领域的AI技术工具,旨在降低行业成本、加速治疗方案落地[62][63] - 该系列包含多款专项模型:La-Proteina(设计大型蛋白质)、ReaSyn v2(药物生产考虑)、KERMT(预测药物人体反应)、RNAPro(预测RNA 3D结构)[64][69] - 将为研究者提供包含45.5万个合成蛋白质结构的数据集[66] 开源与生态建设 - 宣布持续向社区开源训练框架以及多模态数据集,数据集包括10万亿语言训练token、50万条机器人轨迹数据、45.5万个蛋白质结构、100TB车辆传感器数据[5] - 演讲中提及国产开源模型DeepSeek、Kimi K2、Qwen,体现了对全球开源生态的关注[11][12]
CycleVLA:让 VLAs 具备“预判初期失败、回溯重试恢复”的能力
具身智能之心· 2026-01-07 11:33
机器人执行任务时,失败往往难以挽回——比如抓取物体时姿势偏差导致物体掉落,或长序列任务中错误累积最终导致执行崩溃。传统方法大多采用"事后纠正"模 式:只有在失败发生后才分析错误并补救,而人类的纠错方式是"主动预判"——比如杯子刚要滑落时立刻握紧,车辆即将偏离车道时提前调整方向,在失败完全显 现前就介入修正。 这一差异揭示了现有视觉-语言-动作模型(VLAs)的关键局限:缺乏对子任务进度的感知能力,无法识别失败高发的子任务转换节点,且重试机制效率低下。为 此,CycleVLA 提出一套主动自纠正框架,核心目标是让 VLAs 具备"预判初期失败、回溯重试恢复"的能力,尤其针对长 horizon 任务和欠训练模型的性能短板。 二、核心设计:三大模块构建主动自纠正循环 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Chenyang Ma等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 一、 CycleVLA的 核心背景与动机 CycleV ...
当我们把VLA+RL任务展开后......
具身智能之心· 2026-01-06 18:00
如果说今年哪个方向最受欢迎,一定是VLA+RL。 VLA模型为具身智能带来了新的交互范式:机器人不再依赖精确定义的状态和规则,而是通过视觉感知环 境、理解语言指令,并直接生成动作序列。这一能力极大地降低了任务描述和系统设计的门槛,使机器人 能够应对更加开放和复杂的场景。 然而,在真实机器人系统中,VLA 往往仍然面临执行不稳定、对初始状态敏感、长时序任务易失败等问 题,其核心原因在于模型缺乏基于环境反馈的持续修正能力。 强化学习的出现为VLA带来了新的解决思路。RL并不是一门新的学科,但RL的优势为VLA提供了从"理 解"走向"执行优化"的关键机制。通过引入奖励或价值信号,RL可以在保持VLA感知与语言能力的同时,对 动作策略进行闭环优化,弥补模仿学习在分布外状态和误差累积上的不足。 当前的研究趋势也逐渐从"单纯训练 VLA 模型"转向"以 VLA 作为策略表示,结合RL进行微调和强化",包 括离线 RL 提升样本效率、层级 RL 约束长时序行为,以及基于视觉和语言的自监督反馈建模等方向。 方法上,目前VLA+RL主要分为在线RL、离线RL、test-time三种方案。 paper多,想入坑的人也多了起来.. ...
打破机器人高门槛!1.98万双臂人形机器人,带你体验具身智能新革命!
具身智能之心· 2026-01-06 12:00
点击下方 卡片 ,关注" VLAI Robotics未来 动力 "公众号 如果你还在为高昂的机器人价格而犹豫不决,或者一直在忍受"无法协同、不够智能"的机器人痛点,今天VLAI Robotics给你带来了真正的突破——X系列双臂人形 机器人,价格仅售 1.98万元起! 产品级价格,科研级性能,让具身智能触手可得! 三大核心突破,重新定义双臂机器人! 超高灵活性,精准还原人类动作 :X系列"人尺度"为核心设计理念,单臂搭载 7 个基础运动自由度与 1 个夹爪控制自由度,总自由度达 8 DOF,双臂协同更是实现 16 DOF 全维度灵活操控,从肩部的自然舒展、肘部的精准弯折到腕部的灵活旋转,每一处动作都 完美还原人类上肢的自然运动轨迹 。基础版双臂可稳定承载 8kg 重物,Air 及以上版本直接将负载能力升级至 12kg ,在保持轻量化设计带来的灵活优势之余,更能精准完成各类 高精度抓取 、复杂操作任务,实用价值拉满! 仿生学技术,解决传统机器人僵硬问题 :X系列双臂机器人凭借前沿仿生运动学建模与高顺应性控制策略,实现了类人运动的自然复刻,能始终维持高精度控制, 为 远程操控、模仿学习与人机交互研究 提供核心基础 ...
正式开始学习!使用低成本机械臂复现pi0和pi0.5~
具身智能之心· 2026-01-06 08:32
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近看到了很多HR的职位需求,list很长,但VLA算法是很"急需"。这一点,也体现在论文数量上。每天带着很多 小朋友看论文,也几乎都和VLA"挂钩"。 ❝ 但VLA貌似"很伤",不好调,数据采集麻烦。这个事情,是很多同学持续在吐槽的。 只看论文而没有真机实验,在仿真里面做了好久,也不知道动起来啥样子。确实,具身和其它领域都有所不同,太 注重本体,即使是算法也极其依赖硬件。 ❝ 不少同学说,相当多的时间"浪费"在踩坑上了。 确实,真实数据采集上,需要借助硬件完成,比如遥操、VR、全身动补等方式。仿真和互联网数据,在泛化性能上 依然得不到保证,很多具身公司坚持"真机数据"路线。但真机数据采的数据并不好用,该怎么办?一轮下来又需要 好久。 模型优化上也很难顶,有的效果就是调不出,或者说训练不出效果。有些算法就是没效果,不知道怎么分析,真机 上一塌糊涂 ...
Vbot Lab:有生命力的具身智能“行为基础大模型”
具身智能之心· 2026-01-06 08:32
>> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 以下文章来源于具身纪元 ,作者Vbot算法团队 具身纪元 . 见证具身浪潮,书写智能新纪元 作者丨 Vbot算法团队 编辑丨 具身纪元 点击下方 卡片 ,关注" 具身智能之心 "公众号 现有的四足机器人为什么很难有生命力? 我们常见的机器狗,在用户面前展现的都是极限运动能力。 似乎缺少了那么一点点灵性。 其中一个原因是,传统的四足控制擅长单一任务的稳健执行,对多动作切换不友好。 主流做法是:一个动作一个策略——后空翻、跳高、作揖各自单独训练和调参,动作之间的自然衔接就是无人关注的角落了。 这样一来,在大家看这些动作时,就像是看一个个不太连贯的镜头剪辑。 而对于在真实环境里与人一起活动的场景(而不是观看机器人表演的场景)来说,用户更在意的是一起活动的连续性和稳定性,而不是某一个单项动作的极限指标。 单一动作模式让机器人具备了执行指令的功能,却失去了生物体应有的灵性,导致动作转换生硬,难以展现出连续、流畅且富有情感表达力的复杂行为。 打造一个有灵性的具身智能,才是 ...
空间智能终极挑战MMSI-Video-Bench来了
具身智能之心· 2026-01-06 08:32
编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 空间理解能力是多模态大语言模型(MLLMs)走向真实物理世界,成为 "通用型智能助手" 的关键基础。但现有的空间智能评测基准往往有两类问题:一类高度依 赖模板生成,限制了问题的多样性;另一类仅聚焦于某一种空间任务与受限场景,因此很难全面检验模型在真实世界中对空间的理解与推理能力。 要真正走入现实世界,模型不仅需要看得见,更要看得懂空间: 它需要在复杂、多变的真实场景中理解空间布局、感知运动变化、进行时空推理,并基于这些信 息做出合理决策,与环境产生有效交互。 为此, 上海人工 智能 实 验室 Inter nRobotics 团队 近日推出了一套 全面而硬核的空间智能视频基准 —— MMSI-Video-Bench ,对当前主流多模态大模型精心打 造了一场挑战系数极高的 "空间智能大考"。 本工作由上海人工智能实验室、上海交通大学、香港中文大学、浙江大学、香港大学、北京航空航天大学、西安交通大学、 ...
一个近300篇工作的综述!从“高层规划和低层控制”来看Manipulation任务的发展
具身智能之心· 2026-01-06 08:32
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在具身智能领域,机器人操纵作为核心难题,随着视觉、语言及多模态学习的飞速发展迎来变革。大型基础模型的出现,大幅提升了机器人的感知与语义表征能 力,使其能在非结构化环境中基于自然语言指令完成任务。由西安交通大学、香港科技大学(广州)等多所高校联合撰写的综述,以 "高层规划 + 低层控制" 的统一 框架,系统梳理了基于学习的机器人操纵方法,明确了当前技术瓶颈与未来方向,为该领域的研究提供了全面且结构化的参考。 论文名称:Embodied Robot Manipulation in the Era of Foundation Models: Planning and Learning Perspectives 论文链接:https://arxiv.org/pdf/2512.22983 项目链接:https://github.com/BaiShuangha ...