Workflow
具身智能之心
icon
搜索文档
梁文锋,Nature全球年度十大科学人物!
具身智能之心· 2025-12-10 08:03
文章核心观点 - 权威科学期刊《自然》公布2025年度十大科学人物榜单,两位中国科学家梁文锋和杜梦然入选,分别代表了人工智能和深海科学领域的重大突破与影响力 [1][6][7] 梁文锋与DeepSeek入选详情 - 梁文锋因DeepSeek模型对AI领域的重要贡献与变革性影响入选,被《自然》形容为“科技颠覆者” [3][4] - 其金融从业者背景被提及:在投资界声名鹊起后,创立了DeepSeek [4] - 梁文锋为人低调,拒绝了《自然》的采访请求,其模型开放程度与个人神秘程度形成对比 [5] DeepSeek的技术与行业影响 - 年初DeepSeek的横空出世给整个AI行业带来了冲击 [8] - 凭借出色的“性价比”策略,将模型成本降至行业难以置信的水平,并提升了国产大模型在全球社区的技术声量 [9] - 证明了不一定要堆数据、堆参数、堆服务器,也能做出具备一线水准能力的大模型 [10] - 近期发布并开源了V3.2系列模型,在Agent评测中达到了当前开源模型的最高水平 [11][12] 梁文锋的个人背景与职业轨迹 - 1985年出生于广东湛江,17岁以“高考状元”成绩考入浙江大学电子信息工程专业,后攻读同专业研究生,师从项志宇教授研究机器视觉 [14][16] - 2008年毕业后投身量化投资创业,2010年乘沪深300股指期货推出的东风,团队自营资金很快超过5亿元 [17] - 2015年与校友共同创立幻方量化,一年后推出首个AI模型,使用GPU生成并执行交易仓位 [18] - 2021年,幻方量化成为国内首家突破千亿规模的量化私募,被称为“四大天王”之一 [19] - 2023年5月,瞄准通用人工智能,成立独立组织“深度求索”,DeepSeek项目正式启动 [21] 杜梦然入选详情 - 中国科学院深海科学与工程研究所研究员杜梦然入选,被《自然》形容为“深潜者” [22][23] - 入选理由:在2024年,于日本东北部的千岛—堪察加海沟底部,使用“奋斗者号”载人潜水器发现了地球上已知最深的基于化学合成的生命群落,挑战了现有关于深海极端生命和碳循环的模型 [25] 杜梦然的个人背景与研究 - 1987年出生于安徽亳州,现任中国科学院深海科学与工程研究所研究员、中国科学院大学专任教师、深海科学研究部副主任 [28] - 本科毕业于中国海洋大学海洋化学专业,后获国家资助赴美国Texas A&M University攻读博士学位 [29][31] - 主要研究方向为深海深潜科学与探测技术,包括深海流体释放研究和深海原位实验与探测技术 [33] - 曾跟随“蛟龙”号、“深海勇士”、“奋斗者”号载人潜水器下潜20余次,研究成果发表于《Science》等顶级期刊 [33] 其他入选者概览 - Susan Monarez:前美国CDC主任,因坚守科学底线被解职,引发对科学独立性的反思 [35] - Achal Agrawal:印度自由数据科学家,通过揭露学术不端推动印度国家院校排名体系改革 [36] - Tony Tyson:薇拉·鲁宾天文台的构想与推动者,该望远镜将用于透视暗物质与宇宙演化 [37] - Precious Matsoso:成功引导WHO近200个成员国就首份《全球大流行病条约》草案达成一致 [38] - Sarah Tabrizi:亨廷顿病研究领军人物,其团队在基因疗法临床试验中取得延缓疾病进程的关键证据 [39] - Luciano Moreira:在巴西建造全球最大“蚊子工厂”,通过生物防控有效降低登革热发病率 [40] - Yifat Merbl:从蛋白酶体中发现由数千种潜在抗菌肽构成的新免疫防御系统 [41] - KJ Muldoon:身患超罕见病,在六个月大时接受首例高度个性化的CRISPR基因编辑疗法 [42]
扒了一下今年各家具身公司的量产情况和订单金额......
具身智能之心· 2025-12-09 11:44
文章核心观点 - 文章对2025年全球具身机器人行业的量产交付情况进行了调研,汇总了多家头部公司的订单、营收及产能规划,显示行业正从研发测试迈向规模化商业落地 [1][5][6] 全球头部公司订单与量产情况 - **宇树科技**:未透露具体订单量,但年度营收预计超过12亿元人民币 [7] - **智元机器人**:截至12月8日,量产机器人数量累计达5000台,产品应用于娱乐、制造、物流及科研 [8] - **优必选机器人**: - 近期拿下广西防城港2.64亿元订单,使用Walker S2机器人 [10] - 4月24日拿下全球首份小批量具身智能人形机器人采购合同,交付工业版Walker S1和商用版Walker C [10] - 9月,Walker S2获得某国内企业2.5亿元订单,刷新全球人形机器人单笔合同纪录 [11] - 10月、11月,Walker S2再获广西1.26亿元、四川自贡1.59亿元、江西九江1.43亿元订单 [11] - 截至11月,Walker系列全年累计规模化订单达13亿元 [12] - 目前工业人形机器人产能为每月300台,预期2025年交付量将超过500台 [12] - **特斯拉Optimus**: - 计划于2025年12月底完成约5000台Optimus V3试生产并小规模交付 [14] - 2026年第一季度计划大规模量产,年产能目标5-8万台,2026年底前产能达10万台,2027年目标百万台量产 [14] - **智平方**:9月11日,与深圳慧智物联达成战略合作,计划未来三年内在惠科全球生产基地累计部署超1000台具身智能机器人 [15] - **星尘智能**:9月2日,与上海仙工智能达成人形机器人千台级订单战略合作,采用“核心部件+整机应用”模式 [17] - **松延动力**:2025年预计全年订单量突破2500台(高仿生机器人+教育科研机器人),订单金额超1亿元 [20] - **原力无限**:10月,与时华文旅控股集团签署战略合作协议,项目金额高达2.6亿元人民币 [22] - **众擎机器人**: - 2025年7月完成Pre-A++与A1轮融资,金额近10亿元 [24] - 3年内预计交付2000台,已公开订单包括与多伦科技的2000台具身智能机器人三年框架采购协议 [24] - **乐聚机器人**: - 年内交付节奏从“百台级”迈向“近千台级” [24] - 1月17日完成第100台全尺寸人形机器人交付(北汽越野车),一季度交付近300台(同比翻倍) [24] - 9月25日完成“人形机器人数据训练中心二期”100台“夸父”交付(订单金额8295万元) [24] - 公司全年交付目标预计为2000台 [24] 行业巨头动态与产能规划 - **现代汽车与波士顿动力**:现代汽车承诺在其制造和物流业务中部署数万台机器人,包括Atlas人形机器人、Spot四足机器人和Stretch集装箱卸货机器人,并将整合其汽车制造专业生产能力以助力波士顿动力扩大产量 [2][4]
NeurIPS'25 | 港大×达摩院HiMaCon:泛化失败不在于策略学习不足,而在于缺乏"操作概念"
具身智能之心· 2025-12-09 08:05
文章核心观点 - 香港大学与阿里巴巴达摩院联合提出了一种名为HiMaCon的新方法 旨在通过完全自监督的方式从多模态机器人演示数据中发现层级化的操作概念 以解决机器人策略在分布外场景泛化失败的根本问题[3][4] - 该方法的核心理念是 机器人要实现泛化 必须像人类一样先学习抽象的操作概念 再学习具体动作 而非传统端到端方法那样直接从像素和动作中学习容易过拟合的策略[4] - HiMaCon通过两大自监督机制——跨模态关联网络和多时域未来预测器——使机器人能够自动发现可跨物体、场景和视觉变化保持稳定的类人操作概念 并形成自然的层级结构[6][9][12] - 实验表明 将HiMaCon发现的概念作为表征增强模块集成到策略网络中 能显著提升机器人在模拟环境和真实场景中的任务成功率与泛化能力 特别是在训练中从未出现的复杂情况下表现突出[18][20][23][24] HiMaCon方法的技术原理 - **跨模态关联网络**:通过随机遮挡部分模态(如RGB视觉、力反馈、听觉)并强制模型用剩余模态和概念表征重建全部模态 迫使概念编码捕获模态间稳定的物理依赖关系 而非易变的表面特征(如颜色、纹理)[9] - **多时域未来预测器**:根据概念潜在向量的球面距离自动分割不同时域长度的任务子阶段 并训练网络预测每个子阶段的终止状态 使概念表征能编码多时域的进度信息 从而自然形成涵盖粗、中、细粒度的层级化任务结构[12][17] - **概念集成方式**:HiMaCon作为概念表征增强模块 可直接作用于策略模型的中间特征 通过联合预测机制 策略网络在输出动作的同时也输出HiMaCon发现的概念表征 在学习动作时同步学习概念结构 无需修改策略整体架构[18] 实验验证与性能表现 - **模拟器实验**:在LIBERO基准上进行三项评估 包括LIBERO-90(90个训练任务)、LIBERO-10(长时序组合任务)和LIBERO-GOAL(分布外环境任务) 所有操作概念仅从LIBERO-90的多模态演示中发现[19] - **模拟器结果**:如表1所示 使用HiMaCon增强的ACT策略在LIBERO-90分布内任务上的成功率为**74.8%** 高于不使用概念的基线(**46.6%**)及其他概念学习方法 在长时序任务(LIBERO-10)上 增强后的Diffusion Policy成功率高达**89.0%** 显著优于基线的**34.1%** 在分布外任务(LIBERO-GOAL)上 ACT策略成功率也达到**81.0%** 优于基线的**57.0%**[21] - **真实机器人实验**:在Mobile ALOHA平台上设计了六类难度递增的杯子收纳场景进行泛化性验证 包括新摆放位置、新颜色组合、全新物体、遮挡、障碍物、同时抓取两杯[22] - **真实场景结果**:如表2所示 尽管概念编码器和策略仅在简单场景训练 HiMaCon增强策略在所有测试场景均显著提升性能 例如在“障碍物”场景 成功率从基线的**0.0%** 提升至**20.0%** 在“同时抓取两杯”场景 从**0.0%** 提升至**13.3%** 证明了所学概念对未见过复杂情况的强大泛化能力[23][24]
全球TOP 13战队翻车实录!机器人极限求生,比科幻片还残酷
具身智能之心· 2025-12-09 08:05
文章核心观点 - 第五届ATEC科技精英赛(真实世界极限挑战赛)通过在全户外真实场景中设置高难度任务链,旨在推动机器人技术从实验室演示走向实际应用,暴露并试图解决当前具身智能在环境感知、智能决策和硬件算力三大核心瓶颈,是衡量“通用具身智能”发展现状的关键测试 [26][28][31][32][124] 赛事概况与核心理念 - 赛事名称为第五届ATEC科技精英赛(线下赛)· 真实世界极限挑战赛,由香港中文大学主办,ATEC前沿科技探索社区、北京大学、北京师范大学和蚂蚁集团共同承办 [26][30][112] - 赛事根本目的是回答行业核心问题:机器人能否真正走出实验室,进入并适应复杂的人类世界 [31] - 赛事理念是打破机器人演示的“舒适区”,通过设置真实、极限的挑战,让机器人在碰撞中暴露真正弱点,以牵引真实的技术进步 [30][32] - 蚂蚁集团作为发起单位之一,长期支持该赛事,源于其相信AGI技术发展的未来是实现机器智能与物理世界的深度融合 [32] 赛事设计的“真实”与“极限”特点 - **全户外真实场景**:比赛场地设在香港中文大学岭南体育场及小桥流水生态区,包含拱桥、山地、缓坡、石阶等多样化地形,并面临光照变化、风力波动等真实环境扰动 [36][37][38] - **强激励“无遥操”**:赛事首次在全户外真实场景中探索“无遥操”技术路径,评分规则明确奖励全自主方式,可获得10-25分的额外加分,倒逼团队开发机器人的自主决策能力 [40][44][45] - **复杂任务链设计**:赛事包含垃圾分拣、自主浇花、定向越野、吊桥穿越四大任务,考验机器人“多模态感知融合与连续决策”能力,旨在形成完整的“感知-规划-执行-反馈”闭环 [47][48][50] 暴露的三大核心技术瓶颈 - **环境感知与认知之困**:真实环境充满不确定性和高动态性,非结构化因素对算法构成巨大挑战,例如在“垃圾分拣”任务中,机器人需识别可能被油渍沾染、压变形或堆叠的物品,而不仅限于“看图识物” [52][53][54][59] - **智能决策与响应之困**:机器人缺乏“举一反三”和适应新场景的能力,例如在“吊桥穿越”任务中,木板位置每场不同,机器人需自主决策使用工具改变环境,这体现了包含判断、使用工具和规划步骤的“高级智能”需求 [60][61][64][65][67] - **硬件与算力之困**:存在“身体跟不上脑子”的问题,一方面部署LLM的高性能专用芯片不成熟,制约了大脑的实时处理能力;另一方面实现精细抓取和灵活操作的硬件技术难度高、成本高昂 [69][71][72][73] 参赛队伍表现与技术路线 - 全球共有396支队伍参赛,最终13支顶尖队伍进入线下赛,覆盖QS百强高校及985/211顶尖学府 [77] - 冠军由wongtsai(旺财)团队以434分获得,该团队由浙大学霸组成,在四个任务中均发挥超预期 [78][79][97][99] - 冠军团队技术路线未选择主流的视觉语言动作模型,而是采用传统的“视觉识别+压线规划”方案,并为机器人大脑配备了三台电脑(CPU+2个GPU),参赛设备花费高昂 [99] - 技术路线呈现多元化,端到端的大模型方案与经典的模块化方案并行推进,许多团队为保险起见会准备传统控制算法作为“兜底” [102][104][107] - 参赛队伍普遍感受到硬件能力边界成为算法发挥的瓶颈,如防水性不足的机械臂、抓地力不够的足端、算力受限的机载电脑等,迫使他们在算法上做极致优化 [108][109] 行业背景与赛事意义 - 根据国际机器人协会《2025世界机器人报告》,2024年全球共有54.2万台机器人“上岗”,其中中国以29.5万台占全球总量的54% [115][116] - 当前机器人热潮背后暗藏核心技术瓶颈,许多演示依赖后台遥控或预设程序,离“自己搞定一切”的智能相距甚远 [116][117] - 赛事是对“物理图灵测试”(即机器人在真实世界中无缝操作并展现与人无异的能力)的真实写照,清晰丈量了“无遥操”技术的现实距离 [120][121][122] - 赛事中机器人暴露的“翻车”瞬间,恰恰揭示了具身智能从“演示可行”走向“应用可靠”之间必须跨越的鸿沟,比赛过程中产生的代码、调试数据和失败经验,成为通往通用具身智能道路上的宝贵路标 [124][126]
VLA-Pilot:无需微调即可部署的VLA策略引导框架
具身智能之心· 2025-12-09 08:05
文章核心观点 - 视觉-语言-动作模型在真实世界机器人操作中潜力显著,但预训练策略在下游部署时存在性能下降问题,传统微调方法因成本高昂而难以实际应用 [2] - 提出一种名为VLA-Pilot的即插即用推理时策略引导方法,该方法无需额外微调或数据收集,即可实现预训练VLA模型的零样本部署 [2] - 实验表明,VLA-Pilot能显著提升现有预训练VLA策略的成功率,并具备跨任务、跨机器人实体的鲁棒零样本泛化能力 [2][6] 技术方案与框架 - VLA-Pilot是一个即插即用、无需微调的数据高效推理引导框架,旨在实现预训练VLA策略的零样本部署 [6] - 该框架的核心是推理时策略引导,分享嘉宾来自香港中文大学 [7] - 分享内容将涵盖VLA模型介绍以及VLA-Pilot框架的具体实现细节 [7] 实验验证与效果 - VLA-Pilot在两种不同机器人实体上,覆盖了分布内与分布外场景的六项真实世界下游操作任务中进行了评估 [2] - 实验结果显示,该框架显著提升了现有VLA策略的成功率 [2][6] 相关资源与扩展 - 相关研究论文标题为《Towards Deploying VLA without Fine-Tuning: Plug-and-Play Inference-Time VLA Policy Steering via Embodied Evolutionary Diffusion》,已发布在arXiv上 [3] - 项目设有主页,提供了更多详细信息 [3] - 关于该主题更深入的技术细节、问答及未公开内容,可在知识星球「具身智能之心」获取 [9]
自变量机器人岗位招募来啦!强化学习/世界模型/VLN/物理仿真等方向
具身智能之心· 2025-12-08 18:00
公司概况 - 公司成立于2023年12月,致力于通过研发具身智能通用大模型实现通用机器人 [1] - 创始人兼CEO王潜毕业于清华大学,是全球最早在神经网络中引入注意力机制的学者之一,博士期间在美国顶级机器人实验室参与多项机器人学习研究 [1] - 联合创始人兼CTO王昊是北大计算物理博士,曾在IDEA研究院担任封神榜大模型团队算法负责人,发布了国内首个多模态开源大模型“太乙”、首批百亿级大语言模型“燃灯”及千亿级大语言模型“姜子牙” [3] 技术路径与成果 - 公司自成立起确立了以端到端统一大模型实现通用具身智能的技术路径,坚持软硬一体同步发展 [5] - 自研的「WALL-A」模型是世界上最大规模的端到端统一具身智能基座大模型,在多个维度上超过了现有已知模型 [8] - 公司拥有大规模的数据采集团队,并坚持使用真实数据训练算法 [8] - 公司重视研发,研发占比高,博士占比高,架构扁平,以做事为主 [8] 商业化与资本认可 - 公司的技术理念和成果已获得国家级投资平台、国内外顶级投资机构与产业资本的认可 [5] - 已规划的商业化场景包括酒店、养老、物流、工业、医院等 [5] 人才招聘重点 - 公司正在招募算法、开发、部署、仿真等多个方向的优秀人才 [5] - 算法类岗位(如强化学习运控算法工程师、世界模型算法工程师)要求硕士及以上学历,具备扎实的深度学习、强化学习基础,熟悉机器人仿真平台及端到端操作模型,有顶级会议论文或竞赛获奖经历者优先 [12][13][16][17] - 仿真类岗位(如物理仿真算法工程师)要求硕士或博士学位,精通C++和Python,深入理解刚体动力学,拥有主流物理引擎使用或开发经验,具备优秀的数学功底 [20][22][23] - 部署类岗位(如大模型算法部署交付工程师)要求本科及以上学历,熟悉大模型部署流程及优化技术,具备大模型或机器人开发经验 [24][25][28] - 其他开放岗位包括产品经理、研发管理类、SLAM算法、标定等 [26]
具身智能之心课程开发&辅导类合伙人招募啦!
具身智能之心· 2025-12-08 18:00
文章核心观点 - 具身智能之心是一个具身与机器人领域的原创技术平台和社区,旨在通过汇聚行业力量,在课程研发、硬件开发、咨询服务等多个方向合作,以推动行业发展、降低开发门槛并培养人才 [1] 合作方向与内容 - **课程开发与论文辅导**:合作搭建面向初学者、企业培训和高校学科建设的课程体系,以推动行业向前发展 [2][3] - **硬件研发**:合作开发好用且性价比高的具身智能科研平台,旨在降低开发者和初学者的使用门槛 [4][5] - **咨询和培训服务**:合作承接企业端和消费者端在具身数据、本体、算法和部署等方面的咨询,以助力产业升级和人才发展,并承诺充分保护个人隐私 [6][7] 合作者要求与待遇 - **岗位要求**:期望合作者具备一定的领域工程经验,或拥有博士及以上学位并手握顶级会议论文 [8] - **工作形式**:全职和兼职均可 [8] - **待遇说明**:提供行业有竞争力的报酬,并共享行业资源 [9] 联系方式 - 感兴趣者可通过添加指定微信进行进一步咨询 [10]
这家最早做VLA的公司,首创了6臂的移动机器人~
具身智能之心· 2025-12-08 11:00
美的集团发布新型人形机器人 - 美的集团近期正式推出了行业首创的六臂轮足式人形机器人MIRO U [2][4] - 该机器人由美的集团副总裁兼首席技术官卫昶在“2025粤港澳大湾区新经济发展论坛暨21世纪科技年会”上首次正式披露 [2] MIRO U机器人的技术特点 - 机器人核心技术体系为自主研发构建 [4] - 可实现稳定升降与360度原地转体 [4] - 机械臂具备高精度灵活控制能力 [4] - 执行器支持末端多类模组的快速切换,形成多维度协同作业系统 [4] 产品设计理念与市场定位 - 机器人采用六臂轮足式构型,旨在重点突破工业场景下的作业效率 [5] - 提升工业场景作业效率被认为是人形机器人落地的关键 [5]
刚刚,英伟达CUDA迎来史上最大更新!
具身智能之心· 2025-12-08 09:11
文章核心观点 - NVIDIA发布了CUDA Toolkit 13.1,这是其CUDA平台自2006年诞生以来规模最大、最全面的一次更新,核心是引入了全新的CUDA Tile编程模型,旨在通过更高层次的抽象来简化GPU编程,特别是针对AI领域的张量计算,并提升代码对未来GPU架构的兼容性 [1][2][4] CUDA Tile 编程模型 - **核心概念与优势**:CUDA Tile是一种基于Tile(数据块)的编程模型,允许开发者在高于传统单指令多线程(SIMT)的层级编写GPU核函数 [7] 开发者只需指定数据块(Tile)及要在其上执行的数学运算,编译器和运行时环境会自动决定将工作负载分发到各线程的最佳方式,从而屏蔽了调用Tensor Core等专用硬件的底层细节 [8][9] - **组成组件**:CUDA 13.1包含两个用于Tile编程的组件:1) CUDA Tile IR,一种用于NVIDIA GPU编程的全新虚拟指令集架构(ISA);2) cuTile Python,一种新的领域特定语言(DSL),用于在Python中编写基于数组和Tile的核函数 [10] - **开发背景与目标**:随着AI工作负载演进,张量成为基础数据类型,专用硬件(如Tensor Core)日益复杂 [15] CUDA Tile的引入是为了提供一种比SIMT层级更高的新型GPU编程方式,抽象化Tensor Core及其编程模型,使编写的代码能兼容当前及未来的Tensor Core架构,简化高性能代码编写 [14][15] - **当前限制与规划**:目前CUDA Tile仅支持NVIDIA Blackwell(计算能力10.x和12.x)系列产品,开发重点聚焦于AI算法的Tile编程 [16] 英伟达计划在未来的CUDA版本中扩展对更多架构的支持、增加更多特性并引入C++实现 [16] 运行时与多进程服务(MPS)更新 - **Green Context(绿色上下文)**:这是一种轻量级的CUDA上下文替代方案,自CUDA 13.1起在运行时API中开放使用 [20][21] 它允许用户定义和管理GPU资源的独立分区(主要是流式多处理器SM),从而实现对GPU空间更细粒度的划分与资源分配,典型应用是确保高优先级、低延迟代码能获得专属的SM资源 [21] - **内存局部性优化分区(MLOPart)**:这是NVIDIA Blackwell系列及更新GPU上的一项新特性,允许基于同一物理GPU创建多个专门优化内存局部性的独立CUDA设备,每个设备拥有更少的计算资源和更小的可用内存 [25] 目前仅支持NVIDIA B200与B300系列,未来版本将加入对GB200与GB300系列的支持 [28] - **静态流式多处理器(SM)分区**:这是针对NVIDIA Ampere架构及更新GPU的MPS特性,为客户端提供创建独占SM分区的方法,旨在提供确定性的资源分配并改善客户端间的隔离性 [29] 数学库性能增强 - **cuBLAS性能更新**:CUDA 13.1增加了对FP4、FP8和BF16数据类型的性能支持 [40] 并引入了一项全新的实验性API,支持Blackwell GPU的分组GEMM功能,兼容FP8和BF16/FP16数据类型,在MoE用例中,其设备端形状可实现最高4倍的加速,优于多流GEMM实现 [41] - **cuSOLVER性能更新**:CUDA 13.1继续优化用于特征分解的批处理SYEVD与GEEV API [42] 在批大小为5,000的测试中,与NVIDIA L40S相比,NVIDIA Blackwell RTX Pro 6000 Server Edition实现了约2倍的加速 [42] 对于一般稠密矩阵特征值计算(GEEV),当矩阵行数n=5000时加速比约为1.0,在n=30000时达到约1.7 [45][46] 开发者工具更新 - **Nsight Compute增强**:增加了对CUDA Tile核函数的性能分析支持,在摘要页新增“Result Type”列以区分Tile与SIMT核函数,在详情页新增“Tile Statistics”部分总结Tile维度和管线利用率,并在源码页支持将指标映射到高层级的cuTile核函数源码 [33][35] - **编译时修补与插桩**:NVIDIA Compute Sanitizer 2025.4通过编译器标志增加了对NVCC编译时修补的支持,增强了内存错误检测能力并提升了性能 [34] 编译时插桩功能可将错误检测直接集成到NVCC中,实现更快的运行速度并通过高级分析捕捉更隐蔽的内存问题 [36] - **Nsight Systems更新**:2025.6.1版本带来了系统级CUDA追踪、CUDA主机函数追踪、默认硬件模式追踪等新功能,并在时间轴行中显示Green Context的SM分配情况以帮助理解GPU资源利用率 [41] CUDA核心计算库(CCCL)更新 - **确定性浮点运算选项**:NVIDIA CCCL 3.1为cub::DeviceReduce提供了额外的浮点确定性选项,允许用户在确定性和性能之间进行权衡 [50] 新增“GPU间”选项可保证在不同GPU间运行得到逐位相同的结果 [53] - **更便捷的单相CUB API**:CCCL 3.1为一些CUB算法添加了新的重载,允许用户跳过繁琐的临时存储查询、分配和释放两阶段调用模式,简化了API使用 [54][55]
远超基线模型!X-Humanoid:推动机器人从 “真实数据” 向 “虚拟合成 + 互联网数据” 转型
具身智能之心· 2025-12-08 09:11
文章核心观点 - 新加坡国立大学Show Lab提出的X-Humanoid框架,通过“数据合成-模型适配-大规模生成”的技术闭环,首次实现了将第三人称人类视频高质量转化为类人机器人视频,为解决具身智能领域大规模、多样化机器人训练数据稀缺的核心瓶颈提供了全新的数据生成范式 [1][7][21] 问题根源:机器人数据稀缺的三大核心矛盾 - **数据规模与采集成本的矛盾**:真实机器人数据采集硬件昂贵、人力耗费大,导致数据规模有限且场景单一,而互联网上存量巨大的人类视频(如Ego-Exo4D数据集含数千小时视频)因人类与机器人视觉形态差异无法直接使用,形成“数据富矿”与“可用数据短缺”的鲜明对比 [4] - **编辑能力与场景复杂度的矛盾**:现有针对第一视角视频的“机器人化”方案(如规则化叠加机器人手臂)在涉及全身复杂动作、动态背景交互与严重遮挡的第三人称视频中完全失效,生成结果常出现肢体变形、动作错位等问题 [5] - **模型适配与任务需求的矛盾**:现有视频编辑模型缺乏针对“人类-机器人转化”的专项优化,导致生成的机器人视频无法保证动作与原始视频严格对齐或会篡改背景信息,难以满足VLA模型与世界模型的训练要求 [6] 方案设计:X-Humanoid的三层技术闭环 - **第一层:数据合成**:利用Unreal Engine设计可扩展的数据生成流水线,构建大规模人类-机器人配对训练数据集,最终生成17小时以上的1080p 30fps配对视频,含280万帧数据,在单张NVIDIA RTX 3060 GPU上仅需10天完成渲染 [7][9] - **第二层:模型适配**:对Wan 2.2扩散Transformer模型进行专项适配,改造为视频到视频架构,通过骨骼对齐、动作迁移、在14个多样化虚拟场景中录制视频(融入遮挡等挑战)以及创新的tokens处理机制,确保动作精准对齐且背景完整保留,仅使用6.4%的合成数据即可完成LoRA微调 [7][10] - **第三层:大规模转化**:将微调后的模型应用于真实世界视频,例如将Ego-Exo4D数据集的60小时视频处理后,批量生成360万帧机器人视频,形成大规模机器人化数据集,可直接用于VLA模型与世界模型训练,并能成功处理含运动模糊、镜头切换等复杂效果的互联网视频 [7][12][14] 验证逻辑:从定量到定性的全面性能验证 - **整体定量性能**:在合成数据集上,X-Humanoid的PSNR达21.836 dB(基线最高为17.683 dB),SSIM达0.671(基线最高为0.402),MSE低至459.302(基线最低为1295.640),全面碾压Kling、MoCha、Runway Aleph等基线模型 [12] - **用户研究结果**:在29名计算机视觉/机器人领域参与者的研究中,69.0%的用户认为X-Humanoid的运动一致性最佳,75.9%认可其背景一致性,62.1%肯定其机器人形态准确性,62.1%偏好其整体视频质量 [12] - **定性对比优势**:X-Humanoid能完全复刻原始人类动作并精准复现机器人形态特征(如特斯拉Optimus),同时完全保留原始场景信息,而基线模型存在动作不同步、形态还原差、生成无关元素等问题 [13][15] - **消融实验验证**:对比不同模型架构,X-Humanoid 5B版本不仅性能最优(PSNR 21.836 dB),且训练/推理效率远超14B版本(每帧训练时间0.10s vs 1.05s,推理时间5.00s vs 69.16s),同时2500步微调被验证为最优选择 [17][18][19] 局限与未来方向 - **当前局限**:方案目前仅支持单人视频,在多人场景下行为定义不明确;且需要为新机器人形态训练专属LoRA,未能实现零样本形态适配;部分场景中存在小物体消失、遮挡处理不精准等细节问题 [20][24] - **未来优化方向**:可通过添加显式控制机制支持多人生成;探索单图条件下的零样本转化技术以适配新机器人形态;通过增强合成数据中的细节多样性来进一步提升模型鲁棒性 [20][24] 总结:X-Humanoid的范式价值与行业影响 - **核心贡献**:不仅生成了大规模机器人训练数据,更建立了“合成数据驱动-模型专项适配-真实场景落地”的完整技术链路,为数据稀缺型机器人任务提供了可复用的解决方案 [21] - **行业影响**:其释放的17小时合成数据集与60小时机器人化Ego-Exo4D数据集,为VLA模型与世界模型的训练提供了关键支撑,推动机器人从“依赖真实数据”向“利用虚拟合成+互联网数据”转型,加速通用自主机器人的落地进程 [21]