Workflow
强化学习
icon
搜索文档
智驾最后的窗口期,冲出AI新玩家
远川研究所· 2025-10-12 21:04
行业趋势与竞争格局 - 智能辅助驾驶行业呈现冰火两重天局面,L2+功能从高端车型专属标签向中低端市场普及,实现“平权” [2] - 技术路线加速收敛,端到端与多模态大模型成为新赛点,行业进入强算法时代 [2][6][15] - 2021年特斯拉FSD V9.0采用BEV+Transformer架构是行业分水岭,推动感知模块大模型化 [4][5] - 行业竞争地图形成多股力量:特斯拉式垂直整合、Mobileye等芯片商、Momenta等算法提供商、以及AI 1.0创业者 [9] - 智能辅助驾驶软件价值占整车比重持续提高,未来有望超过4成 [6] - 头部阵营雏形显现,平台型玩家通过整合产业资源驱动行业范式变迁 [9][18] 核心技术演进 - 端到端架构结合视觉语言模型(VLM)成为主流方案,通过单一神经网络将传感器数据直接转化为车辆控制指令 [12] - 多模态大模型+强化学习是未来核心竞争力,提高系统感知理解能力和驾驶博弈能力,学会举一反三 [20][21][22] - 相比模块化架构,端到端模型代码量大幅节省,但存在黑箱问题,VLM提供了可解释性 [12] - 高质量模型训练依赖云端预训练、车端高质量数据投喂、仿真微调及OTA更新的闭环 [15] - 强化学习是训练高质量模型的“教练”,通过设置奖励函数让AI在虚拟场景中自我进化 [15] - 千里科技RLM大模型采用一段式端到端架构,拥有更高“含模量”,驾驶体验更拟人丝滑 [21] 千里科技的战略与布局 - 公司定位为具有深厚制造业基因的世界级科技公司,目标是成为平台级AI公司,为行业提供规模化智能解决方案 [18][21] - 战略核心是“AI+车”,已完成智能辅助驾驶、智能座舱、智能出行三大领域的多点布局 [11][25] - 公司联合阶跃星辰和吉利汽车组建合作联盟,共同研发千里智驾RLM大模型 [17] - 公司与吉利合作拥有百万级保有量的L2+车型数据,联盟云端算力储备超过23 EFLOPS,在国内车企中排名第一 [25] - 公司获得奔驰13亿元投资,汽车智能化朋友圈不断扩大 [18] - 推出“千里计划”(AFARI Plan),以“One Brain, One OS, One Agent”为核心愿景,构建大模型驱动的AI大脑和操作系统 [27] 产品与技术优势 - RLM大模型具备防御性驾驶能力,基于多传感器感知和动态场景推演,能对视野盲区进行预防性判断 [24] - 推出不依赖高精地图的全场景门到门模式,通过实时道路生成与理解实现无感畅通驾驶 [24] - 算法、算力和数据三要素协同是核心竞争力,公司在数据规模和算力储备上具备优势 [24][25] - 在智能出行领域,计划未来18个月在10座城市落地规模化Robotaxi运营,单一城市部署超1000辆 [27] - 基于多模态大模型底座整合通用知识与智驾垂域数据,RLM大模型能实现通用感知理解 [22]
光会“看”和“说”还不够,还得会“算”!Tool-Use+强化学习:TIGeR让机器人实现精准操作
具身智能之心· 2025-10-12 00:02
文章核心观点 - 公司提出TIGeR框架 旨在解决当前视觉语言模型在机器人操作中缺乏精确几何量化能力的关键痛点 通过工具调用和强化学习使AI模型能从定性感知转向定量计算 [2] - TIGeR框架的技术路线具有前瞻性 与最新发布的Gemini Robotics 1.5所强调的Agentic Tool Use方向一致 [3] - 在多项空间理解基准测试中 TIGeR的表现超越了包括Gemini-2.5-Pro和GPT-4o在内的主流模型 并在真机测试中完成了其他模型无法胜任的高精度操作任务 [11][16] TIGeR框架的技术优势 - 实现精确定位 通过集成深度信息和相机参数 能将如“上方10厘米”的指令精确转换为三维坐标 达到普通视觉语言模型无法实现的操作精度 [7] - 支持多视角统一推理 在多镜头场景下可将各视角信息合并 并在统一的世界坐标系中进行场景构建和推理 [7] - 具备透明可解释性 模型的每一步推理过程清晰可见 包括工具调用 参数输入和结果输出 便于调试优化并增强操作可信度 [7] TIGeR的训练方法与数据 - 采用两阶段训练流程 第一阶段通过监督学习使用大规模数据集教授基础工具使用方法和推理链 第二阶段通过创新的分层奖励机制进行强化学习 精细打磨模型使用工具的准确性和过程完美度 [8] - 为训练构建了TIGeR-300K大规模高质量数据集 包含30万个样本 覆盖各类核心任务 其构建结合了模板化生成以保证规模和基础问题解决能力 以及利用大模型改写以增强泛化性和应对真实世界复杂指令 [10][13] 性能表现与基准测试 - 在CV-Bench基准的2D-Rel 3D-Depth 3D-Dist任务上分别达到93.85% 96.33% 95.17%的准确率 均超过对比模型 [10][14] - 在BLINK基准的Depth和Spatial任务上分别达到91.94%和86.01%的准确率 [10][14] - 在RoboSpatial基准的M.V. Conf. Comp. Cont.任务上分别达到60.15% 82.11% 82.86% 32.79%的准确率 在EmbSpatial和Q-Spatial++任务上分别达到80.82%和70.30%的准确率 [10][14]
港中文(深圳)冀晓强教授实验室全奖招收博士/博士后
具身智能之心· 2025-10-12 00:02
研究内容与方向 - 实验室聚焦人工智能控制理论、具身智能控制及强化学习控制等核心研究方向[11] - 致力于深度融合控制论、人工智能、机器人学、高性能计算及大数据等基础科学[13] - 开展人工智能与智能系统领域的基础理论与原创性研究[13] 任职要求与候选人背景 - 博士后需已获得或即将获得控制科学与工程、人工智能、机器人、计算机科学等相关专业博士学位[2] - 博士研究生需已获得或即将获得计算机科学、数据科学、自动化等相关专业硕士学位或优秀学士学位[3] - 硕士研究生需已获得或即将获得计算机科学、数据科学、自动化等相关专业本科学位[5] - 候选人需对控制理论、人工智能、机器人学有浓厚科研兴趣并具备扎实数学和编程基础[4] 通用技能与加分项 - 熟悉CLIP、BLIP、LLaVA等多模态大模型及其应用[6] - 熟悉VAE、Transformer、BERT等经典模型并具备实现与调试能力[7] - 具备出色算法设计与编程能力,熟悉Linux,掌握C++/Rust等高性能语言者更佳[8] - 了解LLaMA、Qwen等大语言模型架构,具有无监督预训练、SFT、RLHF等实践经验者优先[9] - 曾在IJRR、ICRA、IROS、RSS等机器人顶会或ICML、NeurIPS、ICLR等AI顶会发表论文者优先[12] - 拥有顶尖竞赛经历或知名企业核心AI项目主导经验者优先[12] 导师与实验室资源 - 实验室导师冀晓强教授为香港中文大学(深圳)理工学院助理教授,主持多项国家级及省市级科研项目[13] - 实验室在IEEE Transactions on Automatic Control、Automatica等顶尖期刊及会议发表论文五十余篇[13] - 实验室提供国际化科研氛围、丰富算力资源及行业合作机会[2] 福利待遇 - 博士后可获得省市生活补助每人每年税前21万元,总额不超过42万元,大学另提供每人每年5万元专项补贴[14] - 博士后符合条件者可申请广东省海外博士后人才支持项目,享受在站补贴税前60万元/2年,出站留粤补贴税前40万元/3年[14] - 博士后可申请各级科研课题资助,出站后深圳市给予30万元科研或创业资助[14] - 博士生可获全奖/半奖,学费全覆盖并额外提供生活津贴,优秀者可申请校长奖学金税后18万/年[15] - 研究型硕士优秀者可额外提供生活津贴,毕业后有转PhD机会[16] 申请流程 - 申请材料需包括个人完整中英文简历、已发表代表作论文及其他证明个人科研能力的材料[19] - 申请邮件需以“姓名-当前所在单位/机构-博士后/博士/研究型硕士申请”为题发送至指定邮箱[17]
腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入
量子位· 2025-10-11 14:04
算法核心创新 - 腾讯优图实验室开源强化学习算法SPEAR,通过“自我模仿+渐进探索”实现熵稳定的学习过程 [2][3] - 算法核心是让大语言模型驱动的智能体在无需大量专家示范的情况下自学成才,解决了传统自我模仿学习中的“熵塌缩”和“熵爆炸”问题 [3][8][9] - 采用“课程式调度”实现分阶段探索,前期用内在奖励鼓励探索,后期启动自模仿学习回放高回报轨迹 [15][16] 性能提升表现 - 在ALFWorld家务模拟任务中成功率高达88.9%,创下该任务当前最优水平 [21] - 在WebShop网页购物测评中,1.5B模型成功率从56.8%提升至77.5%,提升20.7个百分点,训练时间仅增加5% [21][22] - 在AIME25奥赛数学任务上,Qwen2.5-32B模型成绩从54.0%提升到60.1%,仅用16K上下文就追平32K推理效果 [13][26] - 在Sokoban视觉推箱子任务中取得86.7%的成功率,较此前最佳性能提升19.6个百分点 [28][29] 技术实现特点 - 设计内在奖励实现工具奖励衰减,前200步鼓励工具调用,之后奖励置零让位给最终答案准确率 [12][18] - 提出优势重校准机制,用动态中位数基线淘汰过时操作,减小off-policy偏差 [16] - 兼容GRPO/GiGPO等骨干方法,可零成本接入现有训练流程 [24][31] 应用场景广度 - 算法通吃文本、代码、视觉多模态任务,在ALFWorld、WebShop、AIME、Sokoban等基准上平均提升16%以上 [3][21][26][28] - 在工业级增强基线Dr.BoT基础上进一步优化,在GRPO和GiGPO框架下均实现显著提升 [19][25] - 1.5B模型1小时上手,32B模型一周出模,具备高效训练特性 [32]
具身机器人赋予了强化学习许多新的应用场景!
具身智能之心· 2025-10-11 08:02
强化学习在具身智能领域的应用 - 强化学习是具身智能机器人(包括人形和四足机器人)实现步态控制等复杂任务的核心技术,赋予产品适应救援、测量、危险环境的能力 [3] - 机械臂的视觉语言动作模型与强化学习结合方案在学术领域越来越受欢迎,使机器人执行任务更高效、丝滑与顺畅 [4][9] - 行业领先公司如宇树、智元的人形机器人已通过强化学习完成爬楼梯、爬山、跑步、跳舞、翻跟头等高难度动作的学习 [3] 强化学习论文辅导课程核心内容 - 课程周期为14周在线集中辅导加8周论文维护答疑,采用6人小班制,每周1次直播授课并配有专属助教答疑 [8][10][18] - 课程提供四足机器人、人形机器人、机械臂、视觉语言动作模型与强化学习四个大方向,每个方向提供6个以上可创新的研究想法 [10][19][30] - 课程基于最新的IsaacLab仿真环境,提供可复现的基线代码,涵盖仿真到真实的完整流程 [18][19][23] 课程产出与学习目标 - 目标产出是帮助学员完成一篇符合机器人顶会或顶刊(如RAL/ICRA/IROS/CoRL)投稿要求的论文初稿 [8][10][29] - 学员将掌握从科研选题、数据与基线、方法与工程到评测标准、写作与投稿的全流程,即使没有成熟想法也能在提供的基线上迭代出论文初稿 [17][19][23] - 课程结束后有8周维护期,提供补实验、改图、润色与审稿回复支持,确保论文达到投稿质量 [10][25][34] 课程师资与特色 - 授课老师Jack来自美国顶尖高校,是具身智能与机器人领域的博士后研究员,拥有深厚的理论沉淀与实战经验,并在顶级会议期刊发表过多篇论文 [27] - 课程特色包括三轨并跑(四足、人形、机械臂三选一)、工程到科研一体化、以及每周明确的里程碑与量化指标 [18][19][36] - 课程强调科研闭环,提供方法论证、实验结果、写作方式等模块的全程陪跑,与普通训练营形成差异化 [18][36]
“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录
AI科技大本营· 2025-10-10 17:52
对话一:语言对于智能到底意味着什么 - 语言在时间维度上对智能至关重要,语言模型本质是序列模型,处理时间序列是表达智能的重要组成部分 [6][7] - 语言经过人类编码压缩,在智能表征上比视觉更高效,语言边界就是世界边界 [7] - 训练语言数据非常方便,互联网有海量语言数据,用语言训练比用视频便宜得多 [8] - 语言模型会形成抽象概念,当用多种语言训练时,模型在抽象空间解决问题然后表达出来 [9] - 模型概念与人类概念可能存在差异,特别是在与物理世界紧密相关的领域 [10] 对话二:多模态与世界模型的挑战 - 现代大语言模型如GPT-4已经是多模态模型,能接收和生成图像音频,但模态间迁移水平不尽如人意 [12] - 当前多模态处理通过VQ-VAE编码器,感觉不令人满意,需要更深入融合到模型中 [13] - 语言对多模态非常重要,离开语言视觉只是像素信号,语言赋予视觉对象语义含义 [14] - 现代大语言模型在某种程度上就是世界模型,文本数学方面表现优异,但作为物理模型表现不如语言模型 [14] - 通过架构改进、更好数据将弥合世界模型与语言模型差距,Sora等模型显示正在取得重大进展 [15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔" - Transformer发明时已考虑自动化编程,认为比处理任意对话更容易 [17] - 语言模型将覆盖大量编程工作,但数学和编程语言是比纯自然语言更好的沟通工具 [19] - 未来复杂系统级软件需要专业程序员使用Copilot模式,应用软件可由大众用户自然语言编程完成 [20] - 编程重点在于沟通和抽象,不一定需要新编程语言,可以使用现有语言但要用得非常好 [20] - 新编程语言需求来自新计算架构,而非AI编程需求 [20] 对话四:Agent的泛化困境:是方法问题,还是根本限制 - Agentic Model缺乏坚实技术实体,指推理过程中调用外部工具的推理模型 [21] - 问题在于使用未经训练工具时缺乏学习信号,效果不好 [22] - 强化学习可泛化到更大系统,但需要训练期间接触所有工具,目前难以实现 [22] - 需要更多工作让系统可训练,即使没有太多训练也可能非常有用 [23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖 - 预训练Scaling Law和强化学习Scaling Law不完全是一回事,有不同限制 [25] - 预训练Scaling Law存在经济限制,离经济极限不远,可将大模型蒸馏成更小模型 [25] - 推理模型不增加参数数量,让模型运行更长时间会变得更好,但有架构限制 [27] - 推理Scaling Law与预训练Scaling Law有非常不同限制,呼唤新研究和不同架构 [28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异 - 具身智能将更接近当前LLM,物理世界数据比互联网少,但数据效率在提高 [29] - 需要从多模态模型开始,加入RL训练,允许模型在行动前进行推理 [30] - 现实障碍是推理速度太慢,需要层级式架构输出动作 [30] - 第一个版本建立在现有成果上做调整,之后会有新一代更高效模型 [31] 对话七:强化学习:是超级优化器,还是科学发现的引擎 - 推理模型看作新架构,有思维链推理过程,用强化学习方式可行 [32] - RL数据效率高得多,可从有限数据中学习,如1000道数学题 [33] - RL只得到一个奖励,没有约束,能很好优化就可以学习 [33] - 处于范式早期阶段,需要尝试发现改进才能更高效 [34] 对话八:AI的组织跃迁:如何实现大规模Agent协作 - 最大挑战是开发下一代推理模型,需要Transformer创新级别的推理模型 [35] - 需要更多并行性,不能等模型思考一周才得到奖励 [36] - 需要为并行过程提供更多信号,结合架构融入并行过程 [36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远 - 推理模型可使用工具访问记忆,通过RL训练会学得很好 [37] - 工具方式解决记忆问题对于大多数情况足够好,模型能区分互联网记忆和自己记忆 [37] - 未来架构可能做得更好,但目前有可行解决方案 [38] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习 - 利用上下文作为持续学习记忆是进展,但效率不高 [39] - 记忆工具正在出现,模型在推理中访问记忆 [40] - LoRA模块等经济方式修改权重已更可行,每个人可微调自己模型 [40] - 需要更优雅方式实现持续学习,涉及实践和研究考量 [41]
算力成本大降,马尔可夫思考机来了,LLM推理成本直接降为线性
36氪· 2025-10-10 15:27
核心观点 - 提出一种名为“马尔可夫式思考机”的新范式,通过重构强化学习环境,将思考长度与上下文大小解耦,从而显著降低大语言模型进行长链推理时的计算成本 [1][4] - 新方法Delethink将推理过程组织成固定大小的区块,使得计算量和内存需求随思考长度呈线性增长,而非传统方法的二次级增长 [4][6] - 实验证明该方法在多项基准测试中有效,能以更低的计算成本实现更长、更高效的推理 [9][14][15] 技术原理 - 传统LongCoT方法会无限制地拼接推理token,导致状态大小和计算量面临二次级增长 [1][4] - Delethink范式将思维过程分块,在每个区块边界重置上下文,迫使策略学会跨区块推进思考,维持固定大小的有效状态 [4] - 经过设计,Delethink在生成和反向传播两个阶段都是线性scaling,而LongCoT是二次级 [6] 性能表现 - 使用Delethink训练的DeepSeek R1-Distill 1.5B模型能以8K区块思考24K token,在数学基准上达到并超过LongCoT-RL [9] - 在测试时扩展方面,Delethink在LongCoT-RL性能饱和时仍能持续提升 [12] - 训练R1-Distill 1.5B模型思考长达96K token,在AIME'24上达到49%准确度,解题过程平均长度36K token [14] - 对于平均94K的思考长度,LongCoT-RL训练需27个H100-月,而Delethink仅需7个H100-月,计算效率提升显著 [15] 模型兼容性与可扩展性 - R1-Distill系列模型在强化学习初始化阶段已能零采样出马尔可夫式轨迹,为训练提供有利起点 [17] - 该方法与参数量高达120B的先进推理模型兼容,并在多个领域表现出稳健的马尔可夫式思考能力 [19] - 成功表明思考长度与上下文大小解耦原则上可支持数百万token的思考,并凸显非二次级复杂度架构的潜力 [20]
算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性
机器之心· 2025-10-10 14:36
文章核心观点 - 提出一种名为马尔可夫式思考机(Markovian Thinker)的新范式,通过Delethink方法将推理LLM的思考过程重构为分块的马尔可夫过程,从而解决长思维链导致的二次级计算量增长问题 [3][9][10] - 该方法使模型思考长度与上下文大小解耦,实现线性计算复杂度和恒定内存消耗,显著降低训练成本并支持更长思考 [9][16][26] - 实验证明Delethink在多项基准测试中优于传统LongCoT方法,且具备与前沿大模型兼容的可扩展性 [20][23][30] 技术原理与设计 - 核心创新是将强化学习环境重构为固定大小区块(chunk)的序列生成过程,每个区块边界重置上下文,迫使策略维持文本状态跨区块推进思考 [10][12][13] - 与传统LongCoT环境相比,Delethink状态大小有界,避免注意力机制计算量随思考长度呈二次增长 [9][14][16] - 伪代码显示训练过程中生成和反向传播阶段均为线性缩放,而LongCoT为二次级缩放 [15][16][17] 性能与效率提升 - 使用Delethink训练的DeepSeek R1-Distill 1.5B模型以8K区块思考24K token时,数学基准测试表现超越LongCoT-RL [20] - 扩展至96K token思考长度后,在AIME'24达到49%准确度,解题过程平均长度36K token [23] - 计算效率显著提升:对于平均94K思考长度,LongCoT-RL需27个H100-月训练资源,Delethink仅需7个H100-月,节约74%资源 [26] 兼容性与可扩展性 - R1-Distill系列模型(1.5B-14B)在零样本情况下已能采样马尔可夫式轨迹,为强化学习提供有利初始化起点 [28] - GPT-OSS 120B模型在博士水平问题等多领域展现稳健的马尔可夫思考能力,证明方法与先进模型兼容 [30][31] - 方法支持非二次复杂度序列架构,为下一代推理模型进行数百万token思考提供可能 [32][33]
DemoGrasp:一次演示是怎么实现灵巧手通用抓取的?
具身智能之心· 2025-10-10 08:02
技术方法与核心创新 - 提出DemoGrasp方法 一种简单高效的通用灵巧抓取学习方法 仅需从抓取特定物体的单条成功演示轨迹出发 通过编辑轨迹中的机器人动作来适配新物体与新姿态 [2] - 将轨迹编辑过程构建为单步马尔可夫决策过程 在仿真环境中通过强化学习对适用于数百个物体的通用策略进行并行优化 奖励函数设计简洁 仅包含二元成功项与碰撞惩罚项 [2] - 该方法展现出优异的迁移能力 仅在175个物体上完成训练 却在6个未见过的物体数据集上 针对不同灵巧手硬件构型实现了84.6%的平均成功率 [2] 性能表现与实验结果 - 在仿真实验中 使用Shadow手操作DexGraspNet数据集物体时 DemoGrasp的成功率达到95% 性能超越现有最优方法 [2] - 借助基于视觉的模仿学习 该策略成功抓取了110个未见过的真实物体 包括小型和薄型物体 并能适配空间位置 背景与光照的变化 [3] - 策略支持RGB与深度两种输入类型 并且可扩展至杂乱场景下的语言引导抓取任务 [3] 应用前景与行业意义 - DemoGrasp提出了一套简单 高效 可扩展的强化学习框架 对任意一款灵巧手 只要采集一条抓取演示 就能学会对所有物品的通用抓取策略 [6] - 方法在六款灵巧手本体 六个物体数据集上得到了广泛验证 且通过sim2real在真机上对110种物品实现高成功率抓取 [6] - 灵巧手的设计与难题是打通"手-眼-脑"感知闭环的关键技术 [10]
DexCanvas:具身数据的规模、真实、力觉真的突破不了三缺一吗?
具身智能之心· 2025-10-10 08:02
文章核心观点 - 灵巧抓取是机器人具身智能领域面临的主要技术瓶颈,其核心挑战在于缺乏大规模、高质量、包含力觉信息的多模态操作数据 [1][2][11][12][13] - 灵巧智能科技有限公司发布的DexCanvas数据集通过“真实+合成数据”双轮驱动模式,提供了包含完整力/接触标注的大规模人手操作数据,旨在解决行业数据瓶颈 [15][16][21] - DexCanvas数据集在采集效率、数据质量和成本间取得了平衡,其基于真实人类演示并通过物理仿真恢复力控的方法,显著提升了数据的规模与泛化能力,为物理智能的发展提供了基础设施级解决方案 [20][21][27][30] 现有灵巧抓取与数据采集方案 - 灵巧抓取的学习方法主要分为模仿学习和强化学习两类,模仿学习通过观察演示学习,强化学习则通过设定奖惩机制学习,但后者需要大量训练数据和精心设计的机制以确保稳定性 [4] - 数据采集主要依赖遥操作技术,包括基于视觉的方案、动捕方式以及VR/AR等,其中动捕系统对光照变化和遮挡具有较强鲁棒性,而视觉方案常受环境因素影响 [5] - 现有灵巧手硬件主要分为两指夹爪和多指拟人化手,两指夹具简单可靠但自由度低,而具备20+自由度的拟人化手更适应为人类设计的环境 [2] 灵巧操作数据面临的定律与瓶颈 - 行业数据存在“规模、真实性、力觉信息只能三选二”的定律,大规模开源数据集往往缺乏关键的力控信息 [6][7] - 真实场景下的灵巧操作数据采集成本极高,开源数据集通常仅数万条且不含触觉信息,而仿真数据虽可达百万甚至亿万级别,但sim2real泛化成功率有时低于70% [9][10] - 技术瓶颈在于难以在复杂操作中实时感知微小力度变化,且传统方法因高维度和复杂接触动力学而泛化能力不足,核心问题是大规模高质量多模态数据的缺失 [11][12][14] DexCanvas数据集的突破与优势 - DexCanvas弥补了开源数据集力/触觉信息的缺失,每条轨迹都包含完整的多指力/接触标注,并为20+自由度系统优化 [16][17] - 数据集提供了从动捕到MANO拟合、物理重演至五指灵巧手执行的全套处理代码,并在HuggingFace上提供了预处理后的可直接训练版本 [18][19] - 数据集综合指标优于常规方案,在效率、成本和质量上取得平衡,采集效率与仿真同为五星,成本为三星,质量为四星 [20] - 数据集包含超1000小时真人多模态演示数据与10万小时物理仿真合成数据,涵盖亚毫米级轨迹和物理一致的接触力信息,包含4种同步模态 [21] DexCanvas的数据生成方法与特性 - 数据生成分为三步:使用20个动捕相机以亚毫米精度采集真人演示;通过物理仿真环境下的强化学习智能体复现动作以恢复力控;通过改变物体参数将1000小时演示扩充为10万小时增强数据 [25][27][28] - 该方法基于真实人类演示,仿真用于“显影”隐藏的物理信息,而非从零生成动作,避免了仿真漏洞,且仿真的是人手而非特定机器人手,使其具备极佳的跨平台泛化能力 [27][30] - 独创的物理信息完备的操作轨迹复刻流程,自动生成了缺失的力觉和接触信息,力控数据在规模扩充后得以保持 [22][29]