强化学习

搜索文档
二段式端到端新SOTA!港科大FiM:从Planning的角度重新思考轨迹预测(ICCV'25)
自动驾驶之心· 2025-07-26 21:30
核心观点 - 提出"先推理,后预测"策略,从规划视角重构轨迹预测任务,通过行为意图推理提升预测准确性和置信度 [4][11] - 开发奖励驱动意图推理器,结合以查询为中心的逆强化学习框架(QIRL)和最大熵逆强化学习(MaxEnt IRL) [8][14] - 设计分层DETR-like解码器集成双向选择性状态空间模型(Bi-Mamba),增强序列依赖关系捕捉能力 [9][26] - 在Argoverse和nuScenes数据集上实现SOTA性能,minFDE6指标达0.528-0.551,Brier分数0.594-0.629 [33][36] 技术框架 意图推理模块 - 采用网格级图表示场景布局,定义基于网格的推理遍历(GRT)作为意图序列 [5][19] - QIRL框架将向量化场景特征聚合为网格token,通过MaxEnt IRL推导奖励分布 [8][24] - 策略rollout生成多模态GRT序列,提取意图先验指导轨迹预测 [24][25] - 辅助时空占用网格图(OGM)预测头建模参与者未来交互,提升特征融合效果 [9][24] 轨迹解码架构 - 分层结构包含无锚点提议生成和基于锚点的优化两阶段 [25][26] - Bi-Mamba模型双向处理轨迹token,通过双CLS token实现前向-后向特征融合 [26][28] - 模态自注意力模块增强多模态预测,最终输出轨迹偏移量和概率分布 [26][28] - 消融实验验证Bi-Mamba比MLP基准提升brier-minFDE6达11.3% [40][43] 实验验证 定量结果 - Argoverse 1测试集:单模型brier-minFDE6 1.602,集成模型达1.131 [33][35] - Argoverse 2验证集:GRT-L变体minFDE6 0.528,优于DeMo(0.543)和QCNet(0.551) [34][36] - nuScenes数据集:超越当前所有排行榜模型,验证框架鲁棒性 [36] 消融分析 - 移除推理分支导致brier-minFDE6上升79.6%,验证意图推理关键作用 [37][38] - OGM模块贡献brier-minFDE6下降4.1%,优化模块贡献11.0% [39][40] - 双CLS token设计比单向Mamba提升分类精度3.2% [43][47] 行业应用 - 向量化表示结合Transformer架构成为自动驾驶轨迹预测主流技术路线 [12][19] - 强化学习范式在驾驶行为建模中展现潜力,为行业提供新研究基线 [47][55] - 长期意图监督(GRT-L)显著提升预测置信度,对量产系统具有实用价值 [34][35]
开发者福利!一台机器搞定人形运控、强化学习、VLN/VLA
具身智能之心· 2025-07-25 15:11
TRON1重磅来袭! 如果有一台机器很炫酷,支持验证人形运动控制、强化学习、VLN任务、VLA任务,你会不会心动? 心动的它来啦!TRON1:专为教育科研设计的一体研究平台。采购和咨询欢迎底部联系~ 双足、双点足和双轮足"三合一"模块化设计,可快速切换、自由组合;一机支持多形态算法研发,最大 化满足不同科研的需求。 一套产品可以同步验证点足运动控制、双足人形运动控制、轮式运动控制。"三合一"模块化足端,买一 得三。 功能一览 分为基础版本、EDU版本(二开),支持外设加装各类操作、感知、语音交互组件,以及对应的GPU 等算力资源。 0)能完成哪些功能? TRON 1定义为仿人形步态的开发平台,支持人形运控的研究,非常适合强化学习的论证; 除此之外,EDU版本可以外设深度相机或其它RGB相机,支持目标导航功能、支持感知功能,用户可 以自行开发; TRON1平台还支持外设加装机械臂等操作硬件,支持VLA功能验证,导航+抓取; 1)开发语言 支持C++和python两种开发模式,不会C++也没关系,python可以直接开发啦。 import sys import limxsdk.robot.Robot as Rob ...
NVIDIA最新!ThinkAct:复杂的具身任务中实现少样本适应、长时程规划
具身智能之心· 2025-07-24 17:53
核心观点 - ThinkAct提出了一种双系统框架,通过强化视觉潜在规划将高层推理与低层动作执行连接起来,显著提升了复杂具身AI任务中的少样本适应、长时程规划和ego修正能力 [4][9] - 该方法通过动作对齐视觉奖励(目标奖励和轨迹奖励)引导MLLM生成具身推理planning,并将其压缩为视觉planning潜变量,为下游动作模型提供条件 [14][17][18] - 在机器人操作和具身推理基准测试中,ThinkAct表现优于现有方法,如在SimplerEnv上比基准动作模型DiT-Policy最高提升16.9%,在LIBERO基准上以84.4%成功率位居榜首 [25][26] 方法架构 双系统设计 - 高层推理系统:MLLM生成具身推理planning,通过强化学习(GRPO)优化,奖励函数结合目标完成度(r_goal)和轨迹一致性(r_trail) [12][19][20] - 低层执行系统:基于Transformer的动作模型以视觉planning潜变量为条件,实现异步"慢思考-快控制"执行模式 [21][22] 关键技术 - 动作对齐视觉反馈:目标奖励(式1)评估起始/结束位置匹配度,轨迹奖励(式2)通过DTW距离规范轨迹分布 [17] - 强化微调:采用GRPO算法,从M组响应中选择最优解,KL散度约束防止模型偏离原始分布 [19] - 潜变量压缩:将文本推理抽象为紧凑的视觉planning潜变量,捕捉时空规划意图 [20][23] 性能表现 定量结果 - 机器人操作: - SimplerEnv-Google-VM任务中Pick Coke Can子任务达到92%成功率,比Magma提升8.3% [25] - LIBERO-Long任务成功率70.9%,显著优于CoT-VLA(69%)和DiT-Policy(57.6%) [25] - 具身推理: - EgoPlan-Bench2总体得分48.2%,超越GPT-4V(32.6%)和Qwen2.5-VL*(45.7%) [27] - RoboVQA的BLEU-4得分52.4%,比次优方法高4.4分 [27] 定性优势 - 长时程规划:将"拿起书放入后部隔间"分解为3个子任务,可视化轨迹显示gripper严格遵循推理planning [30] - Ego修正:在物体掉落场景中,通过视频context识别故障并生成重新抓取的修正planning [37] 创新价值 - 行业突破:首次实现强化学习驱动的视觉-语言-动作联合推理,解决端到端模型在长时程规划中的局限性 [6][7] - 技术复用性:潜变量设计兼容不同动作模型(如Diffusion Policy),支持跨平台部署 [21][23] - 数据效率:仅需10个演示样本即可在新环境(LIBERO-Spatial)实现9.5%的少样本性能提升 [35]
AI的未来,或许就藏在我们大脑的进化密码之中 | 红杉Library
红杉汇· 2025-07-24 14:29
人类大脑与AI的认知差异 - 人类大脑的认知能力如想象、计划、语言等至今仍是AI难以复制的超能力 [2] - AI之父杰弗里·辛顿认为实现类人智能需模仿大脑的计算方式 [2] - 当前AI已在部分领域(如语言处理)比肩人脑,但在心智理论、物理交互等方面仍落后 [10][14] 大脑进化的五次突破 - **第一次突破(5.5亿年前)**:原始大脑通过数百神经元实现条件反射、情感和利弊权衡 [8] - **第二次突破(脊椎动物)**:强化学习通过多巴胺量化目标可能性,赋予好奇心和复杂动作能力 [8] - **第三次突破(哺乳动物)**:新皮质带来想象力与慢思考能力,类似AI的推理模型(如OpenAI o1) [9] - **第四次突破(灵长类)**:心智理论使模仿学习和长期计划成为可能,AI目前在此领域不稳定 [9][10] - **第五次突破(人类语言)**:社会化语言系统推动文明,大语言模型已展现类似抽象理解能力 [11] AI的进化路径类比 - **K1-K2阶段**:从反射式清洁到强化学习(如试错优化家务动作) [13] - **K3阶段**:新皮质芯片实现数字孪生模拟(如预判儿童行动路径) [13] - **K4-K5阶段**:心智理论与语言能力使AI理解情感意图并沟通,但物理交互仍薄弱 [13][14] 历史突变对智能发展的启示 - 哺乳动物因恐龙灭绝获得发展契机,智能突破依赖历史偶然性 [6][15] - 蓝细菌光合作用等突变事件表明,颠覆性进步常源于冗余或非常规变化 [15][16] - 下一代AI突破可能来自非线性的能力跃迁,如因果推理或直觉感知 [18] 行业技术动态 - 强化学习提升AI格局,通过奖励过程(如围棋步骤评估)优化决策 [8] - 大语言模型已实现语言解码,但心智理论与物理动作仍是研发重点 [10][14] - 最新推理模型(如DeepSeek R1)采用系统2思维进行深度评估 [9]
大模型模型取得国际奥数竞赛金牌级成绩
科技日报· 2025-07-24 08:07
AI模型在数学竞赛中的表现 - 谷歌旗下深度思维公司和OpenAI的AI模型在国际数学奥林匹克竞赛(IMO)中首次取得金牌级成绩 [1] - IMO被视为AI系统数学推理能力的试金石 深度思维去年开发的"阿尔法证明"和"阿尔法几何"AI模型曾取得银牌级成绩 [1] - OpenAI新型AI系统在4.5小时内正确解答6道IMO题目中的5道 深度思维的"双子座深度思考"系统也取得同样成绩 [1] 技术实现方式 - 与去年使用"精益"编程语言不同 今年两大团队的模型均采用自然语言处理技术 [1] - 深度思维的"双子座深度思考"采用强化学习方法 这是谷歌在"阿尔法零"等AI游戏上取得成功的关键技术 [1] - OpenAI仅透露运用了强化学习与"实验性方法" 技术细节尚未公开 [1] 专家评价 - 菲尔兹奖得主陶哲轩认为这一进展令人振奋 但需要可复现的研究数据支撑 [2] - IMO金牌得主约瑟夫·梅耶指出自然语言证明虽具可读性优势 但冗长论证可能带来验证困难 [2]
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
量子位· 2025-07-23 18:36
ChatGPT Agent的技术原理 - 由Deep Research和Operator两个核心工具整合而成,并加入终端、图像生成等多项功能 [8][9] - 通过虚拟机环境整合所有工具,强化学习让模型自主探索最佳工具组合 [12] - 工具共享状态设计使模型能高效处理互联网、文件系统和代码交互任务 [12] 训练方法 - 模型被赋予所有可用工具并运行在同一虚拟机环境中,通过奖励机制学习高效完成任务 [12] - 训练后模型能自主切换工具,例如从文本浏览器转向GUI浏览器处理JavaScript元素 [13] - 训练规模较2017年World of Bits项目提升数十万倍,强化学习计算量大幅增加 [15] 团队与组织架构 - 团队由Deep Research(3-4人)和Operator(6-8人)合并而成,总规模20-35人 [17][19] - 应用工程师参与模型训练,研究人员参与部署,打破研究与应用的严格界限 [20] - 以用户场景为导向,跨职能合作加速迭代,数月内完成项目 [21][23] 性能与交互设计 - 专注端到端性能,从用户提示到任务完成全程优化 [15] - 训练中纳入多样化任务轨迹,支持用户实时干预和反馈调整 [15] - 补足Deep Research多轮对话短板,兼具视觉交互与研究能力 [11] 挑战与安全机制 - 最大挑战是训练稳定性,需同时运行成千上万虚拟机应对网络宕机或API限制 [24] - 实施多层次安全措施,包括实时监控、敏感操作确认、生物风险专项防护 [24][27] 未来发展方向 - 目标为通用超级智能体,无缝处理从简单查询到复杂工作流的任务 [25] - 探索通过强化学习提升泛化能力,减少对额外训练数据的依赖 [25] - 计划增强多轮对话记忆、主动服务能力及复杂任务(如数据分析)完成度 [28]
端到端自动驾驶万字长文总结
自动驾驶之心· 2025-07-23 17:56
端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程:感知→预测→规划,每个模块输入输出不同,存在误差累积问题且感知信息存在损失[3][5] - 端到端算法直接输入原始传感器数据并输出路径点,避免了模块间误差传递,但面临可解释性差和优化困难等挑战[3][7] - 传统算法优势在于调试便捷和可解释性,而端到端方法在信息完整性方面表现更优[3] 端到端算法技术范式与挑战 - 当前主流采用模仿学习框架,包括行为克隆和逆优化控制两种方法,但难以处理corner case且真值数据存在噪声[7][8] - 评估方法分为开环(固定场景)和闭环(动态交互)两种,因果混淆现象是典型挑战[8] - 技术难点还包括输入模态多样性、多任务学习、知识蒸馏及安全保证等问题[8] ST-P3算法实现细节 - 采用时空学习框架,明确设计感知/预测/规划三模块,创新点包括自车中心累积对齐和双路预测机制[10][11] - 感知模块通过LSS范式生成BEV空间表征,考虑RO/PG角不为零的情况并进行时序融合[13] - 规划阶段引入红绿灯编码优化轨迹,代价函数综合距离/加速度/终点偏差等指标[14][15][16] UniAD系统架构 - 全Transformer框架以规划为导向,包含MapFormer/MotionFormer/OccFormer/Planner等模块[23] - 创新性引入五个代理任务提升性能,通过TrackFormer实现动态Agent跟踪[25][26] - 规划模块整合转向灯信号和自车特征,基于碰撞优化输出最终轨迹[31] 矢量化方法VAD - 将栅格表征转为矢量形式保持几何特性,计算速度优势明显[32] - 通过Map Query/Agent Query分别预测地图矢量和运动矢量,与自车状态交互完成规划[33] - 引入三类约束条件:碰撞约束/边界距离约束/方向约束,通过成本抑制机制优化[38][39][40] 概率化表征方法 - 采用概率分布替代确定性轨迹,解决多模态场景下的折中轨迹问题[42] - 离散化动作空间为4096种规划token,通过场景交互选择最优概率轨迹[43] - GenAD工作采用VAE式生成建模,训练时学习轨迹分布,推理时采样生成[44][46] 多模态规划进展 - 英伟达研究结合多模态规划与多模型学习,增加基于规则的教师模型蒸馏损失[49][52] - 监督信号涵盖无责任碰撞/可行驶区域合规/驾驶舒适性等指标[52] - 当前技术仍受限于数据驱动特性,对异常案例处理能力有待提升[53]
夸克健康大模型万字调研报告流出:国内首个!透视主任医师级「AI大脑」背后的深度工程化
机器之心· 2025-07-23 16:57
核心观点 - 夸克健康大模型通过中国12门核心学科主任医师笔试评测,成为国内首个完成此项专业考核的AI大模型[1] - 该模型采用自建整套流程化系统,明确模型学习路径,提高可解释度和信任度,直接支持搜索业务一线及智能体夸克健康助手等产品[3] - 通过两条平行数据产线(可验证与不可验证)和多阶段训练方法,构建具备高水平推理能力的医疗健康大模型[6][17] 技术路径 数据架构 - 采用三元组形式(问题-思考过程-最终答案)构建"问思答"整组数据,要求过程合乎医学逻辑且可解释[8] - 问题(Question)需含健康医疗背景与结构化标签体系,基于千万日活搜索日志和百万级医学知识图谱构建[9][10] - 思考(CoT)引入"思考行动体系"拆解推理步骤,区分难度等级以提升模型能力[12] - 最终答案(Answer)分为可验证类(医学实体/判断)和不可验证类(医疗建议/科普),采用不同验证方式[14] 数据产线设计 可验证数据产线 - 冷启动阶段由专业医生精准标注,避免早期污染,采用"空白"预训练模型保持多样性[19][20] - 强化学习阶段按病药术检五类任务划分,每题生成50个候选回答以拓展解空间[24][25] - 通过百万次探索筛选高难度数据,以数据质量提升逼近模型能力上限[26] 不可验证数据产线 - 通过SOTA模型数据蒸馏获取原始思考数据,保障表达多样性与推理复杂度均衡[29] - 采用多维度偏好奖励模型(正确性/有用性等)筛选长文本答案,解决标准答案不唯一问题[29][30] 质量评估体系 - 针对"多解多路径"问题设计三类相似度指标(路径/图结构/术语)验证医学一致性[33][34] - 构建X Clinical Judge奖励系统,覆盖有答案标签和无标签问题,输出正确性与全面性评分[35] - 过程奖励模型通过人工提炼思维模式训练,评估思考过程合理性[37][38] - 引入一致性验证器防止思维与结果逻辑断裂,GRPO算法优化推理链条生成[39] 工程实践 - 基础设施包括百万级医学知识图谱、ICD编码术语集和定制化数据产线[6] - 采用端到端强化学习,产线同步产出高质量数据与模型[6][17] - 多阶段训练方法:从冷启动微调→强化学习→数据蒸馏→偏好对齐,防止能力遗忘[46][47] - 对抗模型作弊手段(快答/重复/虚构疾病),通过人工标注负面案例迭代验证器[40][42]
刚刚,阿里最强编程模型开源,4800亿参数,Agent分数碾Kimi K2,训练细节公开
36氪· 2025-07-23 07:53
模型发布与性能 - 阿里巴巴Qwen团队开源最新旗舰编程模型Qwen3-Coder-480B-A35B-Instruct,拥有480B参数,激活参数35B,原生支持256K上下文并可扩展至100万上下文,最大输出6.5万token [1] - 该模型在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use三类任务中获得开源SOTA,性能超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型,与Claude Sonnet 4相当 [1] - 模型参数量超过阿里旗舰模型Qwen3的235B,小于Kimi K2的1T,官方称可帮助新人程序员一天完成资深程序员一周的工作,生成品牌官网最快只需5分钟 [2] 技术细节与训练 - 预训练使用7.5万亿token数据,其中代码占比70%,保留通用和数学能力,原生支持256K上下文并通过YaRN扩展至1M,针对仓库规模和动态数据优化 [16] - 后训练阶段在20000个独立环境中进行大规模强化学习,自动扩展多样化编程任务的测试用例创建高质量训练实例,提高代码执行成功率 [18][20] - 引入长视距强化学习(智能体强化学习),构建可扩展系统并行运行20000个独立环境,在SWE-Bench Verified中实现开源模型最佳性能且无需推理 [20] 产品化与商业化 - 模型已在阿里云百炼平台上线,API采用阶梯计费,256K~1M档输入价格6美元/百万token,输出60美元/百万token,高于Claude Sonnet 4同档价格 [4][5] - 提供多种部署方式:Qwen Chat网页版免费体验,480B版本在Hugging Face、魔搭等开源社区发布可供下载和本地部署 [6] - 同时开源智能体编程命令行工具Qwen Code,基于Gemini Code分叉而来,进行定制提示和函数调用协议适配以更好释放模型能力 [3][22] 应用案例与表现 - 实测案例显示模型在指令遵循、UI设计、动画方面能力突出,开发Wordle游戏、3D旋转立方体展示台等任务完成度高 [7][9][12] - 开发速度极快,如中英文术语库20多秒完成初步结果,但存在未完全遵循技术栈指令等问题,真实部署可扩展性需优化 [11] - 支持图像生成、视频生成等功能,可上传文档、图片、视频、音频等内容,可能通过工具调用实现 [12]
字节发布GR-3大模型,开启通用机器人“大脑”新纪元
经济观察报· 2025-07-22 15:23
GR-3模型技术特点 - 推出全新Vision-Language-Action Model(VLA)模型GR-3,具备强大泛化能力、抽象概念理解及柔性物体精细操作能力 [2] - 采用Mixture-of-Transformers(MoT)网络结构,整合视觉-语言模块与动作生成模块,形成40亿参数端到端模型 [3] - 通过三合一数据训练法(遥操作机器人数据、人类VR轨迹数据、公开图文数据)显著提升性能,VR数据收集效率比传统方法快近一倍 [3][4] GR-3模型应用表现 - 在未见过物品和环境的通用拾取放置任务中保持高指令遵循率与成功率 [6] - 长程餐桌清理任务中仅凭总指令即可自主完成全流程操作,平均完成度超过95% [6] - 柔性衣物操作任务中稳定完成挂衣动作,展现灵活性与鲁棒性 [6] ByteMini机器人设计 - 配备22个全身自由度及手腕球形设计,可像人类一样灵活操作狭小空间物品 [5] - 搭载全身运动控制系统,动作快速稳定且能自动调整抓取力度避免损坏易碎品 [5] - 配置多颗摄像头(手腕细节捕捉+头部全局观察)确保任务执行准确性 [5] 未来发展方向 - 计划扩大模型规模与训练数据量以提升对未知物体的泛化能力 [7] - 将引入强化学习(RL)突破模仿学习局限,实现机器人自主试错与策略优化 [7] - 目标将GR-3发展为通用机器人"大脑",推动其成为日常生活助手 [7]