Workflow
强化学习
icon
搜索文档
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-30 08:02
具身智能领域最新研究进展 1 UniSim通用现实世界交互模拟器 - 通过生成式建模整合多源数据(图像/机器人/导航数据)实现高层级指令和低层级控制的视觉结果模拟 [3] - 应用场景覆盖游戏/电影内容生成和具身智能体纯模拟训练(零样本迁移至现实)[3] - 实验证明可同时训练视觉语言策略和强化学习策略 [3] 2 因果世界模型与鲁棒智能体 - 首次证实最优智能体必须学习真实因果模型以实现跨领域泛化 [5] - 研究结论对迁移学习和因果推断领域产生深远影响 [5] 3 MAMBA元强化学习框架 - 结合模型方法与元强化学习技术实现15倍样本效率提升 [8] - 在高维任务场景验证有效性,推动现实世界泛化能力突破 [8] 4 EMMA多模态具身智能体 - 通过文本世界LLM指导视觉世界VLM训练(DAgger-DPO算法)[10] - ALFWorld基准测试成功率提升20%-70% [10] 5 Text2Reward自动奖励生成 - 基于LLM生成可执行密集奖励代码(无需真实数据)[13] - 17项操作任务中13项超越专家编写奖励 [14] 6 在线持续学习智能体 - 提出Behavior-IL/Environment-IL框架解决现实场景持续学习问题 [17] - CAMA机制无需任务边界信息即实现参数更新 [18] 7 AMAGO情境强化学习 - 通过并行化Transformer训练解决长期记忆和元学习挑战 [21] - 可攻克开放世界多指令完成难题 [21] 8 LLM世界模型构建 - 创新性采用PDDL构建显式世界模型(支持40+动作生成)[22] - 在Household领域成功求解48项复杂规划任务 [23]
干货 | 基于深度强化学习的轨迹规划(附代码解读)
自动驾驶之心· 2025-07-30 07:32
自动驾驶技术中的强化学习应用 核心观点 - 强化学习在自动驾驶领域从机器人早期阶段已有应用,但受限于训练效率低和复杂度高,工业界普及度有限 随着AlphaGo、ChatGPT RLHF和DeepSeek-O1等技术的突破,强化学习在时序决策任务(如轨迹规划)中展现出潜力 [3][7] - 自动驾驶的强化学习需结合模仿学习、逆强化学习等技术,通过动态reward设计(安全性/舒适性指标)和闭环训练解决环境交互问题 [8][62] 技术范式分类 1 基础学习概念 - **监督式学习**:用于感知任务(目标检测),通过固定训练集优化模型输出与监督信号的均方误差 [5] - **模仿学习**:以专家动作为监督信号,扩展至短时序轨迹生成,是端到端自动驾驶的主流方法 [6] - **强化学习**:通过环境交互的延迟反馈(如轨迹规划中的碰撞避免)优化策略,依赖动态reward信号 [7] - **逆强化学习**:从专家数据中学习reward-model,解决自然语言或驾驶舒适性等难以定义的奖励问题 [8] 2 核心算法框架 - **值优化方法**:包括动态规划、蒙特卡洛(统计大数原理)、时序差分(SARSA/Q-Learning)及混合算法(GAE) [29][30][33][44] - **策略优化方法**: - **REINFORCE**:蒙特卡洛估计策略梯度 [50] - **Actor-Critic**:结合策略网络与价值函数拟合 [51] - **PPO**:通过clip函数简化TRPO的约束条件,提升训练稳定性 [57] - **GRPO**:DeepSeek提出的轻量化算法,利用在线group样本替代value-model [59] 自动驾驶场景关键技术 - **预训练**:策略网络与价值网络通过模仿学习初始化,提升训练收敛性 [60] - **概率建模**:自回归/Diffusion模型对action多步rollout,通过环境反馈优化策略 [61] - **闭环训练**:需建模多智能体博弈(他车动态响应),避免静态环境导致的策略偏差 [62] - **端到端融合**:结合NeRF/3DGS生成动态环境感知数据,实时更新传感器输入 [63] 行业应用趋势 - 技术社区活跃度显著提升,涉及大模型、VLA、BEV感知等30+技术栈,近4000人参与交流,300+企业与科研机构加入 [65]
自动驾驶Agent来了!DriveAgent-R1:智能思维和主动感知Agent(上海期智&理想)
自动驾驶之心· 2025-07-30 07:32
DriveAgent-R1核心创新 - 首创基于强化学习的混合思维架构,使智能体能在纯文本推理和工具辅助推理间自适应切换[12][14] - 引入主动感知机制,配备包含高分辨率视图获取、关键区域检查等功能的视觉工具箱[15][18] - 采用三阶段渐进式训练策略(DM-SFT→FCM-RL→AMS-RL),显著提升模型性能[16][19][24] - 在SUP-AD数据集上实现SOTA性能,首帧联合准确率达70.11%,超越Claude Sonnet 4等主流模型[12][26] 技术架构与性能 - 基于Qwen2.5-VL-3B模型构建,输入包含6路环视摄像头数据,输出8秒驾驶意图决策序列[11] - 创新MP-GRPO算法强化双模式能力,模式选择准确率达65.93%[24][28] - 工具使用使序列平均准确率提升15.9%,推理质量提升11.7%[26][27] - 消融实验显示完整训练策略使首帧准确率较基线提升44.8个百分点[28] 行业突破性 - 首次实现自动驾驶智能体的长时程决策能力(8秒连贯规划)[3][11] - 解决现有VLM短视决策(单步预测)和被动感知两大核心痛点[6][12] - 验证视觉工具对SOTA模型的普适增强效应(如Claude推理质量+26.1%)[26] - 建立首个评估体系量化安全性、舒适性等多维度表现[24]
开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架,支持超千卡规模高效训练
机器之心· 2025-07-29 15:44
强化学习扩展性瓶颈与趋势 - 当前顶尖基础模型(DeepSeek-R1、o3-pro、Gemini 2.5-pro、Claude-4)的卓越推理能力依赖大规模强化学习,RL Scaling成为大模型领域"军备竞赛"核心[1] - xAI发布的Grok 4在200,000块GPU集群上运行强化学习,推动后训练规模达到新高度[1] - 解决RL扩展性瓶颈是解锁下一代AI高级推理能力的关键战略[2] siiRL框架创新设计 - 采用多控制器范式和全分布式架构,将数据加载/计算/流转任务均匀分散到工作节点,消除单一控制器瓶颈[3][11] - 核心组件:DAG Planner(逻辑工作流分解)、DAG Worker(GPU绑定执行)、Data Coordinator(数据生命周期管理)[13][14][15] - 支持华为昇腾NPU,实现跨硬件平台兼容[3] 性能优势验证 - 在1024 GPU规模下实现近乎线性扩展,512卡时保持80.5%线性扩展效率[3][21] - PPO/GRPO算法训练中最高实现2.62倍吞吐提升,72B模型训练时基线框架出现OOM而siiRL稳定运行[19] - 数据密集型任务(64k长上下文)中性能优势从1.48倍扩大至2.03倍[26] 技术突破点 - 端到端训练吞吐最高提升7倍(VLM任务)[21][25] - 动态数据缓冲机制自动调整数据分片(数据并行度变化时)[17] - 收敛性验证显示在保持与基线相同精度的前提下大幅减少训练耗时[28] 行业应用前景 - DAG设计为多智能体系统奠定基础,未来将重点拓展MARL算法兼容性和复杂交互机制[29] - 全链路开源框架(代码100%开放)支持国产硬件,目标实现"大模型跑在中国芯"[33] - 产学研团队背景涵盖万卡集群建设者、CUDA开发者、芯片优化专家等[33]
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-29 14:15
具身智能领域最新研究进展 通用现实世界交互模拟器 - UniSim通过整合多维度数据集(图像/机器人/导航数据)构建生成式交互模拟器,支持从高层级指令到低层级控制的视觉结果模拟,训练后的策略可零样本迁移至现实场景[3] - 应用场景涵盖游戏/电影内容生成和具身智能体纯模拟训练,视频描述生成等AI任务也能从中获益[3] 因果世界模型与鲁棒智能体 - Google DeepMind证实因果模型是智能体实现跨领域泛化的必要条件,最优智能体的因果模型将收敛至真实因果模型[5] - 该结论对迁移学习和因果推断领域具有深远影响[5] 元强化学习效率突破 - MAMBA框架结合模型方法和元强化学习技术,在基准测试中实现15倍样本效率提升,且无需超参数调优[8] - 成功验证高维任务场景有效性,推动现实世界泛化智能体发展[8] 多模态具身智能体训练 - EMMA通过文本世界LLM指导视觉世界VLM训练,采用DAgger-DPO算法实现跨模态模仿学习,在ALFWorld任务中成功率提升20%-70%[10] - 突破传统VLM在具身视觉世界中的动态对齐障碍[10] 自动化奖励函数生成 - TEXT2REWARD框架基于LLM自动生成密集奖励代码,在17项机器人操作任务中13项超越专家编写代码,运动任务成功率超94%[14] - 支持人类反馈迭代优化,仿真器训练策略可直接部署至现实[14] 持续学习型交互智能体 - 提出Behavior-IL与环境-IL两种持续学习框架,CAMA机制无需任务边界信息,通过滑动平均实现参数更新[18] - 显著超越基于数据先验的传统持续学习方法[18] 可扩展情境强化学习 - AMAGO通过并行化Transformer训练解决记忆容量和规划视野瓶颈,在元强化学习和长期记忆任务中表现优异[21] - 结合多目标hindsight重标注方案可攻克开放世界难题[21] 大语言模型与世界模型构建 - 创新性采用PDDL构建显式世界模型,GPT-4生成含40余个动作的高质量PDDL模型,成功求解48项复杂规划任务[23] - 通过前置修正机制将人工干预需求降低至初始阶段[23]
硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
机器之心· 2025-07-28 12:24
大模型技术演进与发展之路 核心观点 - 大模型技术从预训练为主转向强化学习主导的范式转变 [10][17][19] - 行业面临Transformer架构局限性、数据枯竭、开源闭源博弈等核心挑战 [31][41][59] - Agent应用爆发与基础模型研发需双轨并行 [53][54][55] 训练范式转变 - OpenAI从GPT-4o的预训练主导转向o1的强化学习后训练,提出测试时间扩展新维度 [13][14][15] - 强化学习可解决行为克隆难以建立目标导向推理能力的问题,但需突破自然语言反馈限制 [21][22][23] - 预训练仍是强化学习冷启动的基础,但需解决奖励机制和算力效率挑战 [25][26][27] 模型架构演进 - Transformer面临O(n²)扩展性、显存占用和长期记忆三大瓶颈 [31] - 优化路径包括RoPE位置编码、分组查询注意力等改进,以及Mamba等非Transformer架构探索 [33][34] - 智能体时代可能推动RNN架构回归,需建模无限上下文能力 [37][38] 数据供给挑战 - 高质量语料预计2028年耗尽,合成数据被Anthropic/OpenAI等广泛应用但存在迭代崩溃风险 [41][42][43] - 英伟达提出物理仿真生成边缘案例,需建立真实世界验证闭环 [44][45] - 行业数据未充分挖掘,应建立非敏感数据共享机制提升预训练质量 [46][48][51] 商业化落地路径 - 2025年Agent产品成爆点(如OpenAI Operator、智谱AutoGLM),但基础模型研发仍持续 [53][54] - 大模型当前相当于自动驾驶L3阶段,距AGI仍有差距 [55] - 金融等领域落地需突破大规模数据处理等技术瓶颈 [56][57] 开源生态影响 - DeepSeek等开源模型性能逼近闭源,冲击传统GPU/闭源产业链 [60][61] - 开源推动资源合理配置并形成行业压力,但需解决分叉滥用问题 [63][64][67] - 英伟达支持开源算力引擎,未来可能走向混合模式 [65][66]
大模型发展情况综述
2025-07-28 09:42
纪要涉及的行业 人工智能行业 纪要提到的核心观点和论据 1. **发展阶段与趋势** - 2025 年是大模型技术从研发向应用落地转折的重要时期,参数化应用持续演进,呈现标准化和大众化趋势[1][2] - 大模型发展关键节点可追溯到 2017 年,2020 年后数据变为无标注、学习方法转为无监督,参数量和数据量大幅增长[4] 2. **全球与中国发展格局** - 全球格局上美国在算力方面领先,中国在效率方面领先,中美顶级 AI 模型能力差距从 2023 年的 20%缩小至 0.3%[1][5][18] - 美国 Cloud 4 商业成功且展示代码定义能力,中国企业通过 MOE 架构优化、低精度训练等实现高效开发[18] 3. **资本市场态度** - 资本市场对人工智能投资态度从 2023 - 2024 年的研发投入回调到 2025 年的确定性和稳定性增强[1][6] - 2025 年二季度海外供应链估值提升、EPS 持续兑现,对国产大模型预期悲观但有修正机会和收益[1][2][6] 4. **技术进展与影响** - 强化学习在后训练部分显著提升大模型推理能力,通过延长思考时间提高准确率,蒸馏技术让小模型有高准确率[7] - 推理时间计算对大模型性能影响大,推理时间越长准确率越高且进步快[8] - 2025 年上下文窗口长度显著增加,提升大模型处理长文本信息能力[9] - 原生多模态技术降低延迟、提升 AI 视频生成效果,国产 AI 视频有优势[10] - 从 GROCK2 到 GROCK4 预训练和强化学习算力需求有变化,人类对算力需求随技术演进增加[11] 5. **商业化潜力** - Agent 和群体智能发展迅速,距离商业化仅一步之遥,Agent 工作能力强,群体智能在金融领域有优势[12][15] - AI 应用收入增速快,AI 搜索和 AI 编程领域表现突出,付费意愿高、商业化潜力超传统应用[25][26] 6. **准确率提升因素** - 大模型准确率提升得益于实时数据集成和检索增强生成技术,合成数据作用日益重要[3][16][17] 7. **技术挑战与优化** - 低精度训练技术降低算力成本但面临挑战,新架构探索优化计算效率,AI 幻觉问题有改善但进展波动[3][19][20][24] 其他重要但是可能被忽略的内容 1. 中信建投人工智能研究报告约 500 页,全面覆盖行业细节和发展状况[2] 2. 第三代智能体采用端到端方式执行任务,有望从专用到通用,应用范围广泛[14] 3. 2025 年新架构探索中,Mamba 架构推理时可处理更长上下文但训练算力消耗大,部分方法降低计算复杂度[22] 4. 2025 年通过针对英伟达芯片底层优化和新型架构探索推动存算一体发展,预计两年内成主流[23] 5. 大模型无法实现无限上下文长度是因为注意力机制计算复杂度随长度增加呈指数级增长[21] 6. 从 2003 年至今,算力涨幅接近 500%,模型和应用涨幅为 150%,云业务盈利能力向上,下游应用企业增长快[27]
商汤科技20250727
2025-07-28 09:42
纪要涉及的行业和公司 - **行业**:人工智能行业,涵盖大模型技术、机器人、金融、教育、航空等多个领域 - **公司**:商汤科技、英伟达、质谱公司、小米、金山办公、华为升腾、值得买科技、第四范式、科大讯飞、银河通用、库帕斯科技 纪要提到的核心观点和论据 大模型技术发展 - **技术范式转变**:大模型技术从预训练为主、监督学习为辅的范式逐渐转移到强化学习范式,提升了推理能力,但也带来幻觉、冗长思考等挑战[22] - **未来发展方向**:一是扩展当前范式以接受自然语言反馈,实现测试时群体交互;二是向自主在线代理方向发展,实现真正意义上的自主智能体[25] - **架构创新**:传统Transformer架构在算法向RL迁移时遇到阻碍,未来可能重新考虑RN类架构设计[28] 数据问题 - **数据枯竭**:互联网数据逐渐枯竭,需寻找新的数据来源和方法,以实现人工智能尤其是AGI方向上的进一步突破[30] - **数据不足解决方法**:使用物理模拟生成模拟场景训练模型,但需建立反馈机制,结合真实世界的基准测试和验证[31] - **行业数据重要性**:行业内有大量未被利用的数据,可通过行业场景大模型进行预训练激发出来[33] 人工智能可持续发展 - **挑战**:数据中心能耗巨大,预计到2030年全球数据中心将占总用电量的8%,推理阶段能耗可能成为主要来源[2][8] - **能效提升方法**:从基础设施、云、大模型以及应用层多层面优化,通过软件、硬件和制造工艺创新提升能效,也可进行能源优化[9] - **赋能可持续发展**:人工智能能够显著减少重工业碳排放,帮助工厂节能减排,推动整体能源消耗平衡并最终减少碳排放[11] 行业应用与商业化 - **金融领域**:大规模人工智能技术落地面临数据质量、安全和资源利用等挑战,需优化资源配置和改进数据处理方法[38] - **商汤科技成果**:通过SenseNova大模型及研发体系,推动高效率、低成本、规模化的AI创新和落地,在多模态技术、机器人、自动驾驶等领域有诸多应用[41] - **生产力转化**:实现从生产力工具到实际生产力的转化需要多模态融合分析和自动化处理,小浣熊产品是典型例子[49] - **人机交互**:大语言模型的发展推动人机交互进入新范式,AI从辅助角色转变为主动执行任务,人类进行监督和指导[51] 国际合作与发展 - **中印合作**:中印两国在人工智能领域的合作涵盖政府、工业、大学等多个层面,有助于解决AI治理核心问题,促进本地创新[17] - **中国举措**:中国通过开源贡献、提出愿景方案、建设合作中心等举措,推动全球人工智能发展[81] 其他重要但是可能被忽略的内容 - **香港国际机场应用**:香港国际机场在2020 - 2025年期间逐步引入多种人工智能应用,如自动化行李分拣系统、自主巡逻车等,以应对运营效率、安全等挑战[72] - **智能体发展**:智能体已成为大模型应用的重要关注点,其产业链逐渐形成,在多个领域得到广泛应用[78] - **具身智能**:2025年具身智能发展取得进展,但进入各行各业和家庭还需解决数据问题,合成数据与真实数据结合是有效策略[82] - **AI发展影响**:AI发展对人类工作、生活及独特性提出挑战,科学家应提前思考,确保具身智能与人类关系安全[89]
阿里Qwen提出强化学习新算法GSPO
快讯· 2025-07-27 23:20
据通义千问Qwen,为了能够持续拓展强化学习 (Reinforcement Learning,RL),提出了Group Sequence Policy Optimization (GSPO) 算法。不同于过去的RL算法,GSPO定义了序列级别的重要性比 率,并在序列层面执行裁剪、奖励和优化。 ...
中国互联网大会上,参展的众多AI应用企业不约而同选择这一发展模式,为什么?
每日经济新闻· 2025-07-27 00:19
中国互联网大会AI展区观察 - 中国互联网大会在北京举行 展区展出大量AI落地科技产品 值得注意的是多家AI应用企业选择开源发展模式[1] - 开源与闭源代表完全不同的技术路线和商业策略 体现发展模式与利益分配的差异[2] 机器人设备企业 - 某机电企业展示双足机器人 通过电机控制实现动态平衡 未嵌入视觉识别功能 主要面向学校和二次开发者提供全开放接口[3][5] - 该企业电机技术被波士顿动力等厂商采购 定位为人形机器人技术支持商 机器人外壳采用3D打印 每个关节配备独立电机[5] - 二次开发者可集成语音交互 AI算法 激光雷达等功能 案例显示北职大团队曾改造该机型参加亦庄半程马拉松[5] 小米开源生态 - 小米展出Vela操作系统 专为智能手表 家居设备设计的嵌入式系统 已全部开源代码[5][6] - 开源策略旨在加速研发效率 促进生态繁荣 实现更多终端与小米设备互联互通[6] - 同步展示AIoT实训箱教学系统 对合作院校开源教学平台代码 用于模拟安防系统搭建教学[9] 数字人技术应用 - 展区出现基于DeepSeek开源代码的全息数字人 使用者可免费调用IP进行全国推广 主要成本来自算力公司训练费用[9] - 参观者建议开放训练权限以定制更符合需求的数字人形象[9]