强化学习

搜索文档
ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一
机器之心· 2025-07-14 10:29
人工智能研究进展 - 核心团队来自北京通用人工智能研究院机器学习实验室,负责人李庆博士专注于多模态理解、多模态智能体、具身智能等方向 [1] - 研究提出统一空间理解与主动探索的新型模型,被ICCV 2025接收并获得满分评价 [3] - 论文标题为《Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation》 [5] 技术方法与创新 - 将具身导航建模为探索与视觉落地协同进行的闭环过程,实现理解和探索互相推动、交替进行 [7][8][9] - 模型设计包括在线空间记忆构建与空间推理与决策两大核心模块,协同优化实现探索与理解的闭环融合 [18] - 采用虚实结合的数据采集策略,融合ScanNet和HM3D场景数据,覆盖超过90万条导航轨迹和上千万语言描述 [26][27] 实验结果与性能 - 在GOAT-Bench基准测试中,MTU3D成功率分别达到52.2%、48.4%和47.2%,相比现有方法最高提升超过20% [30] - 在SG3D-Nav时序任务导航中,MTU3D在s-SR、t-SR和SPL指标上均显著优于强化学习和模块化方法 [31][32] - 协同训练策略VLE在OVON、GOAT和SG3D任务中分别带来5.5%、13.9%和5.0%的性能提升 [34] 应用与前景 - MTU3D生成的探索轨迹将GPT-4V在A-EQA任务中的成功率从41.8%提升到44.2% [33] - 模型在真实机器人上完成任务,为具身导航提供新思路和更多想象空间 [40][42] - 研究标志着人工智能从虚拟空间迈向真实物理世界的关键阶段 [41]
面试了很多端到端候选人,发现还是有很多人搞不清楚。。。
自动驾驶之心· 2025-07-13 21:18
端到端自动驾驶技术概述 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 是当前薪资最高的算法岗位之一 3-5年经验可达百万年薪 [2] - 端到端系统实现从传感器输入到车辆规划/控制信息的直接建模 避免模块化方法间的误差累积 BEV感知打通模块化壁垒 UniAD统一感知和规划任务 [2] - 学术界和工业界聚焦端到端技术 衍生出多种算法流派 UniAD并非最终解 新算法不断涌现 [2] 端到端技术发展现状 - 技术方向包括多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等 学习路径复杂 论文数量繁多 知识碎片化 [4] - 高质量文档缺乏 提高入门难度 学习目标驱动导航需结合实战 但缺乏系统指导 难以从理论过渡到实践 [4] - 最新技术流派包括:PLUTO为代表的二段式端到端 UniAD为代表的基于感知的一段式端到端 OccWorld为代表的基于世界模型的一段式端到端 DiffusionDrive为代表的基于扩散模型的一段式端到端 [9] 端到端课程体系 - 课程特点:直击痛点快速入门 构建领域框架提升研究能力 理论结合实践学以致用 [5][6][7] - 课程大纲:端到端算法介绍 背景知识 二段式端到端 一段式端到端与VLA 课程大作业 [11][12][13][15] - 重点章节:一段式端到端与VLA为课程精华 涵盖基于感知/世界模型/扩散模型/VLA的四大子领域 [13] 技术深度解析 - 二段式端到端:分析PLUTO CarPlanner Plan-R1等经典与前沿工作 对比一段式优缺点 [12] - 一段式端到端:UniAD和VAD为奠基作 PARA-Drive为最新进展 世界模型应用广泛 扩散模型实现多模轨迹预测 VLA为当前技术皇冠 [13] - 关键技术:Transformer CLIP LLAVA BEV感知 扩散模型 RLHF GRPO等构成完整技术栈 [14] 课程实施细节 - 开课时间8月15日 三个月完成 采用离线视频教学+VIP群答疑+三次线上答疑模式 [20] - 学员需自备4090及以上GPU 具备自动驾驶基础 熟悉Transformer 强化学习 BEV感知等技术概念 [22] - 预期成果:达到1年经验算法工程师水平 掌握端到端技术框架 可复现主流算法 应用于实际项目 [22]
为什么行业如此痴迷于强化学习?
自动驾驶之心· 2025-07-13 21:18
核心观点 - 强化学习(RL)相比监督微调(SFT)能显著提升大语言模型的泛化能力,尤其在跨领域任务迁移中表现更优 [5][6][14] - 数学推理能力的提升可正向迁移至其他理科领域,验证了RL训练对机器智能发展的关键作用 [7][15] - SFT训练会导致模型在非推理任务上出现负向迁移(TI_non达113.7),而RL模型保持稳定(TI_non仅36.9) [7][12] 训练方法对比 - **模仿学习(SFT)**:依赖高质量数据集直接复制解题过程,但导致模型输出冗长(3000+重复token)且破坏原有知识结构(158-390个无关token变化) [6][13][16] - **强化学习(RL)**:仅提供最终答案奖励,模型自主探索解题路径,保持表示空间稳定(仅14-15个任务相关token变化) [10][11][16] 实验设计 - 使用相同基础模型(Qwen3-14B-Base)和数学数据集(47K问题)对比RL与SFT效果 [11] - 可迁移指数量化显示:RL模型在数学/其他推理/非推理任务的TI分别为8.5/3.5/36.9,显著优于SFT模型(21.4/10.9/113.7) [8][12] - PCA分析证实RL模型的表示漂移距离最小,知识结构保留度最佳 [10] 案例表现 - 数学问题求解:RL模型直接建立方程(简洁),SFT模型产生大量冗余检查步骤 [13] - 非推理任务:RL模型高效完成辞职邮件,SFT模型陷入过度思考循环 [13] 行业意义 - 研究为Grok 4等新一代RL训练范式提供了理论支撑,证明探索式学习更接近人类智能发展路径 [1][14][15] - 数学能力作为基础学科的迁移效应,验证了跨领域知识转移对AI系统的重要性 [7][15]
MuJoCo明天即将开课啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-07-13 17:48
具身智能技术发展 - 具身智能正在全面崛起 重新定义人类与机器的关系 从Tesla的Optimus到Boston Dynamics的Atlas 全球顶尖科技公司都在布局这一领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等多个行业 机器人在工厂精密装配、医院协助手术、家庭服务、危险环境救援等方面具有革命性潜力 [1] MuJoCo技术核心价值 - MuJoCo是连接虚拟世界与现实世界的重要桥梁 为机器人学习提供高保真、高效率的训练环境 [4] - MuJoCo可加速学习过程数百倍 支持极端情况测试 通过域随机化技术实现仿真到现实的策略迁移 [6] - MuJoCo采用先进接触动力学算法 支持高度并行化计算 提供视觉/触觉/力觉等多模态传感器模型 已成为学术界和工业界标准工具 [6] 行业应用与生态 - Google、OpenAI、DeepMind等科技巨头都在使用MuJoCo进行机器人研究 顶级会议ICRA、IROS、NeurIPS、ICML大量前沿研究基于MuJoCo [8] - 掌握MuJoCo意味着站在具身智能技术最前沿 获得参与技术革命的入场券 [8] 技术课程体系 - 课程包含MuJoCo技术细节与完整具身智能技术栈 涵盖物理仿真原理、深度强化学习、机器人控制理论、Sim-to-Real迁移技术 [9] - 采用项目驱动学习方式 构建机械臂控制、视觉抓取、运动技能、多机器人协作等实际应用 项目来自中国机器人企业真实场景 [11][30] - 课程工具链包括MuJoCo、Stable Baselines3、PyTorch等 培养从环境搭建到模型训练的完整工作流程 [13] 职业发展路径 - 技术专家方向:机器人算法工程师年薪30-60万 一线城市可达80-150万 涵盖控制算法、感知算法、规划算法研发 [34] - 产品经理方向:机器人产品经理年薪30-80万 需具备技术细节理解与市场洞察能力 可发展为技术总监或创业者 [34] 课程结构设计 - 六周进阶式学习模块:MuJoCo基础→高级建模→强化学习→机器人控制→多智能体系统→Sim-to-Real迁移 [15][17] - 六个实战项目:智能机械臂→视觉抓取→强化学习运动技能→自适应控制→多机器人协作→Sim-to-Real验证 [16][19][21][23][25][27][29]
头部互联网具身实验室招募:多模态大模型、机器人多模态交互、强化学习等算法岗位
具身智能之心· 2025-07-13 13:03
招聘岗位概述 - 头部大型互联网具身实验室正在招聘具身多模态大模型、机器人多模态交互、强化学习等方向的研究员 岗位base北京 薪资open [1] 具身多模态大模型研究员 职位描述 - 主导具身智能大模型的核心算法研发 包括多模态感知(视觉、语言、动作)、强化学习策略优化、世界模型构建等方向 [1] - 研究传统仿真与生成式仿真相结合的数据合成方案 构建机器人及具身智能领域的新型数据范式 [1] - 跟踪学术界与工业界最新进展(如VLA、具身智能等) 保持技术领先性并推动团队技术迭代 [1] - 推动模型在机器人场景的落地 解决实际应用中的挑战 [1] 职位要求 - 计算机科学、人工智能、数学、机器人学等相关专业 博士学位优先 5年左右大模型相关工作经验 [2] - 熟悉机器人学、强化学习、多模态融合(VLA)等技术 具备学术敏感度与工程化思维 [2] - 对具身智能、通用机器人方向有浓厚兴趣 具备优秀的逻辑表达与跨团队沟通能力 [2] - 在顶会(CVPR、ICLR、ICRA等)发表过相关论文或主导过开源项目 [2] 机器人多模态交互算法研究员 职位描述 - 研究多模态智能体、多模态推理规划、流式音视频对话模型等前沿技术 推动机器人交互技术创新 [3] - 探索多模态大模型、强化学习算法、大模型Agent在机器人上的创新应用 参与研发下一代智能机器人系统 [3] 职位要求 - 硕士研究生及以上学历 具备优秀的代码能力、数据结构和基础算法功底 [4] - 在大模型、多模态、NLP、CV、强化学习等领域有一定研究基础或项目经验 [4] - 主导过相关重要项目或在顶会(CVPR、ACL、NeurIPS等)发表过论文者优先 [4] - 具备良好的沟通协作能力 能够与团队紧密合作推进项目 [4] 强化学习研究员 职位描述 - 探索多模态大模型、VLA等前沿技术方向 [5] - 推动世界模型、强化学习在具身智能的应用 参与研发下一代智能机器人 [5] 职位要求 - 计算机、自动化、电子等相关专业 [6] - 扎实的机器学习、深度学习、强化学习基础 [6] - 在具身智能、多模态、大模型等领域有研究基础或项目经验 在顶会发表过论文 [6] - 具备良好的沟通协作能力 能推进技术进步 [6] 加分项 - 动手能力和代码能力强 ACM、ICPC等比赛获奖者优先 [9] - 对机器人技术有浓厚兴趣 参加过机器人比赛者优先 [9] - 熟悉物理仿真和常见的虚拟仿真环境 [9]
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
自动驾驶之心· 2025-07-11 14:46
具身智能综述与研究方向 - 文章整理了数十篇具身智能相关综述,涵盖数据集、评测、VLA、VLN、强化学习、基础模型、DP等多个方向,展示具身智能发展路线 [1] - 内容来自具身智能之心知识星球,提供近30+具身路线学习和近200家具身公司与机构成员交流机会 [9] 视觉-语言-动作(VLA)模型 - 从动作标记化视角综述VLA模型,探讨其在自动驾驶领域的应用 [2] - 分析VLA模型后训练与人类运动学习的相似性,包括进展、挑战和趋势 [2] - 综述VLA模型的概念、进展、应用和挑战 [5] - 针对具身AI的VLA模型进行系统调查 [7][8] 机器人基础模型与强化学习 - 探讨基础模型在机器人领域的应用、挑战和未来发展方向 [3] - 调查深度强化学习在机器人真实场景中的成功案例 [3] - 分析扩散策略在机器人操作中的分类、应用和未来趋势 [3] - 研究机器人操作中的模仿学习方法 [5] 具身工业机器人与神经科学启发 - 提出具身智能工业机器人的概念和技术框架 [4] - 开发受神经科学启发的具身智能体框架Neural Brain [4][5] 多模态感知与机器人导航 - 调查基于物理模拟器的机器人导航和操作技术 [5] - 研究目标导向导航中的多模态感知方法 [5] - 分析机器人视觉中的多模态融合和视觉语言模型 [6] - 探讨SE(3)-等变机器人学习和控制方法 [6] 生成式AI与机器人操作 - 调查生成式人工智能在机器人操作中的应用 [6] - 研究扩散模型在机器人操作中的进展 [5][6] 具身AI系统与数据集 - 开发通用型具身智能体标准和统一数据集 [9] - 探索从互联网视频中学习通用机器人技能的方法 [9] - 调查人形机器人远程操作技术 [9] - 研究基于基础模型的机器人学习向具身AI发展 [9]
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
量子位· 2025-07-11 12:00
强化学习与奖励模型 - 强化学习已成为AI迈向AGI进程中的关键技术节点,改变了大语言模型的后训练范式 [1] - 奖励模型的设计与训练是制约后训练效果和模型能力提升的瓶颈,缺乏系统性的预训练和扩展方法 [2] - 传统奖励模型基于绝对偏好,难以灵活应对不同定制化场景 [7] POLAR新范式 - POLAR是一种与绝对偏好解耦的奖励建模新范式,具备可扩展性和强泛化能力 [3] - POLAR根据参考答案为模型输出打分,可灵活适配不同风格的定制化需求 [5][7] - POLAR能处理开放问题和闭式问题,提供细粒度的偏好区分 [11] - POLAR完美契合强化微调框架(RFT),使通用场景应用成为可能 [14] POLAR训练方法 - POLAR通过对比学习衡量训练策略与目标策略之间的距离作为奖励信号 [21] - 预训练阶段使用自动化合成数据构建,从131个Base LLM和53个Chat LLM中采样 [22] - POLAR-1.8B使用0.94T Token预训练数据,POLAR-7B使用3.6T Token [23] - 预训练后使用少量偏好数据对齐人类偏好 [23][24] POLAR性能表现 - POLAR展现出Scaling效应,验证集损失随模型参数和计算量增加呈幂律关系下降 [28][29] - POLAR-1.8B在STEM任务中超越最佳基线24.9个百分点,POLAR-7B超越26.2个百分点 [32] - POLAR-1.8B仅1.8B参数即可与27B和72B参数的奖励模型相当 [32] - POLAR-7B微调的Llama-3.1-8B在所有基准测试中平均提升9.0% [34]
从Grok-4看AI产业发展
2025-07-11 09:05
纪要涉及的行业和公司 - **行业**:AI 行业 - **公司**:OpenAI、谷歌、Meta、英伟达、Deep Sea 公司、DPC 纪要提到的核心观点和论据 GROX4 相关 - **亮点进展**:推理能力大幅提升,HLE 测试中 heavy 版本得 50 分超 OpenAI 的 23 分,美国奥数竞赛表现优异;通过稀疏激活策略优化参数,参数量减少 40%,用 1.7 万亿 TOKEN 性能超 GROX3 的 2.7 万亿 TOKEN;引入多模态融合,含音频、图像、实时搜索和工具调用,支持实时上网;API 定价提高,输入每百万 TOKEN 收费 3 美元,输出每百万 TOKEN 收费 15 美元是 O3 一倍;训练加入多智能体协同机制,提高模型后续调用能力[1][3][6] - **对 AI 产业影响**:为未来 AI 产业发展提供新方向,可能重构商业价值分配,提高模型智能化水平和应用场景广泛性,对算力需求提出更高要求[1][7] - **编程能力表现**:Benchmark 测试高分有局限性,因训练数据可能受污染,在非标准 Benchmark 问题上表现大幅下降,在指令遵循、基本对话能力及幻觉率方面比大厂稍差[14] - **定价分析**:定价 300 美金每月昂贵,反映自信及成本因素,对普通用户实际体验未显著优于其他大厂产品,高定价或基于成本非市场需求[15] GPT5 相关 - **发布预期**:原定于 7 月发布,因模型能力和测试结果不满意可能推迟 1 - 2 个月,最晚 9 月发布[5] - **技术进步方向和亮点**:集中在多模态深度整合,包括文生图、文生视频、音频交互能力;增强 agent 功能提升产品体验;继续进行 Pre - train 阶段 scale up,但面临 ROI 较低瓶颈[5] Grok 创新模式相关 - **对 AI 大模型发展影响**:从量变引发质变,提高模型智能化和应用场景广泛性,可能重构商业价值分配,对算力需求提出更高要求[7] - **技术实现方式**:将 agent 调用放入预训练,多个 agent 协作完成任务,agent 在预训练阶段有调用能力[7] - **对行业分工模式影响**:可能改变 AI 行业分工模式,大厂或主导 agent 开发,挤压初创企业空间,但行业数据敏感企业有独特价值,初创企业在某些功能超越大厂可找到生存空间[11] AI 大模型发展趋势相关 - **发展阶段**:仍处高速上升阶段,强化学习技术不断 scale up,但预训练阶段未来可能进入 log 函数式缓慢增长阶段[8] - **算力需求**:持续增长,英伟达市值突破是信号,训练和推理阶段算力需求呈指数级增长,训练端目标两至三年 H100 和 B100 卡片从超 20 万张到 100 万张,推理端因多 agent 调用算力需求达 8 倍增长[2][8][19] 其他模型技术对比相关 - **GPT O1 和 Grok 区别**:GPT O1 2024 年 9 月推出,后训练引入强化学习,通过思维链提高答案质量;Grok 是第二代强化学习后训练,延续思维链机制,加入工具调用和网络搜索功能,派出多个 agent 平行搜索、整合自评,提高结果质量增加算力需求[9][10] 市场定价策略相关 - **AI 产品定价**:部分 AI 产品定价较高但未达难以接受程度,如 Grok 300 美元/月、OpenAI 的 O3 200 美元/月,Grok 具备强大 agent 功能,个人用户付费订阅占比 10% - 20%,高端用户可获高级体验,部分用户能回本[16] 各公司动态相关 - **海外一线梯队厂商**:迭代方向集中在多模态原生整合和智能代理整合,谷歌、Meta 探索多种模态融合,谷歌 JM2.5 支持视频输入,发力智能眼镜领域[21] - **广告植入计划**:谷歌和 Meta 计划将广告植入大语言模型,已处实验阶段,落地面临确保广告商公平性挑战,预计 2025 年底前有 Beta 版本[22] - **国内 Deep Sea 公司**:R2 模型进展缓慢,受算力瓶颈限制,未获取大量海外 H100 卡片,达到预训练推理端算力需 20 万张卡是巨大挑战[23][24] - **DPC**:目前无海外市场动作,算力或限制实验和能力提升,可能不采用 Grox 铺张训练方式,强化学习非增长受益者,但有算法创新值得期待[25] - **模型发布时间**:GPT - 5 预计 7 月底 - 9 月发布,各公司根据自身训练进度决定发布时间,下半年重磅新模型可能是 JNI3,各公司不会刻意同步发布时间[26] 其他重要但可能被忽略的内容 - Grok 即将发布专属编码模型,基础模型有强大编码能力,agent 能实现整合现有代码库功能,但系统协调能力未在 Benchmark 展示,考虑功能和潜力定价不算过于不合理[17][18] - AI 行业每半年出现新范式带动增长,现阶段 GPU 需求持续快速增长推动市场发展[20]
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
具身智能之心· 2025-07-11 08:57
具身智能研究综述 - 文章整理了数十篇具身智能领域的综述论文,涵盖数据集、评测、视觉-语言-动作模型(VLA)、视觉语言导航(VLN)、强化学习、基础模型和扩散策略(DP)等方向 [1] 视觉-语言-动作模型(VLA) - 从动作标记化视角综述VLA模型的发展 [2] - 自动驾驶领域的VLA模型应用现状 [2] - VLA模型后训练与人类运动学习的类比研究 [2] - 探讨VLA模型的概念、进展、应用与挑战 [5] - 机器人视觉中的多模态融合与VLM应用 [6] 机器人基础模型 - 机器人领域基础模型的应用现状与未来挑战 [3] - 深度强化学习在机器人领域的实际应用案例 [3] - 扩散策略在机器人操作中的分类与发展方向 [3] - 面向具身AI的机器人基础模型研究进展 [9] 工业机器人技术 - 具身智能工业机器人的概念与技术框架 [4] - 受神经科学启发的具身智能体框架Neural Brain [4] 机器人导航与操作 - 物理模拟器在具身AI时代的机器人导航与操作应用 [5] - 目标导向导航的多模态感知技术 [5] - 扩散模型在机器人操作中的应用现状 [5] - 基于模仿学习的灵巧操作技术综述 [5] - SE(3)等变机器人学习与控制方法 [6] 多模态大模型 - 具身多模态大模型的发展与数据集建设 [8] - 大模型在具身AI中的研究挑战 [8] - 网络视频数据在通用机器人学习中的应用 [9] 数据集与评测 - 通用型具身智能体数据集标准建设 [9] - 人形机器人远程操作技术研究 [9]
2025上半年,AI Agent领域有什么变化和机会?
虎嗅· 2025-07-11 08:11
核心观点 - 2025年上半年AI Agent迅猛发展,行业进入"万物皆可Agent"的热潮,模型侧与应用侧均迎来关键变化 [1][2][7] - AI Agent是继提示词、工作流之后AI应用的第三阶段,核心价值在于感知环境、自主决策及工具使用能力 [2][19] - 强化学习驱动的持续迭代被视为Agent发展的关键路径,编程领域率先验证PMF [20][23][25] - 垂直领域Agent因具备行业先验知识更受关注,ToC长链条任务规划和工具类内容生成存在机会 [43][44][45] 技术突破与行业动态 - 模型侧:DeepSeek打破OpenAI垄断,推动推理模型赛道"军备竞赛",OpenAI、Anthropic、Google相继发布o3 Pro、Claude 4系列、Gemini 2.5 Pro等重磅模型 [5][6] - 应用侧:OpenAI发布Operator与Deep Research两款Agent产品,2025年被业界视为"AI Agent元年" [7][14] - 中国团队表现活跃:Manus、Genspark等产品引发关注,Minimax、月之暗面等大模型厂商加入战局 [8] - AI编程赛道验证PMF:Cursor、Windsurf被OpenAI收购,Lovable、Replit、Bolt快速发展 [9] AI Agent的演进与特征 - 三阶段演进:从Prompt(对话交互)到Workflow(预设流程)再到Agent(自主决策) [17][18][19] - 核心能力:感知环境(理解用户需求与上下文)、自主决策(突破Workflow固定流程限制)、工具使用(浏览器/计算机操作) [19][20] - 技术驱动:Tool Use能力突破(MCP通用接口普及)与强化学习提升推理能力是关键 [20][23][24] 落地挑战与创新机会 - 技术瓶颈:上下文长度管理、记忆机制、物理环境交互能力不足 [39] - 商业模式:订阅制、按token付费、按结果付费等模式尚待验证 [40] - 投资方向:垂直领域Agent(行业knowhow优势)、ToC长链条任务(如Deep Research类产品) [43][44] - 竞争格局:模型厂商与创业公司边界模糊,端到端Agent与模块化Agent路径分化 [27][28] 行业共识与争议 - 强化学习vsWorkflow:前者性能上限高但可控性差,后者更适合短期商业化 [30][31] - 《苦涩的教训》启示:Agent应减少人类先验干预,依赖算力与数据自主迭代 [30][31] - 环境构建争议:需平衡先验能力与反馈闭环,多模态交互或成关键 [33][34][35]