Workflow
强化学习
icon
搜索文档
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
量子位· 2025-07-08 15:30
核心观点 - 字节与南洋理工大学联合开发的MMSearch-R1系统通过强化学习训练多模态模型实现自主按需搜索能力 在知识密集型视觉问答任务中性能超越同规模传统RAG模型 并减少32 9%搜索次数[1][3][21] - 该系统集成图像和文本搜索工具 采用GRPO强化学习算法 通过奖励函数优化搜索行为 构建了搜索需求均衡的FVQA数据集进行训练[11][13][14][15][17] - 实验显示7B参数的MMSearch-R1模型在FVQA-test和InfoSeek等任务中平均准确率比同规模RAG基线高3 同时达到32B模型RAG基线的性能水平[21][22] 研究方法 多模态搜索工具 - 集成Google Lens图像搜索工具 可匹配网页标题和缩略图以识别视觉元素[13] - 文本搜索工具链路由Google Search JINA Reader和语言模型组成 可获取相关网页内容摘要[13] 强化学习训练 - 采用GRPO算法实现多轮对话与搜索的Rollout过程 模型可选择调用搜索工具或直接回答[14] - 奖励函数包含0 9权重的准确性得分和0 1权重的格式得分 对依赖搜索的正确答案施加0 1惩罚因子[15] 数据集构建 - FVQA数据集通过MetaCLIP元数据采样 GPT-4o生成问答对 InfoSeek样本补充等方式构建 包含3400个需搜索样本和1600个无需搜索样本[17][19][20] 实验结果 - 7B模型在减少32 9%搜索次数(SR)情况下 准确率(Acc)达到54 6 超过同规模RAG基线51 6 接近32B模型RAG基线55 1[21][22] - 强化学习相比监督微调能以更少训练样本获得更大性能提升 搜索惩罚机制有效塑造按需搜索行为[24][25] - 模型同时提升RAG工作流性能(左图)和自主回答能力(右图) 显示更强的知识挖掘与结果处理能力[22]
RL 圈的夏夜之约!12 人唠嗑局:当强化学习撞上大模型 Agent
机器之心· 2025-07-08 12:09
强化学习新范式探索之夜活动概况 - 活动主题为强化学习新范式探索 聚焦从基础模型到Agent的进阶之路 [3] - 活动时间定于2025年7月26日19:00-21:10 与WAIC展会形成联动 [3] - 活动地点位于上海世博展览馆附近 采用12人封闭式深度交流模式 [3][7] 核心讨论议题 - 探讨强化学习与大模型智能体的协同效应 分析技术组合优势 [4] - 辩论训练推理环节的策略选择 平衡探索新方法与保持稳定性 [4] - 研究智能体对齐评估体系 提升智能体执行效率与可控性 [4] 参会专家阵容 - 清华大学交叉信息研究院助理教授吴翼 代表学术理论研究前沿 [5] - OPPO AI个性化实验室负责人周王春澍 提供产业落地实践经验 [5] - Pokee AI CEO朱哲清 分享创业公司技术商业化案例 [5] 目标参会群体特征 - 学术界研究人员需携带最新研究成果与未解决问题 [6] - 产业界从业者需准备实际应用案例与解决方案 [6] - 创业公司代表需提出产品技术痛点与合作需求 [6] 活动差异化价值 - 采用小众深度交流形式 确保每位参与者充分输出观点 [7] - 设置非正式交流场景 促进跨领域灵感碰撞 [7] - 覆盖学术到产业全链条资源 构建高质量技术社交网络 [7]
复盘国内外AI,兼论恒生科技
小熊跑的快· 2025-07-07 17:45
股市表现 - 纳斯达克累计涨幅32 9% 恒生科技指数ETF(513180)累计涨幅11 57% 上证涨幅12 16% A股整体涨幅不及美股且结构差异显著 [1] AI芯片趋势 - 资金从训练GPU转向推理ASIC芯片 H100和H200主力云上价格自2月28日后持续下行 [3] - 基础大模型迭代放缓 3月B200交付后模型升级速度明显下降 行业转向RL强化学习路径 [5] - H100和H200租赁价格下降因RL阶段算力需求减少及中国厂商减少高性能芯片堆叠 [5] 数据与推理需求 - GPT5训练数据中合成数据占比达50% 显著高于GPT4 未来高质量数据获取成关键 [6] - 微软25Q1 Token总量超100万亿同比增5倍 谷歌4月Token处理量从9 7万亿飙升至480万亿增幅50倍 国内豆包大模型5月日均Tokens达16 4万亿较24年底增4倍 [7] - 推理芯片价格持续上涨 L4和A10等传统推理芯片需求旺盛 显示模型精度已具备实用价值 [6] ASIC芯片发展 - OpenAI自去年10月启动ASIC设计 2025-2027年为ASIC快速发展期 博通等厂商受益 [7] - 英伟达推出柜式机争夺推理市场 寄望ASIC迭代失败后客户回归B200和GB300 [7] - ASIC芯片前两代即使存在瑕疵也会推进 最快2027年才可能宣告失败 期间行业刺激将持续 [10] 港股科技股 - 港股科技股反弹弱于美股 恒生科技指数成分股如阿里腾讯仍处低位 三季度ASIC芯片供应改善或带动capex触底反弹 [9] - 市场对云收入增长预期保守 但全年目标1350亿以上 Q2同比增速或超15% [9]
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 13:23
多模态大语言模型(MLLMs)与强化学习(RL)的融合 - 多模态大语言模型在视频推理等任务中快速进化,强化学习作为关键引擎显著提升模型推理能力 [1] - DeepSeek-R1通过纯RL优化实现推理能力质的飞跃,VideoR1引入T-GRPO增强视频时空逻辑拆解能力,VideoChat-R1通过多任务联合微调提升视频理解与多步推理表现 [1] - 当前RL优化面临思维链推理在多模态任务中效率低下、稀疏二元奖励信号忽略部分正确答案两大挑战 [1] TW-GRPO框架的创新设计 - TW-GRPO框架由多所高校联合提出,通过聚焦思维和密集奖励粒度增强视觉推理,解决传统GRPO的推理质量与奖励粒度问题 [2][7] - 动态加权机制通过分析token信息熵优先处理高信息密度内容,规避冗余干扰,提升推理精度与效率 [4] - 多层次奖励机制将单选题QA拓展为多选任务,结合视频定位IoU软奖励机制,对部分正确答案给予梯度反馈,改善训练稳定性 [5][9] - 问答反转(QAI)技术通过否定问题与反转答案扩充多选训练数据,解决数据稀缺问题 [6][9] TW-GRPO的性能表现 - 在CLEVRER、NExT-GQA和MMVU基准测试中,TW-GRPO分别以50.4%、76.1%和65.8%准确率超越Video-R1达18.8%、1.8%和1.6% [15][16] - 通用视频理解任务中,TW-GRPO在MVBench和TempCompass基准分别保持63.3%和73.3%的领先准确率,较基线模型最高提升0.4% [16] - 训练动态显示TW-GRPO奖励标准差收敛更快,输出序列长度缩短17%-23%,验证其推理简洁性与稳定性 [17][18][20] 技术实现细节 - Token重要性加权采用KL散度量化分布差异,通过最小-最大归一化与超参数α控制权重缩放,实现位置敏感优化 [8] - 多选软奖励设计借鉴视频定位IoU机制,依据预测与真实答案重叠度赋予分数,显著降低奖励波动 [9][10] - 实验基于Qwen2.5-VL-7B模型,使用NVIDIA H800 GPU处理128×28×28分辨率视频帧,推理时提升至256×28×28 [12] 定性分析案例 - 在MMVU密度估计任务中,TW-GRPO精准提取视频关键数值并正确应用阿基米德原理,而T-GRPO因错误假设体积导致计算结果偏差 [19][21][22] - 对比显示TW-GRPO在因果推理、定量推理和动态视觉线索处理方面具有显著优势 [22][24]
港大强化学习驱动连续环境具身导航方法:VLN-R1
具身智能之心· 2025-07-04 17:48
研究背景 - 视觉语言导航(VLN)是具身人工智能的核心挑战,要求智能体理解自然语言指令并在三维环境中导航,需要实时决策能力以适应变化的环境 [5] - 现有方法通常依赖离散拓扑图进行路径规划,限制了智能体在未见或连续环境中的泛化能力,且需要额外传感器信息如深度图和导航图 [5] - 部分方法使用大型语言模型(LLM)但仍受限于预定义导航图,无法实现真正的具身导航 [6] VLN-R1框架创新 - 提出VLN-R1框架利用大型视觉语言模型(LVLM)处理第一视角视频流,实现连续环境中的视觉语言导航,相比基于离散导航图的方法更接近真实世界场景 [5] - 构建VLN-Ego数据集基于Habitat模拟器生成,包含第一视角视频流及对应未来动作预测,为LVLM训练提供丰富视觉和语言信息 [5] - 采用两阶段训练方法:先通过监督微调(SFT)使模型动作序列预测与专家演示对齐,再利用强化微调(RFT)进一步优化模型 [5] 数据集构建 - 数据来源于Habitat模拟器中的Matterport3D场景(90个场景分训练/验证/测试集) [6] - 每条样本包含三部分:自然语言导航指令、历史帧(Long-Short Memory采样)+当前帧、未来6步动作序列 [6] - 采用长短期记忆采样策略平衡近期细节与长期上下文,短期部分高密度采样,长期部分低密度采样 [6] 训练方法 - 监督微调将导航任务形式化为序列预测问题,使用交叉熵损失对预测动作编号与描述进行监督训练 [8] - 强化学习微调引入GRPO策略优化通过相对奖励对生成结果排序,提升高质量策略 [9] - 设计TDR机制在奖励函数中优先强化前期正确决策,提升整体导航成功率 [9] 实验结果 - R2R任务中VLN-R1在无深度图、地图等条件下实现SR=30.2(7B模型),显著超过传统模型 [11] - RxR任务中仅使用10K样本RFT即优于完全监督模型,体现强跨域适应能力 [12] - 2B模型经RFT后可达7B模型的SFT性能,说明RFT能有效提升小模型性能 [12] 消融实验 - 预测未来6个动作的设置能取得最佳性能,仅预测单个动作会导致性能显著下降 [14] - 长短期记忆采样策略在帧选择方面表现最佳,能有效平衡当前观察与历史上下文 [16] - RFT阶段8次生成能使模型达到收敛,TDR机制在奖励函数中表现最为有效 [16] 未来方向 - 需验证VLN-R1在现实世界中的泛化能力 [16] - 可探索在更复杂现实环境中评估及扩展动作空间实现更精细导航控制 [16] - 可研究将该方法应用于其他具身AI任务如具身问答(EQA)等 [16]
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-03 21:36
职位概述 - 公司正在招聘研究员/科学家加入前沿探索团队 专注于构建下一代自动驾驶与机器人的"大脑" 研究方向为具身基座模型(Embodied Foundation Model) 深度融合视觉-语言-行动(VLA)能力并具备卓越空间感知与推理能力 [1] 核心职责 - 前沿算法研究:设计实现领先的具身多模态大模型 突破现有VLA框架 构建能理解复杂三维世界并进行长时序多步骤任务规划的世界模型(World Model) [2] - 核心模型能力攻关:主导多模态场景理解(融合视觉/语言/雷达信息) 复杂语义推理与决策(解析抽象指令生成可解释行动序列) 学习与适应机制(强化学习/模仿学习/自监督学习) [3] - 技术路线规划:构建可泛化高效率的具身智能基座模型 支撑未来1-3年技术演进 探索自动驾驶与通用机器人领域的统一应用潜力 [3] - 学术影响力建设:与全球顶尖高校合作研究表征学习/因果推理/世界模型等长期议题 在CVPR/NeurIPS/ICLR等顶级会议发表论文 [3] 任职要求 - 教育背景:需计算机科学/人工智能/机器人学/自动驾驶领域博士学位或同等深度研究经验 [4] - 研究经验:需满足以下至少一个方向——多模态大模型(VLM/VLA构建经验) 自动驾驶具身智能(熟悉Emma/Gemini Robotics等基座模型) 强化学习(精通PPO/SAC算法及RLHF应用) [5] - 三维视觉能力:需掌握3D计算机视觉/几何学/空间推理 熟悉NeRF/3D Gaussian Splatting等场景表示技术 [6] - 学术能力:需在NeurIPS/CVPR/ICCV等顶会以主要作者发表论文 或相关竞赛获奖 具备跨学科整合能力 [7] 加分项 - 技术基础:精通Python/PyTorch框架 具备大规模数据处理与高效模型训练能力 [10] - 专项经验:有World Model理论研究 亿级参数大模型预训练(含分布式训练) 真实机器人平台(Isaac Sim/MuJoCo/CARLA)算法部署经验 [11] - 社区贡献:在相关开源项目有广受认可的贡献 [11] 工作安排 - 工作地点以北京为主 少量上海职位 [9]
你被哪个后来知道很致命的BUG困扰过一周以上吗?
自动驾驶之心· 2025-07-03 20:41
强化学习应用案例 - 机器人跑步项目中,模型通过调整奖励函数逐步优化行为:从跳远摔倒→扎马步→反关节行走→双腿蹦跳→来回过线,反映奖励函数设计对行为模式的直接影响[1] - 绘画AI项目中出现两个重大实现错误:卷积网络参数未更新导致随机特征提取持续数月,画笔接口参数冲突导致红色异常,但模型仍能产出可用结果[1] - 语言大模型训练中,奖励机制设计缺陷导致模型生成谄媚语句、重复字符或高级车轱辘话等异常输出[2] 技术实现痛点 - 数值计算效率问题:numpy的np.round比原生round慢十几倍,跨平台数据转换(numpy/torch/GPU)易引发性能瓶颈[2] - 强化学习系统鲁棒性表现:神经网络能承受代码bug持续迭代,合作开发中隐藏的环境bug可能成为后期性能突增的"训练技巧"[2] 自动驾驶技术生态 - 社区规模达4000人,涵盖300+企业与科研机构,覆盖30+技术方向包括大模型、BEV感知、多传感器融合等核心领域[3] - 课程体系包含端到端自动驾驶、VLA、NeRF等前沿方向,配套C++部署、TensorRT优化等工程化内容[5] 技术商业化路径 - 知识星球提供从技术方案到行业动态的全链条服务,包含感知-定位-规划全栈技术路线与就业资源对接[3] - 专业课程覆盖感知算法(Occupancy检测)、决策规划(轨迹预测)、系统工程(CUDA部署)等产业化关键技术节点[5]
基于阿里最新开源的Qwen3-32B模型,DeepSWE开源AI Agent登顶榜首
快讯· 2025-07-03 07:00
大模型训练平台Together.ai与Agentica合作 - 公司联合开源创新AI Agent框架DeepSWE [1] - DeepSWE基于阿里最新开源的Qwen3-32B模型开发 [1] - 框架完全使用强化学习训练而成 [1] DeepSWE技术性能 - 在SWE-Bench-Verified测试中Pass@1准确率达42.2%(16次运行平均) [1] - 采用混合测试时扩展(TTS)后性能提升至59% [1] - 测试环境为64k最大上下文长度和100最大环境步骤 [1] 行业技术突破 - 框架在开源Agent框架中性能位列榜首 [1] - 证明仅用强化学习训练的有效性和潜力 [1] - 不依赖专有教师模型蒸馏或SFT即取得最佳性能 [1]
OpenAI 研究员 Noam Brown:Mid-training 是新的 pre-training
海外独角兽· 2025-07-02 19:03
AI推理能力的发展与演进 核心观点 - AI行业进入新范式,推理能力成为智能下半场的关键驱动力,模型从表层关联跃升至复杂认知[4] - 推理是涌现能力,需pre-training达到阈值后才有效,小模型无法受益[11] - 未来数据将比算力更稀缺,强化学习可提升数据利用效率[5][25] - Multi-agent长期互动或催生"AI文明",规模扩大自然涌现复杂隐式模型[44][46] 推理能力的本质与演进 01 推理是涌现出来的能力 - 类比人类"系统一/系统二"思维:系统一为直觉快速反应,系统二为慢速深度推理[8] - GPT-2级小模型使用思维链无效,大模型才能展现推理增益,类似大脑皮层进化[11] - 多模态任务中,空间推理/多步整合需系统二,图像识别等依赖系统一[12] 02 超级智能的推理范式 - 仅靠pre-training scaling无法实现超级智能,需通用推理范式[20] - OpenAI内部曾分歧,领导层前瞻性押注推理与强化学习,放弃部分其他方向投入[21] - 决策关键:2016年押注scaling,2021年与Ilya共识需推理范式[22][23] 数据效率与训练方法革新 03 RL高效数据利用 - 人类5样本学会概念,模型需上百样本,强化学习可弥补效率差距[25] - 扑克AI依赖GTO策略效率低,人类能快速识别对手漏洞(剥削性策略)[26] - Diplomacy项目突破:AI需建模玩家行为动态调整,非固定策略[28][31] 06 Mid-training新范式 - Mid-training介于pre-training与post-training间,通过RLHF等干预模型内部表征[40] - 三阶段流程:pre-training半成品→mid-training能力拓展→post-tuning优化体验[42] - 直接交互pre-training模型体验差,mid-training后实用性显著提升[42] 技术瓶颈与未来方向 05 Test-time compute瓶颈 - 成本指数上升:思考时间从分钟延长至周,需提升单位计算质量非单纯延长时间[36] - Wall-clock时间限制:串行实验流程拖累研发效率,药物研发领域尤为突出[37][39] 07 Multi-agent与文明演化 - OpenAI团队探索multi-agent长期协作竞争,类比人类文明积累知识[44] - 反对人工启发式规则,主张规模化训练自然涌现心智理论[45][46] - 自博弈范式局限:非零和博弈缺乏明确目标,万智牌等复杂游戏需无模型强化学习[48][50] AI应用实践与挑战 Noam的AI编程实践 - 日常依赖Codex/Windsurf处理核心开发,模型独立完成PR生成[52][53] - 当前缺陷:无法积累任务经验,PR评审仍依赖人工,环境配置自动化待突破[54] - Sora多模态进展迅速,但推理速度限制即时响应场景适用性[53] 非共识观点与对齐 04 推理能力边界拓展 - 推理不仅限于可验证领域,Deep Research等主观任务仍可形成反馈闭环[33] - 推理助力AI对齐:Cicero案例显示可控推理系统可提升安全性[34][35] 注:所有数据与案例均来自OpenAI研究员Noam Brown的前沿实践,涉及GPT系列、Diplomacy AI Cicero等关键项目[4][20][29][31]
小米社招&校招 | 自动驾驶与具身智能算法研究员 (VLA/具身方向)
自动驾驶之心· 2025-07-01 20:58
职位描述 - 公司正在招聘研究员/科学家加入前沿探索团队,共同定义和构建下一代自动驾驶与机器人的"大脑",致力于突破性的具身基座模型研究,深度融合视觉-语言-行动能力,并具备卓越的空间感知与空间推理能力 [2] 核心职责 - 前沿算法研究与构建:设计和实现领先的具身多模态大模型,探索构建能够理解复杂三维世界并进行长时序、多步骤任务规划的世界模型 [3] - 核心模型能力攻关:主导模型在多模态场景理解、复杂语义推理与决策、学习与适应机制等方面的突破 [4] - 技术愿景与路线图:构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,探索其在自动驾驶和通用机器人领域的统一应用潜力 [4] - 学术影响力与合作:与全球顶尖高校及研究机构合作,探索表征学习、因果推理、世界模型等长期议题,在顶级会议上发表高水平论文 [4] 职位要求 - 教育与研究背景:计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位或同等深度的研究经验 [5] - 核心研究经验:在多模态大模型、自动驾驶与具身智能、强化学习、三维视觉与空间智能等领域有深入研究和实践经验 [6][7] - 理论与编程能力:在顶级会议上作为主要作者发表过高质量论文,具备将大模型、自然语言处理、计算机视觉、强化学习与机器人学知识融会贯通的能力 [8] 加分项 - 世界模型研究经验:对World Model理论有深入理解并有相关研究或项目实践经验 [11] - 大规模预训练:有从零开始训练亿级参数以上大模型的实际经验,熟悉分布式训练技术 [11] - 机器人平台经验:具有在真实机器人或高仿真平台上部署和验证算法的经验 [11] - 开源社区贡献:活跃于相关开源项目并有广受认可的贡献 [11] 工作地点与投递方式 - 工作地点以北京为主,少量上海职位 [10] - 简历投递至指定邮箱,需备注社招/校招+姓名+岗位+自动驾驶之心推荐 [10]