Workflow
强化学习
icon
搜索文档
美团王兴,又开源一款大模型
36氪· 2025-09-22 18:53
模型发布与开源 - 美团开源首款自研推理模型LongCat-Flash-Thinking 距离其首款大语言模型开源仅24天 [1] - 模型已发布于GitHub和Hugging Face平台 并提供技术报告和在线体验链接 [3] - 实际体验中模型推理和回答长度可能超出体验链接限制 导致答案不完整 [3] 技术架构与训练效率 - 基于自研DORA强化学习基础设施训练 训练速度提升至原来3倍以上 增幅超过200% [1] - 采用课程学习方式构建能力 经历推理增强的中期训练和面向推理的有监督微调 [5] - 强化学习采用三管齐下方案:系统层面通过DORA框架支持异步训练与灵活调度 算法层面改良PPO方法 奖励机制引入生成式奖励模型GenRM [9][10] - 在数万张加速卡上 RL训练速度达传统同步方式3倍以上 FLOPs投入约为预训练阶段20% [9] 性能表现与基准测试 - 在通用问答、数学推理、通用推理测试中与GPT-5-Thinking、Gemini2.5-Pro等主流模型基本持平 [1] - 数学推理能力突出:MATH-500取得99.2%接近满分 HMMT-25达83.7% AIME-24达93.3% [12][13] - 逻辑推理方面:ARC-AGI达50.3% 超越OpenAI-o3与Gemini2.5-Pro ZebraLogic达95.5% [13] - 编程能力:LiveCodeBench达79.4% 紧追GPT-5 [14] - 工具增强推理:τ²-Bench-Airline实现67.5%最佳成绩 AIME-25基准测试平均token消耗减少64.5% [1][15] - 定理证明领域:MiniF2F测试达67.6% 比次优模型高出18% [18] - 安全性测试在有害内容、犯罪、虚假信息及隐私四类风险中均获最高分 [18] 应用场景与业务协同 - 重点优化形式推理和Agent推理任务 通过双路径推理框架筛选工具依赖型高质量问题 [7] - 技术提升针对性服务于工具使用、指令遵循和安全性 可能应用于美团消费者Agent产品和AI搜索业务 [19] - 分布式沙箱系统支持数百万次并发代码执行 覆盖20多种编程语言 [10]
突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题
机器之心· 2025-09-22 10:05
机器之心报道 机器之心编辑部 在 AI 领域,大家通常采取后训练方式来让模型获取专项技能。然而后训练一般依赖带有标注参考的监督微调,或通过可验证的程序化检查器提供奖励。 这就带来一些问题,目前许多有价值的任务可能同时缺乏这两种资源。例如在不可验证的场景中(临床、自由对话和创意写作),可能存在多个有效答案,确定 性规则检查难以实施。 在这种情况下,实践者往往只能依赖(i)繁琐的标注流程,或(ii)通过另一个 LLM 对自由形式输出进行粗略奖励。 然而,当后训练缺乏真实标注时,学习信号从何而来? 为了回答这一问题,来自牛津大学、Meta 超级智能实验室等机构的研究者提出设想: 推理计算是否可以替代缺失的监督? 本文认为答案是肯定的,他们提出了一种名为 CaT(Compute as Teacher) 的方法,核心思想是把推理时的额外计算当作教师信号,在缺乏人工标注或可验证答 案时,也能为大模型提供监督信号。 结果显示,推理时直接应用 CaT显著提升了 Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 的性能,即使在不可验证领域(MATH-500 最高提升 27%;HealthBench 提升 ...
VLA搞到现在,可能还是情绪价值的内容偏多一些......
自动驾驶之心· 2025-09-21 00:03
端到端自动驾驶技术现状 - 学术界端到端研究呈现方法远多于问题的状态,各种流派百花齐放,只要实现传感器输入到轨迹规划输出的模型串联即符合端到端范式 [1] - 工业界端到端研发更加务实,车载算力限制将许多热门模型排除在外,但工业界拥有海量驾驶数据优势 [4] - 工业界对端到端技术的研发进度可能已领先于学术界,行业已超越依靠演示和论文证明实力的阶段,转向以量产模型表现为衡量标准 [5] 数据集与技术迭代关系 - 大模型时代数据集迭代速度需与技术迭代同步,固定数据集会阻碍技术发展,摩尔定律在算力和计算机行业均有体现 [2] - 研究团队通过发布数据集维持长期的高影响力产出,互联网海量文本数据是NLP领域大模型成功的关键因素 [3][4] - 工业界数据量达天文数字,不存在数据阻碍技术迭代的问题,反而更容易辨别学术界方法的实用价值 [4] 强化学习在VLA中的应用 - 强化学习适用于无标准答案但能定义答案特征的问题,VLA应用场景符合此特点 [7] - 模仿学习基于最大似然估计,倾向于将示范结果视为最优,而强化学习通过奖励机制定义正向和负向行为特征 [8][9] - 强化学习以奖励最大化为目标,避免错误示范干扰,节省数据采集成本,例如车辆平稳抵达+10分,压实线-10分,闯红灯-20分 [9] 视觉语言大模型发展前景 - VLA短期成果情绪价值偏多,真实控车作用尚不明确,长期串联万物成为行业共识趋势 [10][11] - 量产参考需综合算法、数据、训练策略等多重因素,包括部署难度、数据替代性、复现难度等非单一测试指标 [12] - 行业主流厂商对Large Vision-Language Model的潜力均无质疑,焦点集中于实现时间预期 [11]
特斯拉Optimus再生动荡:AI团队负责人Ashish Kumar转投Meta
环球网资讯· 2025-09-20 12:20
据悉,在特斯拉任职期间,Ashish Kumar主导了Optimus AI团队的核心技术研发工作,其团队专注于通 过人工智能技术突破人形机器人的实用化瓶颈。他在社交平台发文中特别提到,团队"全力推进可扩展 方法——用强化学习取代传统技术栈,并通过视频学习来提升机器人的灵巧度"。 来源:环球网 强化学习作为人工智能领域的前沿技术,允许机器人通过试错自主优化行为策略,而非依赖预设程序。 Ashish Kumar团队此前展示的Optimus原型机已具备分拣电池、搬运物品等基础任务能力,其流畅的动 作控制被业界视为强化学习技术落地的标杆案例。此外,该团队通过视频学习技术,使机器人能够从人 类操作视频中提取动作模式,显著缩短了技能训练周期。 【环球网科技综合报道】9月20日消息,据多家外媒报道,特斯拉Optimus(擎天柱)人形机器人项目AI 团队负责人阿希什·库马尔(Ashish Kumar)已正式辞去在特斯拉的职务,并将于近期加入Meta(原 Facebook)公司担任研究科学家一职。当地时间9月19日,Ashish Kumar在个人社交平台发布长文,回 顾其在特斯拉的职业生涯,并透露了关于人形机器人技术发展的关键 ...
重磅!DeepSeek 梁文锋论文登上《自然》封面,正面回应蒸馏质疑
程序员的那些事· 2025-09-20 09:10
模型技术突破与行业地位 - DeepSeek-R1是全球首个经过同行评审的主流大语言模型,打破了主流大模型尚未经过独立同行评审的空白[4] - 模型采用强化学习进行训练,通过正确解答数学问题获得高分奖励、答错受惩罚的方式,学会了逐步解决问题的推理能力[5] - 该技术使模型能够自我验证和自我反思,在给出新问题答案前检查性能,从而提高了在编程和研究生水平科学问题上的表现[5] 学术认可与技术创新 - 研究成果获得《自然》封面推荐,被描述为在极少人工输入下训练出能进行推理的模型[5] - 模型训练方法解决了人工智能需要大量人工干预添加标签和注释的极大挑战[5] - 与今年1月发布的初版论文相比,本次论文披露了更多模型训练细节并回应了模型发布之初的蒸馏质疑[4]
攻克大模型训推差异难题,蚂蚁开源新一代推理模型Ring-flash-2.0
机器之心· 2025-09-19 18:43
核心技术创新 - 蚂蚁百灵团队推出Ring-flash-2.0开源模型 采用MoE+长思维链+强化学习技术路线 总参数量100B 激活参数量6.1B [1] - 独创棒冰(icepop)算法实现双向截断和掩码修正 通过冻结训推精度差异过大的token梯度回传 解决强化学习训练稳定性问题 [6] - icepop算法相比GRPO训练方法能避免180-200步后的训练崩溃 并将训推精度差异控制在合理范围内 [8][9][10][12] - 采用两阶段强化学习方案:先通过Long-CoT SFT训练让模型学会思考 再通过RLVR强化推理能力 最后加入RLHF优化格式和安全 [14][16] 性能表现突破 - 模型在数学AIME25测试中获得86.98分 CodeForces elo分数达90.23 性能达到40B以内密集模型的SOTA水平 [1] - 支持128K长上下文处理 在4张H20显卡部署下实现200+ token/s的生成速度 相对加速比最高达7倍以上 [21] - 通过1/32专家激活比和MTP层架构优化 仅激活6.1B参数即可等效撬动40B密集模型性能 [21] - 在数学 代码和逻辑推理等多领域推理榜单取得显著突破 [1] 行业影响意义 - 模型突破2025年行业存在的"死亡曲线"问题 解决长思维链场景下MoE模型RL训练奖励崩溃的难题 [5] - 推动大模型竞争进入"高性价比"时代 核心指标从参数数量转向成本效益 [18][25] - 首次实现Long-CoT+RL技术的工程可落地 同步解决训练稳定性 推理成本和开源生态问题 [26] - 开启MoE长思考高性价比时代 为高并发场景提供低成本推理解决方案 [21][26]
具身的这几个方向,组成了所谓的大小脑算法
具身智能之心· 2025-09-19 08:03
具身智能技术框架 - 具身智能领域围绕大脑和小脑两大模块展开 大脑负责思考感知和任务规划 小脑负责高精度运动执行[3] - 细分技术包括仿真 VLA Diffusion Policy VLN 世界模型和强化学习等多个子模块[5] - VLA和世界模型在自动驾驶和具身领域同时发力 代表两个不同技术路线[5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模[7] - 第二阶段进入行为克隆阶段 通过专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题[7] - 第三阶段引入Diffusion Policy方法 通过扩散模型生成动作轨迹 提升策略稳定性与泛化能力[8] - 第四阶段探索VLA模型与强化学习 世界模型 触觉感知等模块融合 弥补现有局限[9] 关键技术发展 - VLA研究热点为端到端和分层两种方案 分别基于大模型和diffusion技术拓展 VLA+RL方案成为新探索方向[5] - Diffusion Policy负责学习具体动作和执行 包括状态扩散 动作空间扩散和三维空间扩散等多个方向[6] - 仿真技术发展sim2real和real2sim2real 解决真机泛化差问题 获多家具身公司认可[6] - VLN更关注目标导航 与移动操作相关联 map-free方案利于任务泛化[6] 应用与落地 - 技术发展推动人形机器人 机械臂 四足机器人等产品落地 服务于工业 家居 餐饮 医疗康复等领域[10] - 产业界重视推动具身智能从论文走向部署 对工程能力提出更高要求[14] - 需掌握在Mujoco IsaacGym Pybullet等平台完成策略训练与仿真测试的能力[14] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[14] 人才需求与培养 - 岗位呈现爆发式增长 导致许多专业人士转入具身智能领域[10] - 需要掌握具身大脑+小脑算法全体系知识点 熟悉模型优化方法[25] - 需掌握仿真 DP VLA VLA+RL模型的基本原理和实际应用[25] - 需熟悉世界模型在具身智能领域中的应用 掌握基于触觉信息的VLA主流方案[25]
纯视觉最新SOTA!AdaThinkDrive:更灵活的自动驾驶VLA思维链(清华&小米)
自动驾驶之心· 2025-09-19 07:33
自动驾驶VLA技术突破 - 提出AdaThinkDrive框架 通过双模式推理机制实现自适应思考 在简单场景采用快速回答模式 在复杂场景启用慢速思考模式[3][4][11] - 基于强化学习的自适应思考奖励策略 结合GRPO算法优化模型选择性应用CoT的行为 实现准确率与效率平衡[4][33][34] - 在Navsim基准测试中PDMS达到90.3 较最佳纯视觉基线模型提升1.7分 推理时间较"始终思考"基线减少14%[4][50][58] 技术实现细节 - 采用三阶段训练流程:大规模驾驶数据预训练获取世界知识与驾驶常识 双模式SFT数据集微调 强化学习优化自适应推理策略[17][24][31] - 输入包含前视图像、导航指令、自车状态及历史轨迹 支持思考与非思考两种推理模式联合分布输出[21][26][32] - 奖励设计包含PDMS奖励、格式奖励、端点奖励和自适应思考奖励四组件 加权整合优化策略模型[34][35][36][37][38] 性能验证结果 - 在Navsim数据集验证 较"永不思考"基线PDMS提升2.0分 较"始终思考"基线提升1.4分 在96%复杂场景启用CoT 84%简单场景采用直接预测[4][56][58] - 仅视觉输入性能与多模态方法GoalFlow相当 PDMS达90.3 Best-of-N规划策略下进一步提升至93.0创基准最高分[50][55] - 消融实验显示预训练阶段使PDMS提升1.3分 强化学习阶段进一步提升2.8分 自适应思考奖励是关键组件[63][64][65] 行业技术背景 - 自动驾驶系统向端到端架构演进 VLM模型通过大规模预训练提升场景理解能力 CoT技术增强可解释性与轨迹质量但存在简单场景过度推理问题[7][10][14] - 现有自适应CoT触发方法主要基于强化学习 分为简洁推理、动态早期终止和按需推理三类 需根据高速公路巡航或路口拥堵等不同场景复杂度调整[16][33] - InternVL3-8B作为基础模型 训练使用64块NVIDIA H20 GPU 三阶段学习率从1×10⁻⁵逐步降至2×10⁻⁶[48][52]
华人学者一天发表了11篇Nature论文
生物世界· 2025-09-18 18:05
文章核心观点 - 2025年9月17日,《自然》期刊一次性上线24篇论文,其中10篇论文的主要作者(通讯作者或第一作者)为华人学者 [2] 华人学者研究成果总结 - 香港城市大学、中国科学院深圳先进技术研究院等机构合作开发出用于持久钙钛矿太阳能电池的强化自组装单分子层技术 [2] - 中国科学院深圳先进技术研究院与东华大学合作研发出一种用于动态生物电子学的可移动长期植入式柔性微纤维 [5] - 加州大学欧文分校团队实现了原子尺度下频率相关声子各向异性的成像 [7] - Dana–Farber 癌症研究中心发现一种控制半胱氨酸分解代谢的蛋白质 [9] - 中国科学院大连物理化学研究所研发出一种室温可充电的全固态氢离子电池 [12] - 斯坦福大学团队开发出用于多模态传感和刺激的高密度柔性生物电子纤维 [14] - DeepSeek 公司发布研究,其模型DeepSeek-R1通过强化学习激励大型语言模型进行推理 [16] - 加州大学伯克利分校揭示了溶酶体膜上mTORC1激活的结构基础 [17] - 圣路易斯华盛顿大学等机构发现过氧化物酶体对支链脂肪酸的代谢可调节能量平衡 [18] - 约翰·霍普金斯大学医学院研究发现δ型谷氨酸受体是配体门控离子通道 [21]
DeepSeek首次回应“蒸馏OpenAI”质疑
第一财经· 2025-09-18 13:34
2025.09. 18 本文字数:2259,阅读时长大约4分钟 作者 | 第一财经 刘晓洁 郑栩彤 9月18日,DeepSeek再次引发轰动。由DeepSeek团队共同完成、梁文锋担任通讯作者的 DeepSeek-R1研究论文,登上了国际权威期刊《Nature》的封面。 今年1月,DeepSeek曾在arxiv公布了初版预印本论文,相较而言,此次发布在《Nature》的版本 补充了更多模型细节,减少了描述中的拟人化说明。在补充材料中,DeepSeek提到了R1模型的训 练成本仅29.4万美元,以及回应了模型发布之初关于蒸馏OpenAI的质疑。 今年1月,有报道提到,OpenAI研究人员认为,DeepSeek可能使用了OpenAI模型的输出来训练 R1,这种方法可以在使用较少资源的情况下加速模型能力提升。 在论文的补充资料部分,DeepSeek回应了关于DeepSeek-V3-Base训练数据来源的问 题。"DeepSeek-V3-Base的训练数据仅来自普通网页和电子书,不包含任何合成数据。在预训练 冷却阶段,我们没有故意加入OpenAI生成的合成数据,此阶段使用的所有数据都是通过网页抓取 的。"DeepSe ...