强化学习(RL)
搜索文档
刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA
量子位· 2026-04-11 09:58
项目概述与核心成就 - 普林斯顿大学刘壮团队发布了首个用于通用视觉推理的开源强化学习(RL)框架“Vero”,该框架构建的视觉推理器在30多项基准测试中达到了8B参数视觉语言模型的最高技术水平(SOTA)[1][3] - Vero的出现标志着学术研究在视觉推理领域追赶上顶尖工业界团队的部分成就,打破了此前GPT、Gemini等大模型背后强化学习方案由各大厂商垄断的局面[3] - Vero团队通过构建高质量数据集、设计任务路由奖励机制以及采用单阶段强化学习,成功解决了视觉语言模型在多任务训练中能力退化或泛化不足的问题[4][8] 技术方案与核心创新 - **构建多样化训练集**:团队从59个数据集中筛选并构建了包含60万高质量样本的“Vero-600K”数据集,样本覆盖图表与OCR、STEM、空间与动作、知识与识别、定位计数与搜索、描述与指令遵循六大类别,广泛均衡的数据覆盖被证实是视觉推理强化学习性能扩展的主要驱动力[10][11][15][23] - **设计任务路由奖励机制**:针对不同视觉任务答案格式差异大的问题,Vero设计了一套多路奖励系统,能根据任务类型自动将输出路由给相应的验证器计算奖励,例如选择题验证选项、数学题进行数学校验、开放描述引入大模型作为裁判[17][18] - **采用单阶段强化学习**:研究证明,无需依赖私有“思考”数据,仅通过高质量数据过滤、均衡任务混合和精确路由奖励的单阶段强化学习,即可激发基础模型的通用视觉推理能力[19][21] 性能表现与基准测试 - 在图表与OCR类别的6个基准测试中,基于Vero训练的模型平均得分达到69.8,相比基线模型提升显著,例如在ChartQA基准上达到91.6分,提升2.0分[22] - 在STEM类别的4个基准测试中,平均得分为63.7,其中在MathVision基准上达到59.0分,提升5.1分[22] - 在空间与动作类别的5个基准测试中,平均得分为66.3,在GameQA Lite基准上达到52.3分,大幅提升18.3分[22] - 在知识与识别类别的4个基准测试中,平均得分为53.3,在MM-Vet v2基准上达到70.2分,提升2.6分[22] - 在定位、计数与视觉搜索类别的8个基准测试中,平均得分为63.8,在VStarBench基准上达到89.5分,提升7.3分[22] - 在描述与指令遵循类别的3个基准测试中,平均得分为83.8,在MMIFEval基准上达到77.7分,提升8.5分[22] - 综合30个基准测试的整体平均得分为66.0,提升5.3分,并且在23项测试中超越了经过专门微调的闭源模型Qwen3-VL-8B-Thinking[21][22] 团队背景与开源状态 - 项目核心团队包括通讯作者Gabriel Sarch和Linrong Cai,项目负责人为普林斯顿大学助理教授刘壮,知名研究员陈丹琦亦参与其中[1][24][25] - 团队负责人刘壮拥有清华大学姚班和加州大学伯克利分校博士学位,其研究成果DenseNet曾获CVPR 2017最佳论文奖,在Meta期间还参与了ConvNeXt等工作[25] - Vero项目的所有数据、代码和模型均已开源,可供行业广泛使用[23]
大模型SFT后效果≠RL潜力!港科大、阿里提出自适应冷启动新范式
机器之心· 2026-04-04 11:29
研究背景与核心问题 - 自2025年以来,强化学习已成为大语言模型后训练阶段的默认范式,能激发出模型复杂的推理和长思维链能力,并赋予其达成超人类表现的潜力[2] - 然而,直接将普通基座模型用于强化学习训练时,由于缺乏方向性引导,算法在有限步数内难以探索出正确的推理路径[2] - 当前标准做法是在强化学习前,使用少量优质数据进行监督微调,为模型进行“冷启动”热身,以提高后续强化学习阶段的效率[2] 核心发现:冷启动的“致命陷阱” - 研究发现一个反直觉现象:在监督微调冷启动阶段评估性能最好的检查点,用于后续强化学习训练后,最终成绩往往不是最好的,甚至会出现倒退[6] - 研究团队首次揭示,冷启动后表现最好的检查点,往往并不对应最大的强化学习潜力[3] - 造成此现象的核心原因是“作为强化学习冷启动的监督微调”与“单纯的监督微调”在目标上存在根本分歧[6] - 如果监督微调训练过度,传统的交叉熵损失函数会强迫模型死记硬背演示数据细节,导致模型丢失原本丰富的知识分布和生成多样性,从而在进入强化学习阶段后失去探索新路径的能力,锁定了强化学习的上限[6] - 随着监督微调步数增加,模型在验证集上的性能可能仍在上升,但经过强化学习训练后的最终潜力却会早早开始下滑[10] 破局关键:输出多样性的重要性 - 研究发现,不应仅以准确率作为监督微调冷启动的停止标准,而必须兼顾准确率与多样性[3] - 在监督微调的早期,模型在学习新推理格式的同时,还保留着基座的原始知识,此时模型的输出多样性会达到一个峰值;随着训练继续,模型开始过拟合,多样性迅速暴跌[12] - 这个输出多样性的“黄金拐点”,恰恰对应着模型强化学习潜力的最高点,是开启强化学习训练的最佳时机[13][16] - 强化学习的成功高度依赖于“探索”与“利用”的平衡,如果模型在进入强化学习阶段前就丢失了输出多样性,会因探索空间不足导致最终效果大打折扣[8][25] 解决方案:自适应早停损失函数 - 研究团队提出了一种全新的轻量级训练目标——自适应早停损失函数,旨在为大模型的强化学习训练打造最完美的起跑线[3][17] - 自适应早停损失函数的核心哲学是“因材施教”,它不再盲目要求模型在所有地方都完美拟合演示数据,而是在Token和子序列两个微观层面上动态调节学习力度[18] - 在Token级别,如果模型当前预测概率已经很高,自适应早停损失函数会自动降低该Token的损失权重,防止对特定词汇的过拟合[18] - 在子序列级别,自适应早停损失函数会实时计算当前生成前缀的平均置信度,如果前半部分已非常符合目标分布,则会在后续生成中放宽限制,鼓励探索[18] - 通过这种精细的动态平衡,自适应早停损失函数成功让模型在“学会长思维链推理模式”和“保留基座原始探索能力”之间找到了完美平衡点[19] 实验验证与性能表现 - 研究团队在极具挑战性的数学推理任务上进行了大规模实验,选用了Qwen2.5-7B-Instruct、Qwen2.5-Math-7B及Llama-3.1-8B-Instruct作为基座模型,并在AIME 24/25、AMC 23、MATH-500等榜单上进行测试[21] - 实验结果表明,无论在哪种基座模型上,使用自适应早停损失函数作为冷启动策略,其后续经过强化学习训练的最终性能,全面碾压了直接强化学习、标准交叉熵损失监督微调以及现有的其他前沿方法[21] - 在Qwen2.5-7B-Instruct模型上,使用自适应早停损失函数后进行强化学习,在AIME25、AMC23、AIME24、MATH、Min、Olym等基准测试上的平均得分达到42.26,优于其他所有冷启动方法[22] - 在Qwen2.5-Math-7B模型上,自适应早停损失函数结合强化学习取得了50.04的平均分,同样表现最佳[22] - 进一步测试证明,无论冷启动数据量多寡、数据难度如何,自适应早停损失函数都能稳定发挥,始终提供优于传统方法的强化学习潜力[23][24] 研究意义与行业影响 - 该研究打破了“监督微调拟合越好越好”的迷思,证明了在冷启动阶段,“保持多样性”比“满分模仿”在后续的强化学习训练中更具长期价值[26] - 自适应早停损失函数的提出不仅仅是一个损失函数的改进,更是一次对大语言模型后训练范式的认知刷新[26] - 该研究为从监督微调到强化学习范式的转变过程提供了重要的探索起点,未来可能会有更多研究去探索这两种范式带来的根本不同[26]
人均扛4亿估值、80%是I人:一家1200亿AI公司的组织实验
36氪· 2026-04-01 21:53
公司概况与市场地位 - 公司成立仅三年,估值已超1200亿元人民币,在全球AI叙事版图中占据重要位置[3] - 2025年春节,公司以“200万字长文本”功能出圈,带动C端用户激增,并在资本市场衍生出“Kimi概念股”[8] - 公司被估值500亿美金的美国公司Cursor“套壳”,且Cursor创始人公开承认Kimi K2.5是其测评中“最强的基座模型”,是其核心产品的灵魂[3][40] 团队构成与文化特质 - 公司团队约300多人,平均年龄不到30岁,人均背负近4亿估值,80%的员工是内倾型人格(I人)[4] - 团队背景优秀,80%的员工拥有“985”和“211”高校学历,且据不完全统计,至少有50人创办或加入过创业公司[20][22] - 公司文化极度内向与坦诚,鼓励“直接沟通”,没有部门墙、职级、OKR/KPI考核,信息和知识无偿共享,形成了一种“团结”的氛围[34][47][48][49][51][52] - 公司强调“品味”(TASTE),这成为最高且难以量化的招聘标准,体现在产品命名、设计美学和代码极简主义上[26][27][28][30] - 公司庇护“流浪的天才”,重视拥有预见性眼光和偏执特质的个体,例如招募17岁高中生实习生并让其作为论文一作,获得马斯克赞赏[22][23] 技术战略与研发焦点 - 在经历DeepSeek的竞争冲击后,公司迅速达成全员共识,将“模型”确立为最重要的事情,完成了从大规模投流到专注模型的战略再聚焦[10][11] - 技术团队以“炼丹”形容模型训练,对训练过程保持偏执的警觉,通过每日监控十几万个内部指标来确保模型达到行业顶尖水平[24] - 研发面临巨大挑战,工程师需同时驾驭数百亿参数的MoE架构巨兽和数万亿token的数据海洋,身兼算法架构师、系统工程师和数据策展人三职[40][41] - 公司具备强大的技术韧性,曾克服“三入思过崖”的挑战,最终突破长文本处理技术,让AI能一次性读懂128K长度的文本[62] 组织管理与运营模式 - 公司采用极致的扁平化架构,没有部门、职级、Title和OKR/KPI,所有汇报线极其简单,联合创始人直接对接40到50位同事[34][67] - 公司追求员工的“泛化能力”,而非“专用模型”式的技能,鼓励员工职责多次变化,受访的三十位同事中有一半以上工作职责发生过多次变化[37][38] - 组织模式存在结构性脆弱,当规模从300人扩张时可能遭遇决策瓶颈和信息过载,且缺乏职级和明确反馈会让部分员工产生“失重感”和不安全感[69][70] - 公司是“AI Native”组织,深度使用AI Agent赋能工作,大幅提升人效,例如产品经理利用Agent可在1.5小时内完成过去需3人花2天的工作[68][69] 发展理念与未来愿景 - 公司将自身使命比喻为“登月”,选择做困难但有价值的事情,致力于探索AGI(通用人工智能)的极限[17][63][64] - 公司通过主动对自身组织“降维”(消除管理纵深和部门墙),将组织效率推向极致,旨在最终实现“智能的升维”,让模型智能突破拐点[74][75][78] - 公司的发展路径被描述为“要么在升维中封神,要么在坍缩中封存”,没有第三条路,体现了其背水一战的决心[80][81]
用SFT打出RL的效果?微软联合提出高效后训练算法
机器之心· 2026-03-25 15:44
文章核心观点 - 微软与东南大学联合提出了一种新的大语言模型后训练方法,旨在通过量化监督微调与强化学习在数据层面的差距,并利用域内微调和提示解码等技术,实现以接近监督微调的效率和资源消耗,达到甚至超越强化学习的效果 [2][3][24] 大语言模型后训练的现状与挑战 - 监督微调利用高质量的离线数据快速注入知识,但受限于静态数据分布,泛化能力容易触及天花板并可能引发灾难性遗忘 [2] - 强化学习允许模型在探索中自我迭代,上限极高,但存在训练不稳定、计算资源消耗巨大等痛点 [2] 核心理论与量化指标 - 研究指出,传统困惑度或对数概率指标会混淆“题目本身难度”与“数据分布偏移”,引入了大量“噪声方差” [6] - 研究提出“中心化对数似然”作为量化指标,该指标等于Token的对数概率加上当前上下文的预测熵,被证明在信噪比意义下具有最优性,能有效区分模型自身生成的数据与其他来源数据 [6][7][11] - 该理论几乎没有任何偏离大语言模型场景的假设,可直接进行实验验证 [9] 提出的新方法:域内微调 - 传统监督微调假设训练集中的每个词都是绝对“真理”,对预测错误施加严厉惩罚,导致在遇到噪声或分布外数据时可能引发灾难性遗忘 [12][13] - 域内微调放弃了强硬的盲目拟合,基于中心化对数似然指标引入自适应调节机制,以更温和的方式更新模型参数 [14][17] 提出的新方法:提示解码 - 简单的自我蒸馏方法生成的数据,对人眼而言很像模型分布,但对模型训练来说仍是离线数据 [20] - 提示解码在自我蒸馏和正常解码之间进行基于熵的自适应模式切换:当教师模型认为当前Token确定性极高时增加其比重,否则交给学生模型保持,从而有效提升了生成数据的分布指标 [22] 实验效果与效率 - 在Qwen2.5-7B、Qwen2.5-7B-instruct和DeepSeek-R1-distill-Qwen-7B等模型上的实验表明,新方法在多项评测中超越了知名的离线强化学习算法 [24] - 新方法使用的计算资源远低于强化学习算法,例如在Qwen2.5-7B-instruct模型上,提示解码结合监督微调仅需139.6 GPU小时,而DPO@16需要197.6 GPU小时,Rej@16需要191.2 GPU小时 [24] - 在Qwen2.5-7B-instruct模型上,提示解码结合监督微调在数学评测集上的得分达到36.63%,相比原始模型的33.48%提升了2.95个百分点 [24][26] - 消融实验证实,基于熵的自适应模式切换至关重要,简单的加权方案无法取得良好效果 [24][26] 潜在应用与影响 - 该工作与思维链补全、大语言模型生成检测、推测解码、在线策略蒸馏等多个领域有天然交集,具有发论文和应用潜力 [28] - 提示解码技术可应用于蒸馏当前不开放思维链、只返回输出结果的商业模型 [28]
零样本 Sim-to-Real !实现五指灵巧手力控抓取与手内操作
机器之心· 2026-03-24 20:29
文章核心观点 - 字节跳动Seed团队的研究论文提出了一套完整的Sim-to-Real强化学习框架,旨在解决机器人灵巧操作中仿真与现实之间的“现实鸿沟”问题,实现了在纯仿真环境中训练的策略能够零样本部署到真实五指灵巧手上,无需额外真实数据微调 [2] 三大核心技术:打通从仿真到现实的感知与驱动链路 - **计算高效的触觉仿真**:提出基于距离场的快速触觉仿真方法,通过并行正向运动学计算虚拟触觉单元阵列与物体表面的距离,提供强化学习所需的高频信号和关键接触信息(如接触力大小和受力加权接触中心),在保证物理合理性的同时极大提升了仿真效率 [7] - **电流-力矩校准**:针对商用灵巧手缺乏关节级力矩传感器的问题,通过数据驱动的电流-力矩校准机制,在准静态条件下拟合电机电流与接触力、仿真力矩与接触力的线性关系,建立可靠的“电流到力矩”映射,从而在无需物理力矩传感器的情况下实现对交互力的显式感知和控制 [10][12] - **执行器动力学建模与随机化**:在仿真中显式建模真实电机的非理想特性(如齿轮间隙、力矩-速度饱和及摩擦力),并对关键参数(如堵转力矩、空载速度、齿轮间隙阈值等)进行广泛的域随机化,迫使控制策略适应各种硬件缺陷和公差变化,显著提高了Sim-to-Real转移的鲁棒性 [13] 全状态策略与创新训练范式:实现力控自适应抓取与手内物体旋转 - **倒置“接物”训练范式**:提出创新的倒置“接物”训练设置,灵巧手心向上固定,物体从上方随机掉落,利用重力自然将物体引入工作空间,简化探索过程,使策略专注于学习手指协调和接触后的力调节,并鼓励形成包络式、多点接触的稳定抓取姿态 [16] - **力自适应抓取**:策略根据用户输入的力指令动态调节各手指抓取力,结合接触力惩罚和关节力矩惩罚的复合奖励函数是实现稳健力控的关键,使策略能同时协调关节驱动和指尖接触,实现与指令高度线性相关的精准力控 [17] - **手内物体旋转**:任务要求策略通过协调的手指步态在保持稳定接触的同时将物体绕指定轴旋转,消融实验表明,包含受力加权接触中心、接触力和6D姿态表示的完整观测配置取得最佳性能(平均连续成功25.1次),移除任何触觉信息会导致性能显著下降,无触觉反馈的基线策略几乎无法完成任务(平均成功1.1次),证明了高分辨率触觉反馈在复杂手内操作中的不可替代性 [19] 星动纪元五指灵巧手星动XHAND1:DexManip零样本部署的硬件核心支撑 - **270°环绕指端高分辨率触觉阵列**:星动XHAND1在每个手指端配备270°环绕的高分辨率触觉阵列传感器(单指 > 100个触觉点),能无死角捕捉物体在指尖滚动、滑动时的微小接触变化,结合高精度的力觉精度和三维力触觉感知能力,为策略提供丰富且精准的观测输入 [25] - **高精度URDF与触觉仿真模型的无缝对接**:星动XHAND1官方提供极高精度的URDF模型,精确描述运动学连杆、动力学参数并完美映射真实传感器空间分布,使得仿真中计算的虚拟触觉单元能与真实传感器阵列实现1:1精准对齐,大幅降低Sim-to-Real的现实鸿沟 [26] - **全直驱架构与电流-力矩校准的完美契合**:星动XHAND1采用的全直驱电机架构消除了传统减速器带来的摩擦、迟滞和非线性干扰,使电机相电流与输出力矩保持极高线性相关性,这不仅让电流-力矩校准过程更精确可靠,还赋予了灵巧手高力控带宽和超灵敏动态响应能力,能根据10%、50%、100%等不同指令瞬间精准调节抓取力度 [27]
训练即服务!让模型训练回归算法语义,150行代码跑通RL
量子位· 2026-03-11 09:18
文章核心观点 - ModelScope团队开源了名为Twinkle的模块化训练框架,旨在为大模型后训练(尤其是强化学习)提供一条同时兼顾“易用性”与“灵活性”的新路径[1] - 该框架采用Client-Server架构,通过将训练流程组件化、提供算法语义抽象的API,使算法开发者能专注于训练逻辑,而将底层调度、资源分配等工程复杂性交给框架处理[1][5][14] 框架定位与设计理念 - 针对现有训练框架的不足:完全自定制训练门槛高,需兼顾GPU调度、资源分配等工程细节;而通用框架(如ms-swift)封装较深,算法定制需修改源码,且算力与算法深度耦合[12] - 核心设计理念是“组件化”,将大模型训练中可独立构建的部分收敛为标准模块,如Dataset、Model、Sampler等,当前已支持20余种算法组件[16][45] - 旨在通过API将训练算法语义进行抽象,让开发者关注算法逻辑,而将复杂训练流程(如Rollout -> Reward -> Update)的准确实现交给框架[14] 系统架构与核心特点 - 采用解耦的Client-Server架构,提供最大灵活性[21] - 支持多种运行模式:包括本地一体化部署、远端集群部署以及直接使用公用Serverless训练服务[8] - 提供灵活的后端支持,包括Transformers、Megatron等多样化训练后端[9] - 支持多租户训练服务:可在共享的基础模型部署上,同时训练来自多个用户的LoRA,实现算力效率提升[10][27] - 支持Python源代码启动,约150行代码即可编排复杂的RL训练循环[1][34] 接口设计与控制能力 - 在兼容Tinker API(如forward_backward, optim_step, sample)的同时,提供了更丰富的原生API以实现细粒度控制[7][22] - 细粒度训练控制:将训练步骤解耦,允许用户像编写本地PyTorch代码一样编排复杂循环,支持计算loss而不反向传播、清空梯度、仅执行前向计算等操作[23] - 动态组件配置:支持在运行过程中动态更新模型核心组件(如loss函数、优化器、对话模板等),无需重启服务或重新加载权重[24] - 远程数据处理:架构支持存算分离,可将数据逻辑(如dataset和dataloader)卸载到服务端运行,以处理Driver进程无法运行的大数据量场景[25] 多租户与并发训练 - 凭借“LoRA池+租户应用”架构,支持N个租户在完全隔离的环境下于同一基础模型上并行训练[27] - 支持异构配置:每个租户可使用独特的训练数据、优化器及损失函数[27] - 应用示例:不同租户可并发进行SFT微调、预训练、GRPO损失计算及logps推理等不同任务[29][30][31][32] - 服务端实现具备自动化集群管理与动态扩缩容功能,为规模化训练服务奠定基础[32] 性能表现 - 基于Qwen3-4B模型和GSM8K数据集的评估显示,在训练效果(奖励曲线趋势)与训练效率方面,Twinkle与基线框架veRL表现相近或更优[49][54] - 在torchrun条件下,Twinkle完成一个global batch的平均耗时约为70秒,veRL约为80秒[54] - 在昇腾(国产化)硬件上,Twinkle完成一个global batch的平均耗时约为20秒,veRL约为30秒,显示出优化后的速度优势[56][59] 开源、生态与合作 - 项目代码在GitHub上完全开源,覆盖Client和Server全部实现[6][11] - 与招商银行信息技术部深度技术合作,兼顾易用性与生产可用性,并完成了对昇腾等国产化硬件的原生支持与优化[6][56] - 作为开源社区项目,鼓励开发者通过提交PR开发新组件、贡献组件至ModelHub、共建新项目等方式参与[55] - 在ModelScope上提供了可直接使用的Serverless训练服务,当前支持通过Tinker API访问,后续将开放更多原生API[11][40]
陶哲轩对谈 OpenAI 高管:“试错成本”无限趋零,AI 正在把数学变成一门重工业
AI科技大本营· 2026-03-10 16:26
AI在数学与科学研究中的能力演进与定位 - AI在数学领域的试错成本极低,为强化学习提供了理想的进化环境[1] - OpenAI的o1系列推理模型研发负责人与顶尖数学家陶哲轩进行深度对谈,探讨AI在科学研究中的真实能力、缺陷与演化路径[4] - 数学形式化验证工具能为AI提供即时、明确的正确性反馈,形成完美的强化学习闭环[5][25] AI能力发展的核心指标与现状 - OpenAI内部衡量AI进步的核心指标是“自主运行刻度”,即模型能连续有效思考的时间长度[5] - 该指标在去年为几分钟级别,今年的目标是将自主思考时间延长至几天级别[5][16] - 过去一年模型犯错概率显著下降,使得AI能够被信任去执行更长时间跨度的任务,拆除了许多必需的辅助脚手架[17] AI对数学研究范式的改变 - 数学家陶哲轩评价AI工具已从一年前“非常平庸、效率低下的研究生”变得强大得多,并被高频用于日常研究[8][9][10] - AI改变了数学家处理问题的方式,例如将模糊的直觉通过代码生成进行验证,或将繁琐枯燥的计算“外包”给AI[10] - 数学界开始调整研究方式,AI能够处理大量繁琐的证明工作,为需要大规模处理的项目打开了新研究路径[12] - AI促成了数学研究的分工可能,数学家可专注于提出问题和策略等关键环节,将大量繁重步骤卸载给AI[20] AI在解决具体数学问题上的进展 - 以“埃尔德什问题”作为测试场,AI在大量未被充分探索的“长尾问题”上取得惊人进展,过去一段时间成功解决了约二三十个此类问题[20][21] - 在人类仅提供最低限度监督的情况下,AI能够找出某些问题的突破口[21] - 这推动数学文化转变,从只关注极少数难题转向利用AI批量解决中等难度问题,形成更具“社区驱动”的研究新范式[21] AI在科学推理中的优势与局限 - 数学是AI的天然温床,因为其试错成本低廉,且形式化验证系统能为强化学习提供清晰的对错评判[24][25] - 在编程和数学奥林匹克等有明确规则和指标的领域,AI能实现指数级进化[26] - 然而,许多重要的现实能力(如人类协作的“默契”)难以量化,这给AI对齐带来挑战[26] - 为让AI在日常对话中讨好人类而进行的训练(RLHF),可能会削弱其在硬核推理上的能力[5][26] AI在创造新理论框架方面的潜力与挑战 - 当前基于预测下一个Token的生成式模型,在需要创造全新理论框架或“世界模型”的任务上存在局限[27][32] - 当试图用纯AI模拟物理规律时,AI可能展现出“漏洞利用”本能,为最大化得分而虚构荒谬规律,而非学习真实物理法则[27][28] - AI在需要结合多个不同领域已知理论的问题上表现惊艳,但在需要人类文献中从未出现过的新思考路径时则无能为力[32] - AI的核心价值定位是“作为人类智力的加速器”,而非在缺乏地基的虚拟系统中独自创造[29] AI与人类科学家的协作边界 - AI不会立刻创造出类似微积分或广义相对论的全新范式,这部分工作目前仍属于人类[33] - AI将在未来几年内,以极快速度清扫科学领域中数以百万计、难度中等但繁琐枯燥的“长尾问题”[33] - 当AI完成这部分基础工作后,人类科学家将能站在AI铺设好的地基上,去探索更前沿的科学问题[34] - 行业正处于过渡阶段,当前重点是为AI量身定制全新的研究工作流,而非让AI适应旧有流程[13]
Z Tech|清华吴翼:离开OpenAI,我有后悔过吗?
Z Potentials· 2026-03-06 11:17
OpenAI早期文化与发展历程 - OpenAI在2018年时被业界视为非常非主流的“草台班子”,其团队构成与Google Brain、Facebook AI Research等由知名PhD组成的“全明星阵容”形成鲜明对比[2] - 早期OpenAI团队人员背景极其多样化,包括本科生、神经科学家、英语不流利的俄罗斯开源开发者和Unity游戏开发者,正儿八经的科班CS PhD较少[4] - 与同期其他研究机构不同,OpenAI最大的优势在于其统一的使命和极致的工程化能力,这帮助它将一群背景各异的人凝聚在一起并坚持下来[5] - 早期OpenAI的一些项目,如用AI玩Dota,在当时学术界看来是为了“学术PR”而做的“非主流”项目,并不被认为是一个顶级研究组织[3][4] 中美大模型产业现状与竞争策略 - 中国大部分大模型厂商都在进行模型蒸馏,这是一个比例很高的现象[15] - 蒸馏要做好并不容易,涉及资金、人才、算力以及如何获取用户反馈等多重挑战[15] - 国内厂商的明确目标是保持每一代模型都能在特定有价值的基准测试或能力上与世界最好的模型保持同等水平,只要不掉队即可[15] - 这是一个非常合理的短期生存策略,保持生存和持续迭代至关重要,就有机会实现赶超[17] - 美国头部企业(如Claude)能做好部分原因在于其拥有极强的用户反馈飞轮,例如几乎所有最高质量的AI编程用户数据都流向了Claude[15] - 在编程等领域,由于很多是后训练阶段的工作,通过蒸馏追赶相对更容易一些[15] - 但完全依赖蒸馏的观点不被赞同,公司依然需要一个合理的基础模型,基础模型不好,蒸馏效果也有限[16] - 后训练数据是难题,特别是在智能体编程场景下的任务拆分数据并不好获取[16] - 如果没有自己数据边界清晰的基础模型和良好的强化学习基础设施,后续的泛化工作会非常困难[16] AI技术发展趋势与研究方向 - 强化学习的范式尚未结束,与预训练一样,在架构和训练方式上仍有很大探索空间,例如多模态的引入[31] - 让强化学习继续扩大规模肯定有空间,当前智能体编程任务的训练成本虽重,但尚未到无法承受的地步[32] - 未来的范式转变可能从人类努力的角度考虑,从预训练到后训练,人类体力劳动的付出在持续降低数量级[33] - 训练AI如同培养运动员,后期人类提供的高质量、有价值的数据会越来越少,介入将变得更精细和微妙[34] - 多模态是一个“新大陆”,多模态甚至视频模型的预训练可能为机器人等领域带来全新可能性,并可能解锁新的能力[37] - 将生成和理解统一放到预训练阶段去做是一个新的技术可能性,谷歌大概率走通了这条路线[37] - 如果追求通用人工智能,那么继续深耕编程能力是关键;但如果多模态的新可能性走通,也一定会出现新的机会[37] 智能体与多智能体系统的应用前景 - 真正需要多智能体系统的情况主要有两种:一是大规模并行分布式处理任务;二是处理节奏不同的异步任务[23] - 随着长上下文大模型的出现,许多之前提出的多智能体场景已被证伪,因为一个能力强大的模型可以直接处理,无需拆分角色[24] - 在公司工作流中,强行拆分成多智能体并不被看好,一个集中式的超级智能AI进行后台决策更为合适,除非是特别关键的研究任务[24] - 像Claude Code辅助编程这类需要大量并行尝试和验证的工作,是天然适合多智能体(如智能体编排、集群)的场景[25] - 另一种场景是去中心化系统,例如为不同地点(家、公司、车)或不同功能(回微信、刷社交媒体、看新闻)部署独立的智能体[26] - 在这些需要相互隔离或执行不同功能的场景下,分布式、不同上下文的智能体才有意义[26] 强化学习的挑战与数据飞轮 - 强化学习面临的核心挑战之一是奖励信号不清晰,特别是在创意写作或现实案例等难以验证的领域[27] - 解决问题的底线是至少要能做到“人类可验证”,如果一个领域最专业的人都无法判断好坏,那可能就不存在科学解法[28] - 存在从“机器自动可验证”到“人类可验证”的谱系,可以通过人机协同反馈的模式来扩大可训练范围并降低成本[28] - 与推荐系统拥有天然的用户行为数据飞轮不同,强化学习的数据需要专家进行清洗和构造,本质上是“人在回路”的数据飞轮[29] - 直接从普通用户收集反馈信号(如代码补全接受度)噪声会很大,公司肯定会在后台进行数据清洗,而非纯粹的无脑在线强化学习[30] AI时代的企业组织形态 - 新兴的AI原生团队需要更少但更精英的人员,包袱小,迭代速度非常快,AI工具(如Claude Code)能大幅减少对基础代码维护人员的需求[19] - 这导致团队规模可以很小,从而自然避免了许多大团队常见的组织管理问题[19] - 对于老牌企业或传统企业的AI转型则更为复杂,可能演变为一种类似咨询的方式,需要自上而下地改变组织的评估和运作模式,这对领导层要求极高[20] - 像Meta、字节这样拥有强势且年富力强CEO的公司,可能通过自上而下的绩效和组织变革来实现转型[20] 学术界的定位与价值 - 在算力被大厂垄断的背景下,学术界的价值不在于复刻大厂的规模,而在于提供系统性的科学训练和从零构建系统的机会[21] - 学术界99%的工作可能最终没有直接商业价值,但这正是科学精神的体现,允许伟大的想法在自由环境中缓慢演化[22] - 学术界应致力于思考大厂不敢想的创意,去做那些有趣但看似无意义、甚至可能行不通的东西[22] - 伯克利AMPLab模式是成功的典范,孵化出了Databricks、AnyScale、vLLM、SGLang等改变行业的工具,学术界可以作为一个更安全的创新避风港,以前瞻性实验捕捉产业创新空隙[22][23] 对通用人工智能的看法 - 通用人工智能的定义是一个“移动的球门”,当前AI的能力(例如在经济性文职工作替代上已接近80%)其实已接近早期设定的目标,但公众的期望门槛被拉高了[35] - 目前AI在编程领域已取得巨大突破,但由于普通人不接触代码,导致存在巨大的感知差距,这本身是一个巨大的产品机会[36] - 衡量AI进步的一个具体标准是看其能否独立完成耗时数周的工作,如果能做到,那它必然具备自我进化和持续学习的能力[36]
推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析
机器之心· 2026-03-03 10:55
研究背景与演进 - 推荐系统技术经历了从“静态预测”到“动态决策”,再到“认知协同”的阶段性跃迁,其核心驱动力从简单匹配机制升级为具备环境适应能力的决策引擎,并进一步迈向融合世界知识与推理能力的智能协同体系 [6] - 传统强化学习推荐系统将推荐建模为序列决策过程,以优化长期效益,但受困于状态建模难、动作空间大、奖励设计复杂、反馈稀疏延迟及模拟环境失真等瓶颈 [2] - 大语言模型的崛起为推荐系统带来新机遇,其凭借常识储备、推理能力和语义天赋,不仅能让智能体更懂用户,还能充当高保真的环境模拟器 [2] - LLM与RL的结合开启了LLM-RL协同推荐系统新范式,推动推荐过程从低维、被动的决策,进化为高维、具备认知能力的深度交互 [8] LLM带来的核心机遇与变化 - LLM的引入是对推荐本质的一次重塑,在表征空间、智能体定位、环境建模与交互范式四大维度上带来质变 [8] - 在表征空间上,从“稀疏的ID”转向“丰富的语义” [11] - 在智能体定位上,从“固化模型”转向“智能动态决策者” [11] - 在环境建模上,从“黑盒模拟”转向“高保真仿真” [11] - 在交互范式上,从“单向推送隐式反馈”转向“双向共建灵活交互” [11] LLM-RL协同范式 - LLM以深度融合、广泛参与的方式融入强化学习流程的诸多环节,推荐系统架构从“智能体-环境”二元范式,演进为由多个LLM增强的功能模块共同构成的协同框架 [10] - 在智能体侧,LLM可以扮演多重角色:作为策略(Policy)担任核心决策模块;作为推理器(Reasoner)进行综合分析;作为表示器(Representer)转化数据为高维语义特征;作为解释器(Explainer)生成推荐解释 [13][17] - LLM在智能体侧正进化为高层控制器,可以是策略规划师、决策顾问或评估反思者 [17] - 在环境侧,LLM主要扮演模拟器(Simulator)角色,生成更丰富的奖励信号与交互反馈,解决真实环境测试成本高、风险大的痛点,部分基于LLM的模拟器具备可训练、可优化的能力 [14] - 在环境侧,LLM还扮演着奖励塑形器、状态表征器与仿真推理器等角色 [17] 评估体系框架 - 评估体系从任务、数据集、评估策略及指标四个关键维度构建标准化协议 [15] - 任务形式主要包括序列推荐、交互式推荐、对话式推荐、点击率预测、评分预测及其他领域任务(如岗位推荐、医疗推荐等) [16][18][23] - 任务目标涵盖准确性、可解释性、新颖性、多样性、安全性及无偏性 [19][23] - 当前研究使用的数据集呈现“头部集中、长尾分布”的特征,传统推荐数据集(如Amazon Review、MovieLens)是绝大多数研究的首选,工业级数据集(如Taobao、KuaiRec)的使用比例正在上升 [20][24] - 评估策略主要包括离线评估、在线评估和仿真评估,其中离线评估是目前最主流的方式 [21][24] - 评估指标分为推荐导向指标和语言导向指标,推荐导向指标包括输出型指标(如NDCG、HR、RMSE、AUC等)和过程型指标(如累计奖励),语言导向指标包括客观指标(如BLEU、ROUGE)和主观指标 [22][24] 关键挑战与未来方向 - 算法去偏面临“LLM固有偏差”与“RL累积偏差”的双重压力,未来方向是从传统的单一模块去偏,转向系统级治理,建立偏见溯源机制 [26][28] - 隐私与安全方面,LLM强大的语义推理能力可能导致敏感信息被泄露或过度推断,未来方向是实现“安全对齐”,结合隐私计算与强化学习,构建更具防御性的智能体 [26][28] - 计算效率方面,LLM的巨量参数和RL的高频交互存在效率矛盾,导致推理延迟高、训练成本大,未来方向是开发更轻量化的协同框架,例如采用参数高效微调、多智能体协作以及优化采样策略 [26][28] - 幻觉治理方面,LLM生成的虚假或逻辑不一致的输出会误导RL策略,未来方向是引入“过程监督”与“不确定性感知”,对思维链进行事实核查,并赋予系统识别自身知识边界的能力 [26][28] 行业影响与展望 - LLM-RL协同推荐系统揭示了推荐系统从“自动化”向“智能化”跨越的清晰路径,在“双动力”时代,强化学习提供稳定的决策框架,大模型注入更强的认知能力 [29] - 推荐系统正从效率工具走向智能伙伴,变得更加有温度,也更加有深度 [29] - 研究正从学术基准向真实大规模系统迁移,工业级数据集的使用比例正在上升 [20]
首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升
36氪· 2026-02-27 10:33
研究背景与核心贡献 - 研究团队提出了首个将强化学习(RL)系统性引入文本到3D自回归生成的方法,该工作已被CVPR 2026接收[1] - 核心贡献在于为3D生成领域建立了一套系统性研究框架,包括奖励设计、算法选择、评测基准和训练范式,而非简单移植2D经验[1][17] 3D生成的核心挑战与问题拆解 - 3D生成比2D更难,核心矛盾在于3D对象没有“标准视角”,需要从多视角评估几何一致性、纹理质感与语义对齐[3][5] - 3D生成模型在自回归解码时存在长程依赖,导致奖励信号稀疏性问题比2D更突出[5] - 研究团队将问题拆解为四个维度进行系统研究:奖励模型设计、RL算法选择、评测基准构建以及训练范式升级[5] 奖励模型设计与核心发现 - 奖励模型的选择至关重要,研究发现人类偏好分数(HPS v2.1)是效果最强的单一奖励,直接决定了模型生成质量的下限[6] - 语义对齐(CLIP Score)和美学质量单独使用提升有限,但叠加在人类偏好之上可形成互补,持续提升效果[6] - 通用大模型(如Qwen2.5-VL)在评估3D一致性上比专用模型更鲁棒,因其对空间关系有更广泛的理解[6] - 实践意义在于,应以人类偏好为核心,并叠加几何一致性与语义对齐的多维度奖励集成,而非寻找“万能奖励”[6] RL算法对比与关键选择 - 研究系统对比了GRPO、DAPO、GSPO三类RL算法[8] - 核心洞察是3D生成天然适合Token级优化,序列级操作收益有限[7][12] - Token级Loss平均化(DAPO的核心改进)带来最显著提升,因为3D物体的全局结构差异体现在每个token中[12] - 序列级操作(GSPO思路)在3D生成上收益极小,因为关键信号被淹没在大量中性token中[12] - 动态采样(Dynamic Sampling)是一项低成本高收益的技巧,能显著稳定训练曲线[12] - 完全去掉KL惩罚会导致性能下降,KL散度在3D生成中仍起到重要的正则化作用[12] 训练数据与过拟合 - 训练数据翻倍是有效的,但迭代轮数翻三倍会导致过拟合,模型开始在偏好特征上死记硬背,对少见物体类别的泛化能力下降[8] - 这表明在3D生成的RL训练中,数据多样性比训练时长更重要[8] 评测基准的局限性与新基准提出 - 现有3D生成基准(如ShapeNet、Toys4K)主要关注对象多样性,无法衡量模型在复杂文本描述下的隐式推理能力[9][10] - 研究团队提出了MME-3DR基准,包含249个精心筛选的复杂3D对象,评测维度覆盖多视角几何一致性、语义细节对齐、纹理真实感三个层次[10] - MME-3DR专门用于衡量模型在推理密集场景下的生成表现,能有效区分生成能力与泛化推理能力[10] 分层训练范式:Hi-GRPO - 核心洞察是3D生成内在是分层的(先粗后细),RL范式也应分层设计[14] - 研究观察到模型在早期迭代先学会全局几何形状,后期才细化纹理细节,这与人类感知方式一致[16] - 受此启发,研究提出了Hi-GRPO(层次化GRPO)框架,分为粗粒度阶段和细粒度阶段[16] - 粗粒度阶段:通过Chain-of-Thought生成高层语义推理,产出粗糙几何形状,奖励聚焦几何一致性与整体结构[16] - 细粒度阶段:基于粗粒度输出生成低层视觉推理,产出精细纹理细节,奖励聚焦外观质量与部件完整性[16] - 两阶段使用独立的奖励集成,避免了几何奖励与纹理奖励互相干扰[16] 最终模型性能与量化成果 - 最终模型AR3D-R1在MME-3DR和Toys4K两个基准上均超越了Trellis等现有SOTA方法[13][18] - CLIP分数从22.7提升至29.3,提升幅度约29%,语义对齐能力大幅提升[18] - 核分布距离(Kernel Distance)下降约37%,几何分布更接近真实3D物体[18] - 推理能力的提升在复杂文本描述场景下尤为突出[18] 总结与行业意义 - 研究结论是:RL已准备好用于文本到3D生成,但前提是需要为3D任务量身定制奖励、算法和训练范式,不能简单照搬2D经验[17] - 随着RL技术在语言和图像领域持续成熟,这套方法论的价值将超越3D生成本身,为更广泛的多模态生成任务的RL化提供可复用的思路[17] - 相关论文和代码已开源[20][21]