Workflow
Pre - training
icon
搜索文档
MiniMax 技术闭门会分享:长上下文是 Agent 的 Game Changer
Founder Park· 2025-07-19 02:24
MiniMax M1技术研讨会核心观点 - MiniMax举办全球M1技术研讨会 聚焦模型架构创新、RL训练、长上下文应用等前沿领域 邀请全球顶尖学者及企业嘉宾参与[1][2] - 会议探讨RL能力边界、预训练数据价值、视觉推理瓶颈等关键技术挑战 并展示混合注意力架构的实践突破[6][8][11][19] - 长上下文窗口被视为Agent领域的game-changer 可解锁法律合规分析、客户洞察等企业级应用场景[15][16][17] 强化学习(RL)能力边界 - RL在有限上下文长度下能赋予模型新能力 通过改变输出分布使原需10W token解决的问题压缩至10K token[6] - pass@k指标有效性取决于定义方式 无限次尝试通过率反映基础能力 特定次数通过率反映实用性能[7] - Reward建模是RL扩展核心瓶颈 非结果导向的奖励信号(如主观感受)缺乏有效建模方法[7][13] 预训练数据价值 - 预训练本质是RL特例 当前最大价值在于接触多样化数据分布 弥补RL训练数据分布狭窄缺陷[8] - 仅数学/代码RL训练会加剧幻觉 需构建WebInstruct-verified等通用数据集 已扩展至50万量级[10] - mid-training阶段引入RL成为新范式 通过检索预训练数据获取多样化RL数据[10] 视觉推理突破方向 - 现有视觉编码器处理高分辨率图像能力弱 需依赖zoom-in等增强感知的权宜方案[11] - 根本瓶颈在于像素编码与潜在空间推理 需发展latent reasoning技术应对空间思考需求[12] - 图像生成技术(如几何辅助线)代表更高级的"用图像思考"方式 但尚未有成功案例[11] RL前沿挑战领域 - 超越结果评估的Reward建模将极大扩展RL应用场景[13] - 多智能体系统受限于基础设施 需构建AI模型交互训练环境[13] - AI自动化研究(模型自我训练)与AGI发展密切相关[13] 长上下文应用价值 - 1M token窗口可一次性处理完整案件历史 解决法律行业分块处理遗漏关键细节问题[17] - 企业级应用集中在法律合规分析(合同审查)、客户研究洞察(问卷总结)、收入报告自动化三大场景[17][18] - 技术支持与知识管理领域需求显著 可提升工单处理、内容更新等流程效率[18] 混合注意力架构优势 - 混合架构结合线性注意力效率与Full Attention灵活性 成为主流设计方向[19] - MiniMax Text-01验证混合模型潜力 推理速度较传统模型提升一个量级(10万token请求响应从1分钟降至4-5秒)[20][22] - 需构建混合分配器、批处理重叠等技术解决GPU利用率不平衡问题[21][22] 混合架构实践洞察 - RL训练曾因线性注意力不稳定性停滞 修复后证明混合模型可通过适当算力匹配Full Attention性能[23] - 评估应基于固定计算预算下的性能 而非固定输出长度 更反映真实效率[24] - 工程挑战包括计算图优化部署困难 需开发统一抽象层支持缓存复用[21] System2推理本质 - 高级推理能力源于计算资源扩展 体现为自动化Prompt Engineering替代人工分步指令[25] - 写作等任务中模型自动拆解专业步骤 通过延长推理路径实现"专家式思考"[25] - 本质是计算预算高效利用与问题自动深化的结合[26]
OpenAI 研究员 Noam Brown:Mid-training 是新的 pre-training
海外独角兽· 2025-07-02 19:03
AI推理能力的发展与演进 核心观点 - AI行业进入新范式,推理能力成为智能下半场的关键驱动力,模型从表层关联跃升至复杂认知[4] - 推理是涌现能力,需pre-training达到阈值后才有效,小模型无法受益[11] - 未来数据将比算力更稀缺,强化学习可提升数据利用效率[5][25] - Multi-agent长期互动或催生"AI文明",规模扩大自然涌现复杂隐式模型[44][46] 推理能力的本质与演进 01 推理是涌现出来的能力 - 类比人类"系统一/系统二"思维:系统一为直觉快速反应,系统二为慢速深度推理[8] - GPT-2级小模型使用思维链无效,大模型才能展现推理增益,类似大脑皮层进化[11] - 多模态任务中,空间推理/多步整合需系统二,图像识别等依赖系统一[12] 02 超级智能的推理范式 - 仅靠pre-training scaling无法实现超级智能,需通用推理范式[20] - OpenAI内部曾分歧,领导层前瞻性押注推理与强化学习,放弃部分其他方向投入[21] - 决策关键:2016年押注scaling,2021年与Ilya共识需推理范式[22][23] 数据效率与训练方法革新 03 RL高效数据利用 - 人类5样本学会概念,模型需上百样本,强化学习可弥补效率差距[25] - 扑克AI依赖GTO策略效率低,人类能快速识别对手漏洞(剥削性策略)[26] - Diplomacy项目突破:AI需建模玩家行为动态调整,非固定策略[28][31] 06 Mid-training新范式 - Mid-training介于pre-training与post-training间,通过RLHF等干预模型内部表征[40] - 三阶段流程:pre-training半成品→mid-training能力拓展→post-tuning优化体验[42] - 直接交互pre-training模型体验差,mid-training后实用性显著提升[42] 技术瓶颈与未来方向 05 Test-time compute瓶颈 - 成本指数上升:思考时间从分钟延长至周,需提升单位计算质量非单纯延长时间[36] - Wall-clock时间限制:串行实验流程拖累研发效率,药物研发领域尤为突出[37][39] 07 Multi-agent与文明演化 - OpenAI团队探索multi-agent长期协作竞争,类比人类文明积累知识[44] - 反对人工启发式规则,主张规模化训练自然涌现心智理论[45][46] - 自博弈范式局限:非零和博弈缺乏明确目标,万智牌等复杂游戏需无模型强化学习[48][50] AI应用实践与挑战 Noam的AI编程实践 - 日常依赖Codex/Windsurf处理核心开发,模型独立完成PR生成[52][53] - 当前缺陷:无法积累任务经验,PR评审仍依赖人工,环境配置自动化待突破[54] - Sora多模态进展迅速,但推理速度限制即时响应场景适用性[53] 非共识观点与对齐 04 推理能力边界拓展 - 推理不仅限于可验证领域,Deep Research等主观任务仍可形成反馈闭环[33] - 推理助力AI对齐:Cicero案例显示可控推理系统可提升安全性[34][35] 注:所有数据与案例均来自OpenAI研究员Noam Brown的前沿实践,涉及GPT系列、Diplomacy AI Cicero等关键项目[4][20][29][31]
从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?
机器之心· 2025-06-28 13:22
从后训练回到预训练,LLM+RL的潜力分析 - 强化学习(RL)与大型语言模型(LLM)结合的技术路径从后训练阶段延伸至预训练阶段,通过将文本生成重构为序贯决策问题,引入对未来"累积奖励"的评估机制[2] - LLM传统监督学习范式面临高质量标注数据成本高、人类知识存在边界等局限,而RL通过模型与环境交互生成数据,并将监督信号从"生成式"退化为"验证式",降低了对数据质量和标注难度的要求[3] - 微软研究院与清北研究者提出的"Reinforcement Pre-Training(RPT)"技术将RL应用于预训练阶段,在部分推理基准上表现超越传统方法训练的更大模型[4] RL在预训练阶段的技术突破 - RPT方法将下一个词元预测(NTP)任务重塑为可验证的推理任务,利用海量无标注文本数据作为RL训练资源,通过生成思维链(CoT)再预测token的方式规避传统RL方法的局限[5] - 该方法突破了RLHF依赖标注数据、RLVR受限于标准答案等约束,但尚未在更广泛文本和基础模型上验证,且存在计算资源消耗大的问题[5] - 行业早在2022年就开始关注RL预训练课题,南京大学AI学院副院长等专家曾系统分析过RL中少有预训练模型的原因[6] 技术演进趋势与挑战 - LLM+RL路线从后训练向预训练延伸,显示出技术潜力但面临理论缺陷、实现难度和任务适配等多重挑战[4] - 当前RL预训练方法虽能部分解决数据依赖问题,但计算效率、泛化能力等核心瓶颈仍未完全突破[5] - 行业需持续探索如何平衡RL的序贯决策优势与LLM的生成能力,该领域的技术突破可能重塑模型训练范式[2][3][4]