inference time scaling - 财报，业绩电话会，研报，新闻

inference time scaling

搜索文档

42章经· 2025-04-13 20:02

技术原理 - 强化学习（RL）是用于解决多步决策问题的算法框架，与传统机器学习不同，无标准答案但有反馈机制评判结果[3][7] - 大语言模型（LLM）本质是预测下一个词，存在不遵从指令的缺陷，通过与 RL 结合解决该问题[8][9][10] 行业应用 - RL+LLM 应用广泛，海外 OpenAI 的 RL 已从纯推理进化到 Agent 范式，实现多轮交互和上网互动[21] - 国内豆包和 DeepSeek 等团队在探索 RL+LLM 的新可能性，不同公司在该路径上出现编程、Agent、通用泛化能力等分支[21][26][27][28] 发展趋势 - 预训练的规模法则收益变小，但仍有数据和模型小型化两个发展方向；RL 的规模法则处于初始阶段，决策能力将持续提升[26] 人才与基建 - RL 人才稀缺，因门槛高、工业界应用少、对工程要求高；开源工作可降低使用门槛，如 AReaL - boba 框架[33][34][35][36] 训练与评估 - RL 训练中基建最重要，其次是数据和算法；评估可看准确率和多轮交互体验[29] 组织架构 - 大模型团队最好将 LLM 和 RL 两条线融合，至少设预训练和后训练团队，再按目标细分[31]

inference time scaling

Artificial Intelligence

inference time scaling

Artificial Intelligence

一堂「强化学习」大师课 | 42章经

42章经· 2025-04-13 20:01

强化学习(RL)基础概念 - 强化学习是机器学习中解决多步决策问题的算法框架其特点在于没有标准答案通过最终反馈机制评判结果好坏[6] - 与传统监督学习不同 RL不需要标注数据而是通过环境交互获得奖励信号更接近人类解决问题的逻辑[6][7] - 典型应用场景包括游戏(如乒乓球)和复杂任务(如行程规划) 每个决策步骤会影响最终结果[6] RL与LLM的结合发展 - OpenAI首次在InstructGPT中将RL与LLM结合解决大模型指令遵从问题衍生出RLHF技术[10][11] - RLHF通过人工标注数据训练奖励模型使LLM输出更符合人类需求但本质是对齐而非增强模型能力[12][13] - RL实现"慢思考"机制通过延长推理过程(token量增加)提升LLM准确性形成inference time scaling范式[14][15] 行业技术路径分化 - OpenAI聚焦Agent范式实现多轮交互和虚拟世界操作完成从单轮到多轮的跃迁[20][21] - Anthropic专注编程能力在简单问题快速响应与复杂问题深度思考间取得平衡[17][30] - DeepSeek探索通用泛化能力通过理科训练与文科调校结合实现平衡输出[18][31] 技术实现关键要素 - 基建框架决定迭代效率 7B模型训练周期从7天缩短至2天可提升3倍试错机会[33] - 数据质量比数量更重要针对性训练数据可显著提升模型性能[33] - 理解能力依赖LLM预训练决策能力依赖RL 二者形成乘法效应缺一不可[23][24] 行业应用与人才现状 - RL人才稀缺源于技术门槛高论文引用量比NLP/CV少一个数量级工业级应用场景有限[39][40] - 开源框架AReaL-boba实现7B模型SOTA性能推动RL技术普及[43] - 创业公司需把握技术窗口期在终局到来前快速验证产品而非追求长期技术优势[37][38] 企业组织架构建议 - 预训练与后训练团队需紧密协作成员需具备跨领域知识避免能力盲区[36] - 按目标划分专业团队(多模态/RLHF等) 同时保持技术路线的灵活性[36] - Agent公司需储备RL人才尽管当前技术门槛较高但未来可能成为标配能力[37]

inference time scaling

Artificial Intelligence

inference time scaling

Artificial Intelligence