奥卡姆剃刀
搜索文档
清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能
机器之心· 2025-11-13 07:51
研究背景与行业现状 - 2025年初DeepSeek-R1开源后,如何用强化学习训练1.5B级别的小型数学推理模型成为热门研究方向,该领域经历了快速的技术演进[6] - 行业技术发展路径从早期的超参数调优和长度控制,演进到多阶段渐进训练、课程学习以及将rollout数量提升到512次的暴力探索方法[6] - 近期工作普遍采用动态采样、KL重置、自适应惩罚、长度控制等复杂稳定技术和优化技巧,导致整个训练流程变得越来越复杂[7] 清华团队JustRL方法创新 - 采用极简训练配方:使用标准GRPO算法、单阶段训练、固定超参数、常规数学问题集,避免数据筛选和动态采样等复杂技术[11] - 同一套超参数在两个不同起点模型上均有效:弱基座DeepSeek-R1-Distill-Qwen-1.5B和强基座OpenMath-Nemotron-1.5B[11] - 在9个数学推理基准上的全面评测显示,JustRL达到了1.5B模型的最高水平[11] 性能与效率表现 - JustRL-DeepSeek-1.5B在9项基准上平均准确率达到54.87%,超越采用9阶段训练的ProRL-V2的53.08%[13][14] - 计算效率显著提升:总token预算约为1.4E+11,仅为ProRL-V2的一半,为BroRL的五分之一[14] - JustRL-Nemotron-1.5B平均准确率达到64.32%,略微超过使用课程学习的QuestA的63.81%,且不需要额外的数据工程[14] 训练稳定性发现 - 4000步RL训练过程异常平稳:策略熵在1.2-1.4范围内健康震荡,平均奖励从-0.6单调上升到+0.4,响应长度自然压缩到4000-5000 tokens[17] - 训练在32张A800-80GB GPU上进行约15天,工程复杂度和计算开销显著低于多阶段训练方法[15] - 与现有工作报告的训练困难形成鲜明对比,表明在足够简单的配置和充分训练规模下,稳定性问题可能不易发生[19] 技术优化实验启示 - 加入显式长度惩罚反而使性能从55%下降到50%,导致熵值从1.2-1.4降到0.4-0.6,探索空间被过早压缩[21] - 换用更宽松的验证器使性能继续下滑到45%,可能降低了学习信号的细粒度或消除了模型发展鲁棒推理的压力[21] - 消融实验显示技术差异在接近2000步尺度才开始显现,意味着小规模实验结论可能不适用于大规模扩展场景[24] 行业方法论启示 - 技术的价值高度依赖于baseline特性,在稳定baseline上某些"优化"可能适得其反[27] - 建立清晰的简单baseline能更准确地评估复杂技术的价值,应先验证简单方法的极限再决定是否需要复杂度[27] - 行业可能低估了简单方法在充分扩展下的潜力,奥卡姆剃刀原则"如无必要,勿增实体"具有重要参考价值[26][31]
高手打的是明牌
36氪· 2025-07-04 14:56
地产行业经验 - 早期房地产开发中通过"关系"获取项目的比例较低,优质项目主要通过公开招拍挂市场获得 [1] - 依赖关系的项目初期看似有利但后期风险较大,实际案例显示四倍土地价格优势的项目一个月内即失败 [2] - 即使在关系导向明显的时代和行业,成功案例仍主要依靠市场化公开竞争 [3] AI投资策略 - 2023年AI投资热潮中,直接配置英伟达等头部公司比投资初创企业更稳健 [5] - 明牌投资策略在AI领域表现为选择技术领先、商业模式成熟的龙头企业 [6] - 价值投资本质上是选择市场公认的优质标的 [7] 明牌商业逻辑 - 明牌策略具有高概率确定性,如巴菲特投资可口可乐基于稳定的商业基础 [13] - 明牌具备可复制性优势,能够形成规模化系统性的商业回报 [14][16] - 明牌策略时间效率高,避免关系维护等隐性成本,专注复利积累 [18] 投资行为差异 - 普通投资者偏好信息不对称套利,而专业投资者更相信概率分布 [13] - 市场存在"明牌认知差距",部分投资者因不甘平庸而回避主流策略 [25][26] - 传统文化中关系导向的思维模式影响对公开透明商业逻辑的信任 [28] 商业哲学 - 明牌本质是回归商业常识和基础概率,形式表现为透明直接的交易方式 [9] - 最小作用量原理在商业中体现为路径最简、信息熵最小的决策模式 [10] - 长期成功的商业策略往往简单可重复,如指数基金投资原理 [24]
用AI两年半,我常用到的12个思维模型
虎嗅· 2025-06-16 14:40
AI应用与创业转型 - 公司因ChatGPT重启公众号创作并开启AI学习与转型之旅[1][2] - 经过两年半AI实践后公司达到创业六年最佳状态[4] - 原创设计出一套AI课程理论体系并实现产品化[5] 发现问题阶段思维模型 - 乔哈里窗模型用于理解AI能力边界及商业机会象限[9][10] - 黄金圈法则强调优先明确"为什么用AI"以避免无效开发[15][17] - 二八法则聚焦20%高价值要素避免资源浪费[19][21] - 用户旅程地图通过亲身体验或AI模拟发现隐性需求[25][26] 拆解问题阶段方法论 - 金字塔原理+MECE实现结构化拆解适用于Prompt/OKR设计[28][30][32] - 奥卡姆剃刀原则选择最简单闭环方案防止过度复杂化[34][36] - 第一性原理回归本质变量重构业务流程[39][41][43] - AI-First思维优先判断AI代劳可能性释放人力创造力[44][46] 验证迭代阶段策略 - MVP思维要求一天内完成60分原型快速验证[49][51] - 迭代思维通过Prompt→Output→Review循环优化[54][56] - 复利思维沉淀高ROI方案形成组合杠杆效应[59][61][63] - ROI思维强化成本收益意识区分投资与无效成本[64][66][68]