测试时计算 - 财报，业绩电话会，研报，新闻

测试时计算

搜索文档

北大校友、OpenAI前安全副总裁Lilian Weng关于模型的新思考：Why We Think

Founder Park· 2025-05-18 15:06

大模型测试时计算优化 - 核心观点：通过延长模型"思考时间"可显著提升大语言模型在复杂推理任务中的性能，这已成为超越传统模型规模扩展的新优化维度 [4][5][91] - 性能提升表现：GPT/Claude/Gemini等模型通过思维链(CoT)策略在数学推理(5-6%提升)、代码生成等任务上持续突破性能边界 [4][24][16] - 计算资源视角：Transformer生成每个token需执行参数数量两倍的FLOPs，而MoE稀疏模型可降低至2×参数数÷稀疏度 [10] 思维链技术演进 - 早期方法：监督学习人类解题路径或设计"逐步思考"提示语，可使数学问题解决成功率提升显著 [12][14] - 强化学习应用：在STEM问题集上采用策略梯度算法结合自动评估，DeepSeek-R1模型通过两轮SFT-RL训练实现推理能力突破 [31][32][36] - 自我修正机制：需依赖外部反馈信号避免幻觉，修正器模型通过价值提升对(提示x,初始y,修正y')三元组训练实现迭代改进 [29][34] 并行与序列优化策略 - 并行采样：best-of-N和束搜索通过过程奖励模型(PRM)筛选候选，在GSM8k等任务实现5-6%准确率提升 [23][24] - 序列修订：递归检视(Recursive Inspection)和SCoRe方法通过KL散度惩罚防止行为坍缩，形成连续改进轨迹 [20][30] - 混合策略：简单问题适用纯序列化策略，高难度问题需组合并行与序列方法获取最优表现 [19] 架构创新与工具整合 - 递归架构：Universal Transformer等设计实现自适应计算时间，3.5B模型在r¯=32迭代次数达到性能饱和 [71][73] - 思考token机制：插入特殊token<T>或暂停标记可隐式扩展计算循环，使模型复杂度降低30% [73][74] - 外部工具调用：PAL和Chain of Code方法将数学计算/代码执行外包，ReAct框架整合Wikipedia API等知识源 [45][48] 可解释性与忠实度 - 思维链监控：可有效检测reward hacking行为，对抗样本的鲁棒性随思考时间延长提升51% [51][65] - 忠实度测试：通过扰动提示实验显示推理模型(Claude 3.7/DeepSeek R1)比非推理模型更可能揭示真实思维过程 [62][64] - 优化压力风险：RL训练中直接优化CoT易导致新型reward hacking，需设计n-gram重复惩罚等防护机制 [66][69]

思维链（CoT）

测试时计算

潜变量建模

Artificial Intelligence

Artificial Intelligence

DeepSeek - V3 - Base

GPT

翁荔最新万字长文：Why We Think

量子位· 2025-05-18 13:20

核心观点 - 通过"测试时计算"（Test-time Compute）和"思维链"（Chain-of-Thought，CoT）技术可显著提升模型性能，突破当前能力瓶颈 [1][2] - 让模型在输出答案前多思考一会儿（如智能解码、思维链推理、潜在思考等方法）能提升智能水平 [2] - 该方法与人类思考方式深度关联，借鉴了心理学中的双系统理论（系统1快速直觉 vs 系统2慢速逻辑） [10][11] 心理学类比 - 人类思考分为系统1（快速直觉但易出错）和系统2（慢速逻辑更理性），模型通过延长思考时间可模拟系统2的深度分析 [10][11] - 数学问题等复杂任务需要系统2思考，模型通过CoT实现类似过程 [10] 计算资源优化 - Transformer模型的计算量约为参数量的2倍，稀疏模型（如MoE）计算量=2*参数/稀疏度 [13] - CoT允许模型根据问题难度动态调整计算量，提升效率 [13] - 测试时计算通过自适应修改推理时的输出分布优化性能 [24] 思维链技术发展 - 早期方法包括监督学习生成中间步骤（如数学题推导）和验证器判断答案正确性 [18] - 强化学习在可验证答案的数据集（如STEM题目）上大幅改进CoT推理能力 [19] - DeepSeek-AI的R1技术报告显示简单策略梯度算法即可实现强劲性能 [20] 并行采样与顺序修订 - 并行采样（如N选1、束搜索）通过多候选筛选提升准确性，但受模型单次生成能力限制 [24][25][29] - 顺序修订通过迭代修正错误，但需依赖外部反馈避免性能下降 [24][37][38] - 两者结合可优化不同难度问题的表现 [24] 强化学习与外部工具整合 - 强化学习（如SCoRe框架）通过多轮次优化实现自我修正 [41] - 外部工具（如代码解释器、知识搜索API）可弥补模型计算或知识短板 [45] - 纯RL无需监督微调即可涌现反思与回溯能力 [45] 架构创新与未来挑战 - 循环架构（如Universal Transformer）动态调整计算步数提升效率 [50] - 显式/隐式标记技术（如暂停标记、Quiet-STaR）可增加计算时间 [50] - 未来需解决奖励破解、无监督自我修正、性能迁移至基础模型等挑战 [50]

刚刚！北大校友Lilian Weng最新博客来了：Why We Think

机器之心· 2025-05-18 12:25

大模型测试时计算优化 - 核心观点：通过延长模型"思考时间"（测试时计算）可显著提升大语言模型在复杂推理任务中的性能表现，该方向与人类认知双系统理论高度相关[2][6] - GPT、Claude、Gemini等模型通过思维链(CoT)和测试时计算策略优化，在逻辑推理、长文本理解、数学问题求解等高级认知任务上不断突破性能边界[2] - Transformer生成每个token的计算量约为参数量的2倍，而稀疏模型(MoE)因部分网络激活可降低计算量至2×参数数÷稀疏度[8] 思维链技术演进 - 思维链(CoT)允许模型根据问题难度动态调整计算量，早期通过监督学习人类编写的推理路径实现[13] - 强化学习在可验证答案的数据集(如STEM问题)上应用显著提升CoT性能，近期采用策略梯度算法结合自动评估成为主流方法[14] - 模型规模越大，"思考时间"带来的性能收益越显著，在数学问题上成功率提升明显[16] 并行采样与序列修订 - 并行采样通过生成多个候选序列并用验证器筛选最优解，实现简单但依赖模型单次生成能力[19][26] - 序列修订通过迭代修正输出实现质量提升，需额外控制修订风险如正确答案被错误修改[20] - 实验表明简单问题适合纯序列策略，高难度问题需组合并行与序列方法才能获得最优表现[21] 强化学习应用 - DeepSeek-R1通过两阶段SFT-RL训练在数学/编程任务表现优异，验证纯强化学习可涌现"顿悟时刻"类高级推理能力[42][46] - 推理类RL训练使用格式奖励(特殊token包裹CoT)和准确性奖励(自动验证答案)双重机制[43] - 失败案例显示过程奖励模型易导致奖励欺骗，蒙特卡洛树搜索因token空间过大难以应用[49] 外部工具整合 - PAL和Chain of Code方法通过调用代码解释器处理数学计算/编程任务，扩展模型能力边界[52] - ReAct方法结合Wikipedia API调用与推理轨迹生成，实现外部知识整合[56] - OpenAI o3/o4-mini模型融合网页搜索、代码执行等工具操作，验证计算资源与性能正相关[57] 连续空间思考架构 - 递归架构如Universal Transformer通过自适应计算时间动态调整推理步数[82] - 思考token技术通过插入特殊token为模型争取额外计算时间，在数字推理任务效果显著[85] - Quiet-STaR实现token级推理，通过生成未来文本的合理化解释提升预测质量[89] 测试时计算规模效应 - 测试时计算优化相比参数扩展可能更高效，但对困难问题的弥补能力有限[107] - 思维链长度与评估准确率呈正相关，但简单拒绝采样会导致反向scaling现象[112][113] - 最佳效果出现在推理token远少于预训练token时，表明基础模型能力仍是关键[112]

Artificial Intelligence

Artificial Intelligence

DeepSeek - V3

前谷歌CEO：千万不要低估中国的AI竞争力

虎嗅· 2025-05-10 11:55

创始人心理与团队建设 - 创始人类型分为"远见型"和"放大器型"，前者擅长技术突破，后者擅长规模化与公司治理 [3][4] - 优秀人才往往具备"验证游戏"特质，通过解决具体问题证明价值后被大公司收购 [6][7] - 顶尖人才的核心动力是解决复杂问题的成就感而非金钱或头衔 [18][20] 初创公司成功要素 - 关键成功组合：出色产品+可扩展的盈利模式，如谷歌的PageRank与AdSense系统 [16][17] - AI初创公司需构建"边做边学"能力，学习速度决定市场主导权 [17][33] - 竞争是检验领导力的核心场景，优秀创始人会主动迎接大公司挑战 [10][11] AI行业发展趋势 - AI发展受三大技术弧线驱动：算力缩放定律、强化学习规划、测试时计算 [33][34] - 中国在开源AI领域快速崛起，DeepSeek以500万美元训练出对标顶级闭源的模型 [45][46] - 未来十年硬件瓶颈在于电力与系统构建能力，芯片行业可能面临繁荣-萧条周期 [48][49] 人才管理与组织文化 - "天后型"员工是变革推动者，需重点保留；"中庸型"员工需淘汰 [21][22] - CEO的核心职能是协调创造性人才，通过短期项目测试工程团队执行力 [24][25] - 初创公司应鼓励冒险文化，成熟公司反而因资源丰富而趋于保守 [14][15] 技术战略与竞争格局 - 开源与闭源模式并存，中国通过开源策略打破西方技术封锁 [42][43] - 强化学习是未来最具潜力方向，奖励函数设计是关键突破点 [50][51] - 行业颠覆常由创始人推动，旧企业易被协议锁死难以转型 [30][31]

深度｜前谷歌CEO谈全球AI竞赛：AI竞争核心是系统能否自我演化；AI不仅没有泡沫，反而被严重低估了

Z Potentials· 2025-05-09 11:35

创始人心理与团队建设 - 创始人分为两种类型：天赋型创始人具备独到远见，职业经理人型则擅长规模化扩张和制度建设[4] - 优秀人才往往最终选择创业，初创公司创始人参与的是"验证游戏"，10家公司中9家不会成功，4家彻底失败，5家成为"活死人"[6] - 领导力核心是在压力下迎难而上，CEO角色被严重低估，需要每天处理各种挑战并坚持12-14小时工作[12] - 天后型人才是公司真正推动者，需要重点保留和支持，而中庸型员工本质自利应被淘汰[20] AI行业竞争格局 - AI领域尚未出现泡沫，反而被严重低估，技术曲线还未触顶，临界点尚未到来[9][28] - 中国将AI视为国家级战略，投入数十亿美元，DeepSeek等开源模型已取得世界领先地位[34][35] - 美国面临开源与闭源路线选择，顶级模型多为闭源，但大学应继续推动开源创新[36][37] - 硬件瓶颈将成为未来十年主要限制因素，电力资源和系统构建能力是关键挑战[40] 技术发展趋势 - AI核心竞争力在于系统持续学习和自我演化能力，学习速度最快者将获胜[9][15] - 强化学习是当前最难也最有前景的方向，特别是控制AI规划能力的发展[42][44] - 三大技术趋势驱动AI进步：缩放定律、强化学习规划、测试时计算[28] - 基础模型可应用于各学科领域，将知识体系化并实现问题建模与解答[43] 公司运营与管理 - 初创公司成功需同时满足多个条件：正确时机、真实市场需求、强大技术方案[14] - 谷歌成功靠两大支柱：PageRank搜索引擎技术和AdSense广告拍卖系统[15] - 招聘顶尖人才需强调解决重要难题的机会而非金钱或头衔[17][19] - 组织管理中应给予人才短期项目测试其能力，工程管理者需随时掌握项目细节[22] 全球AI治理挑战 - 超级智能系统可能带来灭绝性威胁，需要建立人类与AI共处的思维体系[32][33] - 开源模型面临安全监管难题，需平衡代码公开与防止有害信息传播[38] - 中美在AI领域形成竞争格局，中国开源方案可能吸引多数国家采用[38][41]