test-time compute

搜索文档

虎嗅· 2025-05-22 17:54

大模型思考机制 - 从心理学角度类比人类思考系统1（直觉快速）和系统2（分析缓慢） LLM早期输出类似系统1 增加思考时间可激活系统2式推理 [6][7] - 计算资源视角将思考定义为可分配的计算量总和神经网络通过调整前向传递资源实现动态思考 [8] - 数学建模将思考过程视为隐变量通过概率模型整合多路径思考可优化答案分布 [10][11] 模型训练方法论 - 思维链（CoT）技术演进：从模仿人类推理到强化学习自动优化模型规模与CoT收益呈正相关 [12][13] - 强化学习规模化应用案例：DeepSeek R1采用并行采样（best-of-N）与顺序改进（反思修正）双路径训练纯RL训练也可涌现高级推理能力 [15][17] - 外部工具调用成为新范式 OpenAI o3/o4-mini与Claude sonnet3.7集成代码解释器/网页搜索等多模态工具 [19][20][21] 前沿技术挑战 - 思考忠实性问题：专用推理模型（如Claude 3.7 Sonnet）比通用模型更易展示真实思考链但直接奖励诚实性可能导致反向作弊 [23][24] - 计算效率平衡：当前阶段增加test-time计算量优于单纯扩参但受限于基础模型潜力天花板 [26][27] - 架构创新方向：动态深度RNN 改进型Transformer 思考token插入潜变量建模等28] 开放研究问题 - 强化学习激励机制设计：需兼顾人类可读性思考真实性反reward hacking三重目标 [29] - 能力迁移路径：如何将推理模型性能提升蒸馏回基础模型实现技术代际传承 [31] - 自适应思考机制：建立问题难度与思考时间的动态匹配算法 [31]

大模型思考

晚点播客丨OpenAI o1 如何延续 Scaling Law，与硅基流动袁进辉聊 o1 新范式

晚点LatePost· 2024-09-20 23:22

OpenAI新模型o1的技术突破 - o1通过强化学习、思维链(CoT)和推理阶段算力分配(test-time compute)三大技术方法显著提升逻辑推理能力，尤其在科学、数学和编程任务上表现突出[3][8][9] - 模型在推理阶段采用"系统2"式多步反思机制，平均需调用10次单模型推理，算力消耗增至10倍[19][24] - 技术组合验证了推理端算力投入的边际收益，开辟新优化方向，可能推动行业从单纯追求训练规模转向训练-推理协同优化[20][22] 行业应用与开发者生态 - AI应用开发呈现"草根化"趋势，个人开发者和小微企业占比提升，典型场景包括教育玩具、编程辅助、遗嘱撰写等垂直领域[40][41][42] - 开源模型加速应用创新，国内开发者主要调用通义千问(Qwen)、DeepSeek和GLM-4，其中Qwen因版本齐全受青睐，DeepSeek以编程能力见长[45] - 应用爆发呈现"巷战"特征，大量小型AI功能嵌入钉钉等工作流，日调用量达数亿tokens，但尚未形成超级应用[46][47][48] 算力市场与公司战略调整 - 国内GPU算力价格下降，主因基础模型训练需求减少和电力成本优势，但超大规模训练集群仍稀缺[38][39] - Meta等开源策略改变行业格局，多数公司转向基于开源模型开发，仅资源充沛或AGI目标明确的公司继续自研基础模型[36][37] - o1推动推理优化基础设施需求，硅基流动等公司探索并行推理、依赖关系优化等技术降低计算延迟[34] 技术演进与竞争格局 - 模型架构可能出现"小推理核心+大知识库"的分化设计，专业化场景采用参数更少的推理模块[26][29] - 苹果Siri、微信等现有入口产品在整合AI能力上具优势，但尚未出现原生AI超级应用[49][51] - 技术扩散速度加快导致先发优势窗口期缩短，企业需在效果优化与商业化节奏间寻找平衡[37][52]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence