报告行业投资评级 - 看好(维持) [1] 报告的核心观点 - 2025年2月20日Eric Zhao提出基于采样搜索的创新方法,是后训练扩展计算范式,通过随机生成候选解、自验证筛选保留最优解提升推理精度,基础策略能在高难度测试超越优化模型,揭示其在解决复杂推理问题的基础性作用 [7][10] - 当前模型扩展通过后训练和推理阶段技术突破实现,此前DeepSeek - R1为后训练扩展开辟新路径,Eric Zhao等人研究为推理阶段模型能力提升提供创新视角,暴力搜索理论上限仅受计算资源限制,是可独立扩展且无天花板的解决方案,研究通过优化策略实现基座模型在复杂任务的卓越表现,无需依赖大规模后训练 [7][24] 根据相关目录分别进行总结 基于采样搜索——后训练Scaling的创新方法 - 2025年2月20日Eric Zhao提出大模型推理阶段基于采样搜索的创新方法,是后训练扩展计算范式,核心是随机生成候选解、自验证筛选保留最优解,能提升复杂任务推理精度,基础策略在高难度测试超越优化模型 [10] - Gemini v1.5 Pro模型使用基于采样搜索后Verification@200在四个基准测试上准确率在Consistency@200基础上有进步并超越o1 - Preview [11] "广撒网+精筛选"的自验证机制选出最优解 - 基于采样搜索核心原理是“广撒网+精筛选”,分三步:解空间概率覆盖机制,随机采样扩展解空间探索范围,提升捕获正确解概率;候选解隐式质量优化效应,自验证机制能识别高质量解,实现性能提升;对比分析与错误校正机制,对比候选解差异定位推理错误,形成“多解互验”增强验证体系 [13][14] - 实验表明推理有效性与采样规模正相关,随机候选解结合自验证筛选表现超越o1 - Preview模型,在计算资源充足场景有效性显著 [15] 两种自我验证策略提升采样搜索质量 - 论文确定两个原则提升采样搜索性能:直接比较候选解定位错误,通过比较差异识别错误;对候选解进行特定于任务的重写,将候选解重写为正式、结构化格式便于验证 [20] - 基于采样搜索方法极简实现是随机采样生成候选解,通过自我验证选择合适解,当候选回复分数接近且答案不一致时,语言模型两两比较,选择获胜次数最多的回复 [22][23] Scaling Law的多线性叙事进行时 - 当前模型扩展通过后训练和推理阶段技术突破实现,DeepSeek - R1为后训练扩展开辟新路径,Eric Zhao等人研究为推理阶段模型能力提升提供创新视角,暴力搜索是可独立扩展且无天花板的解决方案,研究通过优化策略和自我验证机制实现基座模型在复杂任务的卓越表现,无需依赖大规模后训练 [24] - 研究在训练层面揭示减少对强化学习或监督微调过度依赖的可能性,在推理层面强调随机采样与自验证机制协同效应,对高精度需求场景有重要意义 [30]
测试时推理:随机采样的“暴力”美学
财通证券·2025-03-26 15:27