验证者法则 - 财报，业绩电话会，研报，新闻

验证者法则

搜索文档

前OpenAI灵魂人物Jason Wei最新演讲，三大思路揭示2025年AI终极走向

36氪· 2025-11-03 11:02

AI发展的核心观点 - AI发展呈现渐进式而非爆发式超越人类，智能边界呈锯齿状，不同任务进展速率不同[33][42] - 所有能被验证的任务最终都会被AI解决，可验证性是AI攻克任务的关键驱动力[16][41] - 智能正成为商品化资源，知识获取成本趋近于零，公开信息价值下降而私有信息相对升值[5][15][40] 智能商品化 - AI能力发展分为前沿突破和能力商品化两个阶段，达到特定性能后成本快速下降[5] - MMLU等基准测试显示模型性能提升的同时达到特定分数的成本逐年下降[5] - 自适应计算技术使AI能根据任务难度动态调整算力，智能成本持续下降无需无限扩大模型规模[10][12] 验证者法则 - 存在验证非对称性现象：数独生成难验证易，网站代码生成极难但验证只需点击浏览[17][18] - 任务可验证性取决于五个因素：客观真值、验证速度、批量验证能力、低噪声稳定性、连续反馈质量[23] - AlphaEvolve案例展示通过生成候选答案、自动打分、迭代优化流程攻克易验证难求解任务[26][28][30] 智能锯齿边缘 - AI能力发展不均衡：代码调试和竞赛数学已攻克，化学研究和物理世界交互任务进展缓慢[34][35][38][39] - 任务数字化程度和数据丰富度决定AI攻克速度，前50种语言翻译已完成而意大利方言翻译可能永不攻克[37][40] - 对人类简单的任务对AI也简单，但AI能在癌症影像预测等人类极难领域实现超越[36] 知识民主化 - 信息获取时间从互联网时代数分钟缩短至Agent时代数秒，公开知识获取趋近零成本[14][40] - 编程和生物黑客等高门槛知识领域被大众化，内幕和独家信息价值因公开信息免费而相对提升[15] - 个性化互联网趋势使每个人可能拥有完全定制的知识入口[19]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

上海AI Lab、浙大EagleLab等提出RRVF：利用「验证非对称性」，只输入图片学习视觉推理

机器之心· 2025-08-09 11:59

验证非对称性与AI任务解决 - 验证非对称性（Asymmetry of Verification）的核心思想是：验证一个解的好坏远比从头创造一个解容易得多 [3] - 验证者法则（Verifier's Law）断言：所有可能被解决且易于验证的任务都将被AI解决 [3] - 具备客观真理、可快速验证、可规模化验证、低噪音、连续奖励等特性的任务为强化学习创造了完美训练场 [3] RRVF框架与多模态应用 - RRVF（Reasoning-Rendering-Visual-Feedback）框架利用验证的非对称性攻克复杂视觉推理难题 [4] - 框架构建端到端优化的闭环系统，通过推理、渲染、视觉反馈实现模型自我纠正学习 [9] - 相比传统依赖昂贵「图像-文本」配对数据的方法，RRVF无需教模型「怎么做」，而是构建自我验证环境 [7][9] RRVF工作流程 - 迭代式视觉推理：模型在<think>中写下思考过程，调用外部工具渲染并获取反馈，后续轮次修正代码 [11] - 视觉反馈：视觉裁判模型（72B Qwen2.5-VL）对比渲染图与原图，生成结构化自然语言反馈指导修正 [12] - 混合奖励函数：包含视觉相似度奖励（R_vision）、格式正确性奖励（R_format）、工具使用奖励（R_tool） [14][16] - GRPO算法优化：通过对8个候选答案比较打分直接优化策略，无需独立价值函数 [15] 实验结果与性能表现 - 在ChartMimic数据集上，RRVF代码执行率达97 83%，远超传统监督微调（SFT）的69 00% [21] - 7B模型综合得分64 36，超越为其提供反馈的72B模型（47 30） [22] - 零样本测试中，RRVF在未训练的Plot2Code数据集上执行率稳定在96 21%，而SFT模型从69%暴跌至49% [23] - 在CLIP Score和GPT Score指标上，RRVF分别达到88 29和91 50，接近顶级闭源模型水平 [20] 验证者法则的实践意义 - RRVF证明通过设计高效验证环境，小模型可超越大模型表现 [22] - 视觉反馈学习使模型掌握可迁移的底层视觉到代码生成逻辑，而非死记硬背 [21][23] - AI发展瓶颈可能在于能否将复杂问题转化为易于验证的问题，而非模型规模 [23]

验证者法则

验证非对称性

Artificial Intelligence

Artificial Intelligence

RRVF

Qwen2.5-VL