Workflow
验证者法则
icon
搜索文档
前OpenAI灵魂人物Jason Wei最新演讲,三大思路揭示2025年AI终极走向
36氪· 2025-11-03 11:02
在AI加持下的这一年人类突飞猛进,停下来回头看去,似乎AI已经无所不能,但前OpenAI灵魂研究员认为AI不可能瞬间超越人类,他还提出 了三个关于AI的最新洞见。 用三句话总结下2025年AI的发展,你会想到什么? 所有能被验证的任务,最终都会被AI解决 智能最后会变成商品,知识价格归零 AI不会瞬间超过人类 最近,前OpenAI核心研究员、CoT(思维链)作者Jason Wei在斯坦福大学AI Club做了一场精彩的演讲。 量化交易员说AI很酷,但并不能做我的工作; 顶级实验室AI研究院:2-3年后,AI就要取代我的工作了。 那么,谁对谁错? 智能的商品化 Jason Wei的原话是Intelligence as a Commodity。 AI的智能发展可以分为两个阶段: 第一阶段:前沿突破,当AI还无法很好地完成某任务时,研究的重点是「解锁新能力」。 这是他跳槽到Meta后少有的公开分享。 我们的世界,在AI大行其道的这一年,到底发生了什么? AI继续发展下去是什么样子的? 第二阶段:能力商品化,一旦AI能完成该任务,该能力就会被快速复制、成本趋近于零。 例如在MMLU(多任务语言理解基准)上,过去几年模 ...
上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理
机器之心· 2025-08-09 11:59
验证非对称性与AI任务解决 - 验证非对称性(Asymmetry of Verification)的核心思想是:验证一个解的好坏远比从头创造一个解容易得多 [3] - 验证者法则(Verifier's Law)断言:所有可能被解决且易于验证的任务都将被AI解决 [3] - 具备客观真理、可快速验证、可规模化验证、低噪音、连续奖励等特性的任务为强化学习创造了完美训练场 [3] RRVF框架与多模态应用 - RRVF(Reasoning-Rendering-Visual-Feedback)框架利用验证的非对称性攻克复杂视觉推理难题 [4] - 框架构建端到端优化的闭环系统,通过推理、渲染、视觉反馈实现模型自我纠正学习 [9] - 相比传统依赖昂贵「图像-文本」配对数据的方法,RRVF无需教模型「怎么做」,而是构建自我验证环境 [7][9] RRVF工作流程 - 迭代式视觉推理:模型在<think>中写下思考过程,调用外部工具渲染并获取反馈,后续轮次修正代码 [11] - 视觉反馈:视觉裁判模型(72B Qwen2.5-VL)对比渲染图与原图,生成结构化自然语言反馈指导修正 [12] - 混合奖励函数:包含视觉相似度奖励(R_vision)、格式正确性奖励(R_format)、工具使用奖励(R_tool) [14][16] - GRPO算法优化:通过对8个候选答案比较打分直接优化策略,无需独立价值函数 [15] 实验结果与性能表现 - 在ChartMimic数据集上,RRVF代码执行率达97 83%,远超传统监督微调(SFT)的69 00% [21] - 7B模型综合得分64 36,超越为其提供反馈的72B模型(47 30) [22] - 零样本测试中,RRVF在未训练的Plot2Code数据集上执行率稳定在96 21%,而SFT模型从69%暴跌至49% [23] - 在CLIP Score和GPT Score指标上,RRVF分别达到88 29和91 50,接近顶级闭源模型水平 [20] 验证者法则的实践意义 - RRVF证明通过设计高效验证环境,小模型可超越大模型表现 [22] - 视觉反馈学习使模型掌握可迁移的底层视觉到代码生成逻辑,而非死记硬背 [21][23] - AI发展瓶颈可能在于能否将复杂问题转化为易于验证的问题,而非模型规模 [23]