智能的锯齿状边缘
搜索文档
o1 核心作者 Jason Wei:理解 2025 年 AI 进展的三种关键思路
Founder Park· 2025-10-21 21:49
智能商品化 - AI发展分为两个阶段:推动前沿阶段(研究人员努力解锁新能力)和商品化阶段(能力被规模化与降本)[11] - 在MMLU基准测试中,达到特定性能水平所需的成本呈现每年下降趋势[11] - 自适应计算时代允许根据任务难度调整计算量,从而持续降低智能成本,无需持续扩大模型规模[13] - 自适应计算的技术突破源于o1模型,证明在测试阶段投入更多计算资源可提升模型在基准测试上的表现[13] - 信息检索效率经历了四个时代的演变:前互联网时代(耗时数小时)、互联网时代(耗时数分钟)、聊天机器人时代(效率提升)和智能Agent时代(耗时几分钟甚至几小时),获取公共信息的时间急剧缩短[16][17] - 例如,回答“1983年釜山有多少对夫妇结婚”这一问题,在智能Agent时代仅需几分钟,而在前互联网时代可能需要飞到韩国并翻阅大量书籍[16] - OpenAI的BrowseComp基准测试显示,人类平均需要两个多小时解决的复杂问题,Deep Research模型可解决约一半[17] - 智能商品化将带来领域民主化,例如编程和个人健康等领域因知识门槛降低而更加开放[20] - 公共信息成本降低使得私有信息(如非市场挂牌的房屋信息)的相对价值提升[20] - 最终信息获取将变得无摩擦,形成高度个性化的信息流,而非公共互联网[20] - 任何公开可用的信息都能立刻获取,形成即时知识[22] 验证者定律 - 验证者定律的核心是:训练AI解决特定任务的能力,与验证该任务完成情况的难易程度成正比[14][26] - 任何可解决且易于验证的任务,最终都会被AI攻克[3][26] - 验证的不对称性指对于某些任务,验证解决方案比找到解决方案更容易[21] - 例如,解数独困难但验证容易,编写Twitter代码困难但验证容易,而设计饮食方案则生成容易验证困难[23][28] - 可通过提供特权信息(如答案或测试用例)来改变任务的验证不对称性,增加验证的容易度[26] - 任务的可验证性体现在五个方面:客观性(有明确对错标准)、验证速度(检查快慢)、可批量验证(一次性检查大量方案)、低噪音(验证结果稳定)和连续反馈(能给出具体质量分数)[29] - DeepMind的AlphaDev项目是利用验证不对称性的绝佳例子,通过进化式搜索算法(生成候选方案、自动评估打分、迭代优化)解决高度可验证的任务[31][32][33][34] - AlphaDev的成功在于其专注于解决单一具体问题,避开了深度学习中的泛化难题[35] - 验证者定律的启示是,首先被自动化的将是那些非常容易验证的任务[38] - 未来重要的领域包括发明衡量事物的方法,为难以衡量的领域(如创造力)设计快速、客观、可扩展的评估体系,从而利用AI进行大规模优化[38] 智能的锯齿状边缘 - 智能的边缘是锯齿状的,意味着AI在不同任务上的能力水平和进步速度因任务特性而异,发展不均衡[14][37][42] - “快速起飞”的假说(即AI在某一领域超越人类后智能会爆炸式增长)可能过于简单化,更现实的场景是自我改进能力存在一个“光谱”,而非二元突破[39][41][42] - 自我改进的速度应按每个具体任务来考量,各项任务会有不同的改进速度[42][44] - 例如,AI在复杂数学题、编程竞赛等“高峰”任务表现出色,但在判断9.11与9.9大小或处理特林吉特语等“低谷”任务上表现不佳[42] - 预测AI改进速度的几个窍门包括:AI擅长数字任务(因迭代速度快,扩展计算资源容易)[47]、对人类越容易的任务AI往往也觉得越容易[47]、AI可能完成人类因生理限制无法完成的任务(如分析1000万张乳腺癌图像)[47]、数据越充足AI表现越好(如语言模型在不同语言中的数学表现与数据量正相关)[47]、存在明确客观评估指标的任务可通过强化学习生成假数据实现自我训练[47] - 基于上述标准,可预测不同任务的自动化时间点:翻译(前50种语言)和调试基础代码已完成,竞赛数学在2024年完成,AI研究可能到2027年,化学研究更晚,拍电影可能在2029年,预测股市不确定,翻译特林吉特语可能性低,修水管和理发等非数字任务AI短期内难搞定,带女朋友约会让她开心AI永远搞不定[48][50] - 启示是AI影响最大的是那些符合数字任务、对人类不难且数据丰富的领域(如软件开发将极大加速),而另一些领域(如理发)可能保持不变[50]