Workflow
o1 模型
icon
搜索文档
o1 核心作者 Jason Wei:理解 2025 年 AI 进展的三种关键思路
Founder Park· 2025-10-21 21:49
智能商品化 - AI发展分为两个阶段:推动前沿阶段(研究人员努力解锁新能力)和商品化阶段(能力被规模化与降本)[11] - 在MMLU基准测试中,达到特定性能水平所需的成本呈现每年下降趋势[11] - 自适应计算时代允许根据任务难度调整计算量,从而持续降低智能成本,无需持续扩大模型规模[13] - 自适应计算的技术突破源于o1模型,证明在测试阶段投入更多计算资源可提升模型在基准测试上的表现[13] - 信息检索效率经历了四个时代的演变:前互联网时代(耗时数小时)、互联网时代(耗时数分钟)、聊天机器人时代(效率提升)和智能Agent时代(耗时几分钟甚至几小时),获取公共信息的时间急剧缩短[16][17] - 例如,回答“1983年釜山有多少对夫妇结婚”这一问题,在智能Agent时代仅需几分钟,而在前互联网时代可能需要飞到韩国并翻阅大量书籍[16] - OpenAI的BrowseComp基准测试显示,人类平均需要两个多小时解决的复杂问题,Deep Research模型可解决约一半[17] - 智能商品化将带来领域民主化,例如编程和个人健康等领域因知识门槛降低而更加开放[20] - 公共信息成本降低使得私有信息(如非市场挂牌的房屋信息)的相对价值提升[20] - 最终信息获取将变得无摩擦,形成高度个性化的信息流,而非公共互联网[20] - 任何公开可用的信息都能立刻获取,形成即时知识[22] 验证者定律 - 验证者定律的核心是:训练AI解决特定任务的能力,与验证该任务完成情况的难易程度成正比[14][26] - 任何可解决且易于验证的任务,最终都会被AI攻克[3][26] - 验证的不对称性指对于某些任务,验证解决方案比找到解决方案更容易[21] - 例如,解数独困难但验证容易,编写Twitter代码困难但验证容易,而设计饮食方案则生成容易验证困难[23][28] - 可通过提供特权信息(如答案或测试用例)来改变任务的验证不对称性,增加验证的容易度[26] - 任务的可验证性体现在五个方面:客观性(有明确对错标准)、验证速度(检查快慢)、可批量验证(一次性检查大量方案)、低噪音(验证结果稳定)和连续反馈(能给出具体质量分数)[29] - DeepMind的AlphaDev项目是利用验证不对称性的绝佳例子,通过进化式搜索算法(生成候选方案、自动评估打分、迭代优化)解决高度可验证的任务[31][32][33][34] - AlphaDev的成功在于其专注于解决单一具体问题,避开了深度学习中的泛化难题[35] - 验证者定律的启示是,首先被自动化的将是那些非常容易验证的任务[38] - 未来重要的领域包括发明衡量事物的方法,为难以衡量的领域(如创造力)设计快速、客观、可扩展的评估体系,从而利用AI进行大规模优化[38] 智能的锯齿状边缘 - 智能的边缘是锯齿状的,意味着AI在不同任务上的能力水平和进步速度因任务特性而异,发展不均衡[14][37][42] - “快速起飞”的假说(即AI在某一领域超越人类后智能会爆炸式增长)可能过于简单化,更现实的场景是自我改进能力存在一个“光谱”,而非二元突破[39][41][42] - 自我改进的速度应按每个具体任务来考量,各项任务会有不同的改进速度[42][44] - 例如,AI在复杂数学题、编程竞赛等“高峰”任务表现出色,但在判断9.11与9.9大小或处理特林吉特语等“低谷”任务上表现不佳[42] - 预测AI改进速度的几个窍门包括:AI擅长数字任务(因迭代速度快,扩展计算资源容易)[47]、对人类越容易的任务AI往往也觉得越容易[47]、AI可能完成人类因生理限制无法完成的任务(如分析1000万张乳腺癌图像)[47]、数据越充足AI表现越好(如语言模型在不同语言中的数学表现与数据量正相关)[47]、存在明确客观评估指标的任务可通过强化学习生成假数据实现自我训练[47] - 基于上述标准,可预测不同任务的自动化时间点:翻译(前50种语言)和调试基础代码已完成,竞赛数学在2024年完成,AI研究可能到2027年,化学研究更晚,拍电影可能在2029年,预测股市不确定,翻译特林吉特语可能性低,修水管和理发等非数字任务AI短期内难搞定,带女朋友约会让她开心AI永远搞不定[48][50] - 启示是AI影响最大的是那些符合数字任务、对人类不难且数据丰富的领域(如软件开发将极大加速),而另一些领域(如理发)可能保持不变[50]
Now, Scaling What?
机器之心· 2025-05-24 22:12
Scaling What的阶段性探索 - 自2024年起Scaling范式发生转移,预训练环节的Scaling Law边际效益递减且文本数据受限,行业开始探索「Scaling What」的新目标[3] - 业界对「预训练Scaling Law收益递减」达成共识,OpenAI、Anthropic等团队仍保持乐观但转向寻找正确的Scaling对象[4] - 新研究方向包括Densing Law、「50%任务完成时间」等替代性评估指标,以及Self-Play RL+LLM、Post-Training Scaling Law等技术路线[4] 推理阶段计算优化(TTS)的兴起 - 谷歌DeepMind 2024年8月首次提出通过增加推理时计算提升模型输出质量,OpenAI o1模型和DeepSeek-R1的GRPO技术进一步验证该方向[4][5] - 2025年5月学术综述将此类技术统称为TTS(Test-Time Scaling),提出What-How-Where-How Well四轴分类框架,显示研究重点从预训练转向推理优化[6] - TTS应用范围从数学推理扩展到开放式问答,方法从重复采样演进为混合扩展和内部扩展策略[6][7] 四大Scaling技术路线 - Parallel Scaling:通过并行生成多个输出并聚合答案,依赖覆盖度和聚合质量,实现方式包括多模型采样和输入调整[9] - Sequential Scaling:模拟人类系统2思维,通过逐步更新中间状态分步骤解决问题[9] - Hybrid Scaling:结合并行生成与序贯筛选,先迭代候选解再通过选择函数聚合[9] - Internal Scaling:模型自主分配推理计算资源,如OpenAI-o1模仿人类长推理链[10] 后训练技术的范式重构 - 传统观点认为预训练奠定基础能力,微调(指令微调/SFT/RLHF)负责领域适应[11] - 当前趋势显示微调与推理优化(TTS)在后训练阶段具有同等重要性,共同塑造模型最终性能[6][11] 注:原文中未提供具体财务数据或公司运营细节,故未包含相关分析
万字长文带你读懂强化学习,去中心化强化学习又能否实现?
机器之心· 2025-05-07 12:34
强化学习范式革新 - 强化学习(RL)成为AI模型性能提升的新范式 尤其体现在DeepSeek-R1和R1-Zero模型的突破性进展上 [2][3][20] - 传统预训练Scaling Law面临数据耗尽危机 Ilya Sutskever预测互联网数据作为预训练燃料的时代即将终结 [16][19] - 模型改进形成三支柱框架:预训练Scaling 测试时间计算(TTC) Scaling 强化学习微调Scaling 其中RL可形成自我改进闭环 [25][26] DeepSeek技术路径 - 创新性采用GRPO(组相对策略优化)替代PPO 移除价值模型和复杂奖励系统 计算开销降低50% [44][45][46] - R1-Zero完全摒弃监督微调(SFT) 通过硬编码验证器实现纯强化学习训练 但输出可读性差 [35][37] - R1模型分四阶段优化:冷启动SFT→GRPO→拒绝采样SFT→RL微调 平衡推理能力与人类可读性 [52][54][56] 去中心化应用潜力 - 训练场(Training Grounds)模块最具去中心化价值 可分布式生成数学/物理/编程等领域的验证型推理数据 [73][74][77] - PETALS框架实现模型层分布式托管 支持8位量化通信 176B参数模型可在消费级GPU协作推理 [92][94][98] - RL Swarm架构实现策略模型P2P协作学习 在Qwen-2 5B模型实验中输出质量提升30% [102][103][104] 硬件与算法协同 - FP8量化技术大幅降低内存需求 4000系以上NVIDIA显卡可支持 促进异构硬件参与 [84][87][89] - DiPaCo路径分片技术使MoE模型训练分布式成为可能 150M参数路径可匹配13B密集模型效果 [99][101] - 模块化专家系统(如HDEE)预示未来方向 异构领域专家可并行训练后集成 [106][107] 行业生态演进 - Hugging Face启动Open R1项目 旨在完全开源复现R1技术栈 [109] - Prime Intellect通过SYNTHETIC-1项目尝试分布式复制R1训练流程 [109] - 谷歌DeepMind与哈佛合作证明8位量化PPO训练速度提升1 5-2 5倍 [87]
DeepSeek对英伟达长期股价的潜在影响
致富证券· 2025-03-12 14:38
报告行业投资评级 未提及 报告的核心观点 - DeepSeek在训练和推理成本上有显著优势,引发科技股大幅波动,短期内冲击英伟达股价,但长远看随着AI技术普及和商业化加速,英伟达芯片需求可能进一步增长,AI产业将迈向新阶段 [2][3][16] 根据相关目录分别进行总结 DeepSeek引发市场波动 - 1月27日,DeepSeek在中国区和美国区苹果App Store免费榜登顶,美国科技股市场大幅下跌,费城半导体指数下跌9.2%,英伟达股价下跌近17%,市值蒸发近6000亿美元,WTI原油价格盘中一度下跌3% [2] DeepSeek成本优势 - 训练成本方面,DeepSeek使用约2000张H800 GPU训练,V3模型训练成本不超过600万美元,预训练阶段每万亿Token训练用2048个H800 GPU集群,180K个GPU小时(约3.7天)完成,总耗时约2788K GPU小时 [5][6] - 推理成本方面,OpenAI的o1模型每百万输入和输出Token分别收费15美元和60美元,DeepSeek的R1模型相同输入和输出价格仅为OpenAI的3%,DeepSeek推理成本API报价每百万Token输入成本仅1元 [3][7] DeepSeek低成本训练实现方式 - DeepSeek团队创新训练策略,在监督微调环节优化,最初尝试跳过SFT步骤仅用强化学习训练,引入少量冷启动数据提升稳定性和推理能力,R1系列模型摒弃RLHF中的人类反馈部分 [9] - 为解决纯强化学习训练文本中英混杂问题,用数千条链式思考数据微调V3 - Base模型,再启动强化学习流程生成样本数据微调得到R1模型,降低成本同时提升推理和语言生成质量 [10] DeepSeek对AI产业影响 - 对依赖自研大模型构建商业模式的公司影响更显著,如引发Meta内部AI团队担忧,Meta成立小组分析其技术原理并计划用于Llama模型优化 [12] - 美国大型科技企业以保持技术领先为首要目标,虽可能借鉴DeepSeek方法优化成本,但不会作为核心战略,现阶段大语言模型发展需大量算力,未来其他机器学习模型也可能有巨大算力需求 [13] - 英伟达认为DeepSeek成果会增加市场对其芯片需求,依据杰文斯悖论,技术进步降低资源使用成本会使市场对资源总体需求上升 [14] - DeepSeek降低大语言模型开发门槛,促使更多中小型企业和个人训练私有模型,若引发推理需求“第二波”增长,增量需求将远超AI巨头减少的GPU采购量,且商业化后推理环节算力消耗更大 [15]
AI 月报:马斯克加速 GPU 竞赛;大模型真撞墙了? 风口转到 Agent
晚点LatePost· 2024-12-11 22:30
技术发展 - OpenAI在12月开启为期12天的密集发布活动,包括推出完整版o1模型、每月200美元的ChatGPT Pro、视频生成模型Sora等 [2] - 大模型行业面临能力提升瓶颈,Google、OpenAI、Anthropic等公司在开发下一代模型时未能实现前几年的显著性能跃升 [4][5] - OpenAI尝试用合成数据训练新模型Orion但效果不理想,同时行业探索更高精度数据、后训练优化等新方向 [16][17][18][19] 市场竞争 - OpenAI企业市场份额从50%降至34%,Anthropic份额从12%增至24% [22] - xAI以500亿美元估值融资50亿美元,Anthropic获亚马逊追加40亿美元投资,Writer以19亿美元估值融资2亿美元 [27] - 视频生成领域竞争加剧,Runway上线新功能,腾讯开源对标Sora的HunyuanVideo模型 [25][26] 算力竞赛 - 亚马逊、微软、Meta、Google四家公司今年资本支出超2000亿美元建设算力中心,并计划加大投资 [28] - Anthropic CEO预测2026年将出现耗资超100亿美元的算力集群,OpenAI提议建造千亿美元级数据中心 [28] - 英伟达加速产品迭代,计划2025年发布机器人专用芯片Jetson Thor [35][37] 应用落地 - ChatGPT周活用户达3亿,企业生成式AI支出飙升500%至138亿美元 [38] - AI编程成为竞争焦点,GitHub Copilot生成微软近半启动代码,Cursor以25亿美元估值获融资 [6][23][43] - Agent成为行业新赛点,OpenAI、Anthropic、智谱等公司加速布局智能体产品 [51][52][53] 行业投资 - 沙特宣布500-1000亿美元AI投资计划,波兰投入2.44亿美元开发本土大模型 [31] - AI制药公司Cradle获7300万美元融资,Enveda筹1.3亿美元推进药物研发 [61] - 具身智能领域Physical Intelligence以24亿美元估值融资4亿美元,银河通用获5亿元人民币投资 [29]