Reinforcement Learning - 财报，业绩电话会，研报，新闻 - Reportify

Reinforcement Learning

搜索文档

DeepSeek-R1论文登上Nature封面，通讯作者梁文锋

36氪· 2025-09-18 08:45

论文核心观点与行业意义 - DeepSeek-R1模型是首个通过权威学术期刊《自然》同行评审的大语言模型，其论文通讯作者为梁文锋[4][6] - 该研究采用强化学习方法训练模型进行推理，使模型学会逐步解决问题并自我验证，显著提高了在编程和研究生水平科学问题上的表现[6] - 将大模型纳入独立同行评审体系被视为从“技术竞赛”迈向“科学纪律”的关键一步，有助于遏制行业乱象、建立公众信任[7][8] 模型训练方法与技术创新 - 开发团队开辟了新思路：即使不用监督微调作为冷启动，通过大规模强化学习也能显著提升模型推理能力[10] - DeepSeek-R1-Zero采用群组相对策略优化降低训练成本，使用准确度和格式两种互补的奖励机制，并设计简单模板引导基础模型先推理后给出答案[10] - 模型在训练中展现出自我进化能力，学会生成数百到数千个推理token，并自然产生反思能力和探索不同解题方法的高级行为[11] - 针对R1模型构建了少量长思维链数据作为冷启动，解决了DeepSeek-R1-Zero可读性差、语言混杂的问题[12][13] - 训练流程包含推理导向的强化学习、拒绝采样和监督微调、用于所有场景的强化学习等多个阶段[14][15][16] 模型性能表现与基准测试 - DeepSeek-R1采用混合专家架构，激活参数370亿，总参数6710亿[20] - 在多项基准测试中表现优异：MMLU-Pro得分84.0，DROP得分92.2，GPQA Diamond得分71.5，AIME 2024得分79.8[20] - 编码能力突出：LiveCodeBench得分65.9，Codeforces评分2029，百分位96.3[20] - 中文任务表现强劲：C-Eval得分91.8，CLUEWSC得分92.8[20] 知识蒸馏与小模型应用 - 通过使用DeepSeek-R1整理的80万个样本对Qwen和Llama等开源模型进行微调，使小模型具备推理能力[18] - 蒸馏效果显著：DeepSeek-R1-Distill-Qwen-32B在AIME 2024达到72.6分，MATH-500达到94.3分[20] - 即使是1.5B小模型也展现出不错推理能力，在AIME 2024获得28.9分，Codeforces评分达到954[20]

Seek .(US:SKLTY)

Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

刚刚，梁文锋发Nature了

36氪· 2025-09-18 07:43

论文核心研究成果 - 研究首次证明仅通过强化学习即可激发大语言模型的推理能力，无需依赖人工标注的思维链轨迹数据[1][4] - 提出的强化学习框架促使模型自主演化出高级推理模式，如自我反思、验证和动态策略适应[4][7] - 训练出的模型在数学、编程竞赛和STEM领域等可验证任务上表现卓越，超越了基于人类示范数据进行传统监督学习的模型[4] - 模型展现出的推理模式可系统性地用于指导并增强小型模型的推理能力[4] 模型开发与训练细节 - 模型基于DeepSeek-V3 Base基座模型开发，使用GRPO作为强化学习框架，仅以最终预测答案的正确性作为奖励信号[6][7] - 训练出的DeepSeek-R1-Zero模型倾向于生成更长的回答，其中包含验证、反思和探索备选方案[7] - 在DeepSeek-R1-Zero基础上，通过多阶段训练结合强化学习、拒绝采样和监督微调，开发出既能强推理又能贴合人类偏好的DeepSeek-R1[9] - 团队还蒸馏出小型模型并公开发布，为研究社区提供资源[9] 数据安全与污染防控 - 公司对预训练和后训练数据均实施了全面的去污染措施，例如在预训练数据中识别并删除了约600万条数学领域的潜在污染文本[9] - 后训练阶段的数学数据均来自2023年之前的竞赛，并采用与预训练相同的过滤策略，确保训练与评测数据无重叠[10] - 公司承认去污染方法无法完全防止测试集改写，2024年前发布的部分基准测试仍可能存在污染问题[10] - 基座模型DeepSeek-V3 Base使用的数据全部来自互联网，数据截止时间为2024年7月，当时尚未发布任何公开的先进推理模型[5][12] 模型安全性能评估 - DeepSeek-R1在服务部署中引入了外部风险控制系统，基于关键词匹配并使用DeepSeek-V3进行风险审查[10] - 在公开安全基准测试和内部研究中，DeepSeek-R1在大多数基准上超过了Claude-3.7-Sonnet、GPT-4o等前沿模型[10] - 根据安全评分表，DeepSeek-R1在SST测试中得分为97.5%，在BBQ测试中得分为96.6%，平均安全评分为95.0%[11] 行业意义与学术认可 - 该论文成为全球首个经过同行评审的主流大语言模型，打破了行业空白[1][13] - 《自然》杂志高度评价此项研究是迈向透明度和可重复性的可喜一步，有助于抑制AI行业的过度炒作[1][5] - 论文提交至《自然》后，历经8位外部专家的严格评审，审稿报告与作者回复共计64页，增强了研究的可信度[13][16] - 《自然》呼吁更多AI公司将其模型提交同行评审，以确保声明的验证和澄清[17] 社区影响与开源贡献 - DeepSeek-R1已成为全球最受欢迎的开源推理模型，在Hugging Face上的下载量超过1090万次[1] - 公司积极回应审稿人意见，补充了训练细节、安全报告和数据污染防控等信息[5][9][10] - 该研究成果为开源社区提供了宝贵的科研参考、模型复现思路以及应用支持[17]

Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

《Science Robotics》封面：DeepMind发布RoboBallet，重新定义多机器人协同规划

机器人大讲堂· 2025-09-17 19:13

多机器人系统行业挑战 - 多机器人系统在现代工业制造中成为提升生产效率的关键技术通过部署多个机械臂可在不显著增加成本和空间的前提下大幅缩短任务执行时间并提高整体产能[1] - 实际部署面临根本性挑战即如何在共享且充满障碍物的环境中高效安全地协调多个机器人完成多项任务[1] - 多机器人协同需同时解决三个核心子问题包括运动规划、任务调度和任务分配每个问题单独求解已属计算难题而三者的耦合关系更让传统方法难以突破[3] 传统解决方案局限性 - 传统基于采样的运动规划算法在低维度场景中表现尚可但当机器人数量超过4个且障碍物复杂度提升时计算时间呈指数级增长[1] - 任务调度问题类似经典的旅行商问题属于PSPACE完全问题计算复杂度随任务量呈指数上升即使采用近似解法也需预设大量规则且难以适配动态场景[3] - 任务分配问题中每个任务的成本并不是独立的而是依赖于其他任务的分配和调度结果[3] - 传统方案通常将三者拆分迭代求解先人工分配任务再规划调度顺序最后计算运动路径这种模式不仅依赖数百甚至数千小时的人工经验还常为了计算可行性牺牲解决方案的质量和完整性[4] RoboBallet技术创新 - RoboBallet是一种基于神经网络与强化学习的新范式结合了图神经网络和强化学习旨在自动化地解决多机器人的任务分配、调度和运动规划问题[4] - 核心创新在于其场景的图表示和基于GNN的策略网络将整个协同场景抽象为动态图其中节点表示每个机器人个体边表示机器人之间的交互关系[5] - GNN能够高效处理这种结构化信息无论图中增加了多少任务或障碍物 GNN的核心处理逻辑不变学会了如何理解一对元素之间的关系这种关系归纳偏差使得模型具备极强的泛化能力[5] - 采用强化学习框架训练策略网络使用TD3算法使模型能够生成多机械臂轨迹同时解决任务分配、调度和运动规划等子问题将昂贵的在线计算转移到离线训练阶段[7] - 设计了包含任务完成奖励和碰撞惩罚的奖励机制函数任务完成奖励基于已解决任务比例的变化碰撞惩罚则对可能导致碰撞的动作施加负奖励[7] - 采用HER技术通过在失败回合中重新标记目标来生成额外的训练数据从而提供更丰富的学习信号[7] - 在程序化生成的随机环境中对模型进行训练每一轮训练开始时系统会随机生成机器人的位置、长方体障碍物的布局和任务目标位姿通过数百万次随机环境交互使模型学会协调多个机器人高效无碰撞地完成所有任务[7] 性能表现与效率 - 在计算效率方面表现突出在NVIDIA A100 GPU上即使是8个机器人40个任务30个障碍物的最大配置每个规划步骤仅需约0.3毫秒在CPU上运行也能实现3倍于实时的规划速度[8] - 这种高效性使得RoboBallet可用于实时重新规划、动态响应环境变化等需要快速决策的场景[9] - 增加机器人数量能够显著提高任务执行效率在优化布局的条件下机器人从4台增至8台平均执行时间从7.5秒减少到4.5秒降幅达40%[12] 实验验证结果 - 评估围绕两个关键指标展开包括整体轨迹执行时间和轨迹质量[11] - 在缩减规模的问题设置中进行对比实验比较对象为基于RRT-Connect和穷举调度的基准算法[11] - 实验结果表明尽管基于强化学习的方法并不具备理论上的完备性但其所得轨迹在成本方面与基线方法相当甚至在多数情况下表现更优而基线方法则需要消耗数量级更多的计算资源且依赖较强的简化假设[11] - RoboBallet在训练和推理阶段均展现出良好的可扩展性训练所需步数并未随机器人或任务数量的增加呈指数增长推理时间则与机器人数量的平方、任务及障碍物的数量成线性关系[11] - 能够将从小规模训练中学到的协作模式推广到更大规模场景[15]

Multi-robot Coordination

Graph Neural Networks

Reinforcement Learning

Multi-robot Coordination

Graph Neural Networks

Reinforcement Learning

Alphabet's Isomorphic Labs: Turning Cancer Into a Chronic, But Livable Disease

Youtube· 2025-09-14 14:00

核心观点 - Isomorphic Labs正在构建一个通用化AI驱动的药物设计引擎该引擎能够针对不同疾病领域和模式生成新分子设计并整合了包括AlphaFold在内的多种AI模型来预测蛋白质结构、分子结合亲和力及药物特性目标是将药物发现过程从传统迭代实验转变为计算机模拟大幅缩短研发时间并提高成功率[2][3][6][9][27][32][49] 技术模型 - 药物设计引擎包含预测性能力和生成式AI能力需要半打类似AlphaFold的突破性模型共同工作包括结构预测模型、结合亲和力模型及药物特性评估模型[3][6][13] - 生成式模型能探索高达10^60的分子空间通过生成设计而非暴力搜索将候选分子从海量可能性缩减到少数实验室可测试的分子[16] - 模型可应用于整个人类蛋白质组通过并行计算同时分析数千种蛋白质这是实验方法无法实现的[39][40] - 强化学习用于优化分子设计与生成模型和评分系统协同工作使分子迭代更符合设计标准[41][42] 研发流程优化 - 传统药物发现是逐步迭代过程每个分子调整需数周至数月实验室工作而AI平台允许在计算机上进行多轮设计和测试仅将最佳候选分子送入实验室节省一半时间[8][9][10] - 模型准确性接近实验水平内部基准测试显示模型在泛化能力方面表现优异可应用于全新靶点和新化学物质的发现[12][18][29][49] - 数据战略结合公共数据、历史数据和自建湿实验室数据重点解决数据偏差问题并确保数据质量用于机器学习训练[24][25][26] 疾病领域应用 - 内部研发管线聚焦肿瘤学和免疫学因这两个领域临床实验更易进行且影响广泛同时临床前模型具有较好的临床转化能力[33][34] - 目标是将癌症转化为慢性病通过治疗实现正常寿命该目标可能在数年内而非数十年内实现[36][37] - 与诺华和礼来的合作已取得突破在一些挑战性靶点上发现首批结合分子包括以往制药努力失败的"黑暗化学物质"靶点[44][45] 行业影响与愿景 - 通用化技术是核心差异化优势允许同一引擎应用于任何靶点和疾病领域而非针对特定问题构建一次性模型[27][28][32] - 未来行业格局可能呈现大型药企与前沿生物技术公司深度合作共同推动药物设计能力边界[46] - 长期愿景是通过AI工具实现疾病诊断和治疗个性化最终解决所有疾病但这需要整个行业共同努力[51][53][54] - 技术目标是将AI药物发现过程从数年缩短至数月核心挑战是提高模型预测准确性以减少实验室依赖[47][48][55]

谷歌(US:GOOG)

Artificial Intelligence

In silico drug design

Machine Learning

Reinforcement Learning

Pharmaceuticals

Artificial Intelligence

In silico drug design

Machine Learning

Reinforcement Learning

Pharmaceuticals

Meta超级智能实验室新论文陷争议！被指忽略大量前人研究

量子位· 2025-09-12 08:59

论文核心观点 - Meta超级智能实验室(MSL)发表第二篇论文《Language Self-Play For Data-Free Training》提出Language Self-Play(LSP)方法让大型语言模型在没有额外训练数据的情况下实现自我提升[1][2][3] - LSP将模型学习过程设计成博弈框架让同一语言模型扮演挑战者和解决者两个角色进行对抗实现无数据训练[4][5] - 该方法旨在应对大语言模型高度依赖大规模高质量训练数据且训练数据有限所带来的困境[4] 技术方法 - LSP采用极小极大博弈框架挑战者不断生成刁钻问题以降低解决者预期回报解决者努力回答问题以最大化自身回报[7] - 单一模型设计避免训练独立对抗模型的额外开销和不稳定性通过特殊"挑战者提示"切换角色模式[8] - 采用GRPO技巧将博弈转化为强化学习过程通过奖励机制使挑战者针对解决者薄弱环节生成问题[9][10] - 引入"自我质量奖励"(RQ)解决奖励黑客问题引导博弈朝高质量交互发展使训练可长期进行[12][13] 实验效果 - 实验一显示未使用任何数据的LSP和LSP-Zero与使用数据的GRPO表现相当且显著优于原始模型[18] - 在Vicuna对话型和开放式指令数据集上 LSP表现远超GRPO[18] - 实验二显示经过LSP进一步训练后模型整体胜率从40.9%显著提升至43.1%[21] - 在Vicuna数据集上提升尤为明显表明LSP可在数据驱动训练后继续挖掘模型潜力[22] 学术争议 - 论文被质疑忽视前人研究缺乏创新网友指出未引用Andrew Zhao等人类似工作[25][26] - 网友提及多篇相关前期研究包括Absolute Zero SPIRAL等论文质疑其突破性[30] - 评论认为这可能是一篇老工作然后拿到MSL发表[30]

Meta Platforms(US:META)

Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

Language Self-Play (LSP)

Language Self-Play Zero (LSP-Zero)

Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

Language Self-Play (LSP)

Language Self-Play Zero (LSP-Zero)

Applovin (NasdaqGS:APP) 2025 Conference Transcript

2025-09-11 01:32

公司概况 * 公司为移动营销技术公司AppLovin (NasdaqGS: APP) [1] * 公司核心业务是帮助广告主发现新客户、进行广告投放并最终实现转化按收入定价 [4] * 公司认为自身是仅次于Meta的第二大此类平台 [5] 财务表现与资本配置 * 公司Q1总广告支出超过110亿美元 [5] * 公司过去三年已投资约55亿美元用于股票回购相当于同期100%的自由现金流 [21] * 公司预计未来EBITDA利润率将维持在80%至85%之间 [35] * 公司计划将资本配置重点继续投向有机增长倡议和股票回购 [20][21] 增长战略与市场机遇 * 公司制定了20%至30%的长期增长目标 [11] * 增长由两大技术组成部分驱动：强化学习和定向模型增强 [12] * 公司正从游戏领域扩展到电子商务等新垂直领域 [12] * 电子商务领域的总目标市场（TAM）巨大且高度分散 [23] * 公司计划首先向基于网络的广告主开放其平台 [23] * 公司计划在10月1日推出自助广告平台并开放国际网络客户业务目前已提前约三周开放国际业务 [62][63] 技术优势与竞争格局 * 公司的技术核心是构建在神经网络上的推荐引擎其架构类似于大型语言模型 [15] * 公司是市场的领先做市商其经济价值主张独特 [17] * 在移动游戏市场公司与Unity Liftoff Moloco Mobisa等公司共存并认为市场并非零和游戏 [14] * 公司承认其模型在99%甚至999%的展示中是“错误”的但这为其他竞争者提供了购买展示机会公司则从中收取5%的费用 [18] * 生成式AI有望通过创造更优广告素材带来巨大业务提升好创意与差创意的效果差距可超过2倍 [36][37] 运营效率与文化 * 公司拥有一种注重自动化、减少流程和保持精简的文化 [52][53] * 公司员工人数增长非常有限将其视为固定成本 [20][33] * 公司计划使用LLM进行代理客户支持等以自动化方式支持客户数量增长而非大量增员 [34][52] * 公司未来可能进行绩效营销甚至投放超级碗广告来提升品牌知名度并招募客户 [34][41] 未来愿景 * 公司的长期愿景是帮助各种类型的企业并最终帮助扩大经济规模创造数百万个就业机会 [7] * 公司希望向世界证明游戏用户极具价值他们是超过10亿的成年人并且是可货币化的 [65][66] * 公司未来可能将需求扩展到联网电视（CTV）和其他社交网络及工具但当前优先事项是获取客户并先在游戏内拓展 [32]

Applovin(US:APP)

Artificial Intelligence

Reinforcement Learning

Advertising Technology

MAX mediation platform

Self - serve ads platform

Artificial Intelligence

Reinforcement Learning

Advertising Technology

MAX mediation platform

Self - serve ads platform

深度｜OpenAI Agent团队：未来属于单一的、无所不知的超级Agent，而不是功能割裂的工具集合，所有技能都存在着正向迁移

Z Potentials· 2025-08-29 11:52

核心观点 - OpenAI通过合并Deep Research和Operator项目开发出新型AI Agent 能够执行长达一小时复杂任务具备多工具协同和状态共享能力开启人机协作新范式 [2][5][6][7][19][24][42] 技术架构与能力 - Agent配备虚拟计算机环境集成文本浏览器 GUI浏览器终端和API调用工具所有工具共享状态实现跨工具无缝切换 [5][6][24] - 支持运行代码分析文件创建电子表格和幻灯片访问GitHub Google Drive等私有服务 [5][6][11] - 单次任务推理时间达28分钟至1小时突破传统上下文长度限制 [19][20][21] - 采用强化学习训练在数千个虚拟机上进行实验模型自主学会工具使用策略 [7][24][26][45] 产品演进路径 - 2024年1月先后发布Operator（执行网页交互任务）和Deep Research（信息综合研究）两周后意识到功能互补性 [9] - 文本浏览器擅长高效阅读但缺乏交互 GUI浏览器擅长点击操作但文本处理弱合并后实现能力互补 [9][10] - 新增终端图片生成 API调用等工具形成完整工具生态 [11][12][13] 应用场景与用例 - 设计保持开放性预期出现未预见用例类似Deep Research曾被用于代码搜索的意外场景 [14][40] - 实际用例包括：从实验日志提取数据制作幻灯片研究古代DNA生成报告网上购物比价创建财务模型估算公司估值 [16][18] - 同时适用于消费级和企业级场景目标用户为"专业消费者"（prosumer）[15] 人机交互特性 - 支持双向实时交互用户可中途打断纠正指令或授权登录 Agent也可主动请求澄清 [7][22] - 提供计算机界面实时观察Agent操作任务完成后可追溯修改用户可接管环境手动操作 [23] - 交互模式向"幕僚长"形态演进未来可能实现主动服务 [42][43] 训练方法与扩展性 - 强化学习数据效率极高高质量小规模数据集即可训练数据量较预训练可忽略不计 [44] - 计算资源与训练数据量增长约十万倍使"World of Bits"愿景成为可能 [45] - 所有技能存在正向迁移单一基础模型比专用子Agent更具优势 [44] 性能表现 - 在DataScienceBench评估中超越人类基准具备超人级研究能力 [46] - 点击准确度大幅提升表单填写可靠性显著改善日期选择仍存挑战 [46][47][48] 开发团队构成 - 由原Deep Research团队（3-4人）和Operator团队（6-8人）合并而成 [30][33][34] - 研究团队与应用团队深度协作从用例反向定义产品需求 [34][35] - 跨部门合作涉及安全治理法律研究工程等多团队 [28] 安全风险管控 - 因具备写入能力存在外部副作用风险安全训练为核心开发环节 [26][27] - 采用监控系统实时检测异常行为类似杀毒软件机制 [27] - 重点防范生物安全风险进行数周红队测试确保不被用于有害目的 [29]

Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

ICCV'25港科大“先推理，后预测”：引入奖励驱动的意图推理，让轨迹预测告别黑箱！

自动驾驶之心· 2025-08-29 11:08

核心观点 - 引入"先推理，后预测"策略，通过奖励驱动的意图推理器提升轨迹预测的可解释性和可靠性 [5][8][10] - 提出FiM模型，在Argoverse和nuScenes基准测试中实现极具竞争力的性能，部分指标超越最先进模型 [10][33][36] - 结合强化学习范式（MaxEnt IRL）和结构化解码器（Bi-Mamba），显著提高预测准确性和置信度 [8][9][10] 方法框架 - 采用编码器-解码器结构，包含以查询为中心的场景编码器、Mamba增强的解码器和奖励驱动的意图推理器 [14][16] - 通过QIRL框架将MaxEnt IRL与矢量化上下文结合，学习奖励分布并生成意图序列（GRT） [8][18] - 使用辅助的时空占用网格地图（OGM）预测头建模未来交互，增强特征融合 [9][18] - 分层DETR类解码器生成轨迹提议，并通过Bi-Mamba结构捕获序列依赖关系 [9][19][21] 实验性能 - 在Argoverse 1测试集上，FiM的MR6为0.1087，minFDE6为1.1199，Brier分数为0.5732，部分指标领先HiVT、Scene Transformer等模型 [32][33] - 在Argoverse 2验证集上，FiM变体的minFDE6为0.528–0.530，优于DeMo（0.543）和QCNet（0.551） [34][35] - 在nuScenes数据集上，FiM的minADE10为0.78，MR10为0.23，显著超越P2T、THOMAS等模型 [36] 技术贡献 - QIRL模块有效替代交叉注意力机制，在消融实验中brier-minFDE6从2.132降至1.602 [37][38] - OGM和细化模块分别将brier-minFDE6从1.670和1.801优化至1.602 [40] - Bi-Mamba结构相比单向Mamba降低brier-minFDE6从1.636至1.602，验证双向扫描机制优势 [41][42] - 最优Mamba层深度为6层，更深层可能导致性能下降 [43]

Intention Inference

Reinforcement Learning

Trajectory Prediction

Autonomous Driving

FiM (Foresight in Motion)

Intention Inference

Reinforcement Learning

Trajectory Prediction

Autonomous Driving

FiM (Foresight in Motion)

生成式人工智能第-第二次年度硅谷人工智能实地考察的收获-Americas Technology_ Gen AI Part XIII_ Takeaways From Our 2nd Annual Silicon Valley AI Field Trip

2025-08-24 22:47

**行业与公司** * 行业聚焦生成式人工智能（Gen AI）领域涵盖基础设施层与应用层的发展动态[1][44] * 涉及的上市公司包括Moody's（MCO）[5][86] S&P Global（SPGI）[94] Iron Mountain（IRM）[97] Cloudflare（NET）[102] Thomson Reuters（TRI）[99] Verisk Analytics（VRSK）[101] * 参与的私有企业包括Glean（企业搜索平台）[9] Hebbia（文档分析平台）[16] Tera AI（空间模型公司）[24] Everlaw（法律科技平台）[31] Decagon（客服自动化平台）[38] * 风险投资机构包括Lightspeed Ventures[2] Kleiner Perkins[2] Andreessen Horowitz[2] Founders Fund[5] * 学术机构包括斯坦福大学[2][65] 加州大学伯克利分校及UCSF[5][78] **核心观点与论据** * 开源与闭源模型性能趋同自2024年中以来开源模型达到接近GPT-4的性能水平闭源模型改进幅度显著减小[44] * 推理模型（如OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus）成为新前沿单次查询生成token量达10,000词（较传统LLM提升20倍）但GPU需求同步增加20倍[45] * LLM成本急剧下降实现相同MMLU基准分数的模型运行成本从三年前的$60/百万token降至$0.006/百万token（降幅达1000倍）年化成本下降10倍[47] * 企业级应用护城河体现在用户习惯与工作流集成（而非技术本身）成功案例包括Glean的横向代理平台[12][15] Hebbia的无限上下文窗口技术[21] Everlaw的幻觉控制机制[35][36] * 资本支出保持高位部分VC认为基础设施capex不应被视为利润威胁而是竞争优势前提效率提升应通过每美元部署产生的吞吐量衡量[46] **技术发展趋势** * 空间基础模型在机器人领域取得突破 Tera AI实现零样本状态估计可在无GPS环境下通过视觉定位（应用场景包括军用无人机与仓储机器人）[25][28] * 替代Transformer架构的新方法出现基于改进型RNN的设计（无需梯度信息训练）有望在三年内以50%概率替代Transformer 显著降低内存需求[75] * 多模态进展显著图像生成模型实现几何控制与实时属性调整（如LoRA技术）已从 novelty 转向生产级工具[61] * 边缘计算兴起参数≤30亿的小型模型在MacBook等设备上实现50 token/秒的生成速度为嵌入式AI创造机会[60] **应用层商业洞察** * 定价策略与价值交付紧密挂钩 Everlaw定价比替代的人工审核低10-30%（$0.20/文档 vs $0.30/文档）[33] Decagon客户实现$3-5mn成本节约/$1mn投入[39] * 毛利率保持高位许多Gen AI应用公司毛利率达60% 通过模型路由选择与下降的token成本实现[59] * 企业采用率预计2026年加速尽管当前95%企业应用仍处于实验阶段但模型成熟度与销售领导力迁移将推动拐点[63] * 领域特定优势突出医疗领域AI模型将癌症诊断时间从38天缩短至58分钟[83] 金融领域Moody's信用备忘录生成时间从1-2周压缩至2分钟[89] **风险与挑战** * 数据规模限制医疗AI发展医疗图像包含百万级token 超出当前架构处理能力且医学数据局部性弱使预处理无效[84] * 人才短缺成为创新瓶颈构建自改进系统的人才稀缺成为可防御创新的主要限制因素[52] * 政策与地缘政治影响美国OBBBA法案包含AI工厂资产奖励折旧条款推动国内基础设施投资[62] **投资建议** * 推荐买入SPGI（12个月目标价$630）[94] IRM（目标价$122）[97] NET（目标价$250）[102] * 中性评级MCO（目标价$535）[98] TRI（目标价$192）[99] VRSK（目标价$315）[101] * 看好的护城河类型：1）与超级用户共建强化学习循环的系统 2）基于物理世界机器学习的高度技术终端用户软件[57]

Generative Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

Generative Artificial Intelligence

Reinforcement Learning

Artificial Intelligence

OpenAI总裁透露GPT-5改了推理范式，AGI实现要靠现实反馈

36氪· 2025-08-18 19:02

技术范式转变 - 从文本生成转向强化学习推理范式通过现实世界试错和反馈提升模型可靠性 [1][6][8] - 新范式大幅降低数据需求预训练需数十万示例而强化学习仅需10-100个任务即可学习复杂行为 [8] - GPT-5作为首个混合模型实现推理过程持续生成数据通过强化学习将现实观测结果反馈至模型 [4][8] 计算资源战略 - 计算能力是AGI开发主要瓶颈计算量直接决定AI研究与发展速度深度 [3][9] - 通过扩大计算资源可突破算法壁垒如Dota项目内核数量翻倍实现性能持续提升 [9] - 当前强化学习范式需数万次尝试完成任务深层学习需更多计算资源实现知识体系更新 [10][11] - 计算作为基本燃料可转化为模型权重势能训练完成后可在多任务中分摊成本 [11] 模型架构演进 - AGI将呈现模型管理器形态结合小型本地模型与大型云推理器实现自适应计算 [11] - GPT-5采用多模型混合路由机制通过条件语句选择推理模型（深度智能）或非推理模型（快速输出） [12] - 复合式模型根据任务需求组合不同能力成本模型提升计算灵活性 [12] 落地应用策略 - 将模型封装成Agent作为可审计服务进程实现与人类协作式交互且具备可控性与回滚能力 [1][13][15] - 采用双层纵深防御架构：模型内部按可信度排序指令防范注入外部通过多级沙箱确认高危操作 [15] - 通过后训练去除不受欢迎人格类型再通过公开竞技场实时评分实现模型与社会偏好协同进化 [15][16] 行业发展机遇 - 各行业存在大量未开发应用场景需深入理解行业链条细节而非简单接口封装 [3][18] - 技术发展机遇随曲线陡升倍增需保持好奇心投入新领域 [22] - 计算资源将成为未来稀缺资产即使物质需求满足仍需要更多算力支持高分辨率与复杂个性化体验 [20]

Artificial General Intelligence (AGI)

Reinforcement Learning

Supercritical Learning

Artificial Intelligence

Artificial General Intelligence (AGI)

Reinforcement Learning

Supercritical Learning

Artificial Intelligence