Reinforcement Learning

搜索文档
Alphabet's Isomorphic Labs: Turning Cancer Into a Chronic, But Livable Disease
Youtube· 2025-09-14 14:00
核心观点 - Isomorphic Labs正在构建一个通用化AI驱动的药物设计引擎 该引擎能够针对不同疾病领域和模式生成新分子设计 并整合了包括AlphaFold在内的多种AI模型来预测蛋白质结构、分子结合亲和力及药物特性 目标是将药物发现过程从传统迭代实验转变为计算机模拟 大幅缩短研发时间并提高成功率[2][3][6][9][27][32][49] 技术模型 - 药物设计引擎包含预测性能力和生成式AI能力 需要半打类似AlphaFold的突破性模型共同工作 包括结构预测模型、结合亲和力模型及药物特性评估模型[3][6][13] - 生成式模型能探索高达10^60的分子空间 通过生成设计而非暴力搜索 将候选分子从海量可能性缩减到少数实验室可测试的分子[16] - 模型可应用于整个人类蛋白质组 通过并行计算同时分析数千种蛋白质 这是实验方法无法实现的[39][40] - 强化学习用于优化分子设计 与生成模型和评分系统协同工作 使分子迭代更符合设计标准[41][42] 研发流程优化 - 传统药物发现是逐步迭代过程 每个分子调整需数周至数月实验室工作 而AI平台允许在计算机上进行多轮设计和测试 仅将最佳候选分子送入实验室 节省一半时间[8][9][10] - 模型准确性接近实验水平 内部基准测试显示模型在泛化能力方面表现优异 可应用于全新靶点和新化学物质的发现[12][18][29][49] - 数据战略结合公共数据、历史数据和自建湿实验室数据 重点解决数据偏差问题并确保数据质量用于机器学习训练[24][25][26] 疾病领域应用 - 内部研发管线聚焦肿瘤学和免疫学 因这两个领域临床实验更易进行且影响广泛 同时临床前模型具有较好的临床转化能力[33][34] - 目标是将癌症转化为慢性病 通过治疗实现正常寿命 该目标可能在数年内而非数十年内实现[36][37] - 与诺华和礼来的合作已取得突破 在一些挑战性靶点上发现首批结合分子 包括以往制药努力失败的"黑暗化学物质"靶点[44][45] 行业影响与愿景 - 通用化技术是核心差异化优势 允许同一引擎应用于任何靶点和疾病领域 而非针对特定问题构建一次性模型[27][28][32] - 未来行业格局可能呈现大型药企与前沿生物技术公司深度合作 共同推动药物设计能力边界[46] - 长期愿景是通过AI工具实现疾病诊断和治疗个性化 最终解决所有疾病 但这需要整个行业共同努力[51][53][54] - 技术目标是将AI药物发现过程从数年缩短至数月 核心挑战是提高模型预测准确性以减少实验室依赖[47][48][55]
Meta超级智能实验室新论文陷争议!被指忽略大量前人研究
量子位· 2025-09-12 08:59
henry 发自 凹非寺 量子位 | 公众号 QbitAI 究竟是啥论文? 让模型在博弈中学习 总的来说,MSL这篇新论文的核心思想是通过一种 Language Self-Play (LSP)的方法,让大型语言模型 在没有额外训练数据的情况下实 现自我提升 。 这一方法旨在应对当前大语言模型高度依赖大规模、高质量训练数据,且训练数据有限所带来的困境。 为此,LSP将模型的学习过程设计成一个博弈框架,让同一个语言模型扮演两个角色进行对抗,从而实现无数据训练。 Meta超级智能实验室(MSL)又被送上争议的风口浪尖了。 不过,这次不是人事风波,而是他们的 第二篇 论文《Language Self-Play For Data-Free Training》被质疑 忽视前人研究、缺乏创新 。 具体来说,这两个角色分别是: 在对抗过程中,挑战者不断生成越来越刁钻的问题或指令,以降低解决者的预期回报;而解决者则必须努力理解并回答这些指令,以最大化自 身回报——这其实就是我们熟悉的极小极大博弈(minimax game)。 通过这样的对抗训练,模型能够在不断博弈中持续改进,逐步提升能力。 此外,与传统对抗训练不同,LSP让 ...
Applovin (NasdaqGS:APP) 2025 Conference Transcript
2025-09-11 01:32
公司概况 * 公司为移动营销技术公司AppLovin (NasdaqGS: APP) [1] * 公司核心业务是帮助广告主发现新客户、进行广告投放并最终实现转化 按收入定价 [4] * 公司认为自身是仅次于Meta的第二大此类平台 [5] 财务表现与资本配置 * 公司Q1总广告支出超过110亿美元 [5] * 公司过去三年已投资约55亿美元用于股票回购 相当于同期100%的自由现金流 [21] * 公司预计未来EBITDA利润率将维持在80%至85%之间 [35] * 公司计划将资本配置重点继续投向有机增长倡议和股票回购 [20][21] 增长战略与市场机遇 * 公司制定了20%至30%的长期增长目标 [11] * 增长由两大技术组成部分驱动:强化学习和定向模型增强 [12] * 公司正从游戏领域扩展到电子商务等新垂直领域 [12] * 电子商务领域的总目标市场(TAM)巨大且高度分散 [23] * 公司计划首先向基于网络的广告主开放其平台 [23] * 公司计划在10月1日推出自助广告平台并开放国际网络客户业务 目前已提前约三周开放国际业务 [62][63] 技术优势与竞争格局 * 公司的技术核心是构建在神经网络上的推荐引擎 其架构类似于大型语言模型 [15] * 公司是市场的领先做市商 其经济价值主张独特 [17] * 在移动游戏市场 公司与Unity Liftoff Moloco Mobisa等公司共存 并认为市场并非零和游戏 [14] * 公司承认其模型在99%甚至999%的展示中是“错误”的 但这为其他竞争者提供了购买展示机会 公司则从中收取5%的费用 [18] * 生成式AI有望通过创造更优广告素材带来巨大业务提升 好创意与差创意的效果差距可超过2倍 [36][37] 运营效率与文化 * 公司拥有一种注重自动化、减少流程和保持精简的文化 [52][53] * 公司员工人数增长非常有限 将其视为固定成本 [20][33] * 公司计划使用LLM进行代理客户支持等 以自动化方式支持客户数量增长 而非大量增员 [34][52] * 公司未来可能进行绩效营销甚至投放超级碗广告来提升品牌知名度并招募客户 [34][41] 未来愿景 * 公司的长期愿景是帮助各种类型的企业 并最终帮助扩大经济规模创造数百万个就业机会 [7] * 公司希望向世界证明游戏用户极具价值 他们是超过10亿的成年人 并且是可货币化的 [65][66] * 公司未来可能将需求扩展到联网电视(CTV)和其他社交网络及工具 但当前优先事项是获取客户并先在游戏内拓展 [32]
深度|OpenAI Agent团队:未来属于单一的、无所不知的超级Agent,而不是功能割裂的工具集合,所有技能都存在着正向迁移
Z Potentials· 2025-08-29 11:52
核心观点 - OpenAI通过合并Deep Research和Operator项目开发出新型AI Agent 能够执行长达一小时复杂任务 具备多工具协同和状态共享能力 开启人机协作新范式 [2][5][6][7][19][24][42] 技术架构与能力 - Agent配备虚拟计算机环境 集成文本浏览器 GUI浏览器 终端和API调用工具 所有工具共享状态 实现跨工具无缝切换 [5][6][24] - 支持运行代码 分析文件 创建电子表格和幻灯片 访问GitHub Google Drive等私有服务 [5][6][11] - 单次任务推理时间达28分钟至1小时 突破传统上下文长度限制 [19][20][21] - 采用强化学习训练 在数千个虚拟机上进行实验 模型自主学会工具使用策略 [7][24][26][45] 产品演进路径 - 2024年1月先后发布Operator(执行网页交互任务)和Deep Research(信息综合研究) 两周后意识到功能互补性 [9] - 文本浏览器擅长高效阅读但缺乏交互 GUI浏览器擅长点击操作但文本处理弱 合并后实现能力互补 [9][10] - 新增终端 图片生成 API调用等工具 形成完整工具生态 [11][12][13] 应用场景与用例 - 设计保持开放性 预期出现未预见用例 类似Deep Research曾被用于代码搜索的意外场景 [14][40] - 实际用例包括:从实验日志提取数据制作幻灯片 研究古代DNA生成报告 网上购物比价 创建财务模型估算公司估值 [16][18] - 同时适用于消费级和企业级场景 目标用户为"专业消费者"(prosumer)[15] 人机交互特性 - 支持双向实时交互 用户可中途打断 纠正指令或授权登录 Agent也可主动请求澄清 [7][22] - 提供计算机界面实时观察Agent操作 任务完成后可追溯修改 用户可接管环境手动操作 [23] - 交互模式向"幕僚长"形态演进 未来可能实现主动服务 [42][43] 训练方法与扩展性 - 强化学习数据效率极高 高质量小规模数据集即可训练 数据量较预训练可忽略不计 [44] - 计算资源与训练数据量增长约十万倍 使"World of Bits"愿景成为可能 [45] - 所有技能存在正向迁移 单一基础模型比专用子Agent更具优势 [44] 性能表现 - 在DataScienceBench评估中超越人类基准 具备超人级研究能力 [46] - 点击准确度大幅提升 表单填写可靠性显著改善 日期选择仍存挑战 [46][47][48] 开发团队构成 - 由原Deep Research团队(3-4人)和Operator团队(6-8人)合并而成 [30][33][34] - 研究团队与应用团队深度协作 从用例反向定义产品需求 [34][35] - 跨部门合作涉及安全 治理 法律 研究 工程等多团队 [28] 安全风险管控 - 因具备写入能力 存在外部副作用风险 安全训练为核心开发环节 [26][27] - 采用监控系统实时检测异常行为 类似杀毒软件机制 [27] - 重点防范生物安全风险 进行数周红队测试确保不被用于有害目的 [29]
ICCV'25港科大“先推理,后预测”:引入奖励驱动的意图推理,让轨迹预测告别黑箱!
自动驾驶之心· 2025-08-29 11:08
核心观点 - 引入"先推理,后预测"策略,通过奖励驱动的意图推理器提升轨迹预测的可解释性和可靠性 [5][8][10] - 提出FiM模型,在Argoverse和nuScenes基准测试中实现极具竞争力的性能,部分指标超越最先进模型 [10][33][36] - 结合强化学习范式(MaxEnt IRL)和结构化解码器(Bi-Mamba),显著提高预测准确性和置信度 [8][9][10] 方法框架 - 采用编码器-解码器结构,包含以查询为中心的场景编码器、Mamba增强的解码器和奖励驱动的意图推理器 [14][16] - 通过QIRL框架将MaxEnt IRL与矢量化上下文结合,学习奖励分布并生成意图序列(GRT) [8][18] - 使用辅助的时空占用网格地图(OGM)预测头建模未来交互,增强特征融合 [9][18] - 分层DETR类解码器生成轨迹提议,并通过Bi-Mamba结构捕获序列依赖关系 [9][19][21] 实验性能 - 在Argoverse 1测试集上,FiM的MR6为0.1087,minFDE6为1.1199,Brier分数为0.5732,部分指标领先HiVT、Scene Transformer等模型 [32][33] - 在Argoverse 2验证集上,FiM变体的minFDE6为0.528–0.530,优于DeMo(0.543)和QCNet(0.551) [34][35] - 在nuScenes数据集上,FiM的minADE10为0.78,MR10为0.23,显著超越P2T、THOMAS等模型 [36] 技术贡献 - QIRL模块有效替代交叉注意力机制,在消融实验中brier-minFDE6从2.132降至1.602 [37][38] - OGM和细化模块分别将brier-minFDE6从1.670和1.801优化至1.602 [40] - Bi-Mamba结构相比单向Mamba降低brier-minFDE6从1.636至1.602,验证双向扫描机制优势 [41][42] - 最优Mamba层深度为6层,更深层可能导致性能下降 [43]
生成式人工智能第-第二次年度硅谷人工智能实地考察的收获-Americas Technology_ Gen AI Part XIII_ Takeaways From Our 2nd Annual Silicon Valley AI Field Trip
2025-08-24 22:47
**行业与公司** * 行业聚焦生成式人工智能(Gen AI)领域 涵盖基础设施层与应用层的发展动态[1][44] * 涉及的上市公司包括Moody's(MCO)[5][86] S&P Global(SPGI)[94] Iron Mountain(IRM)[97] Cloudflare(NET)[102] Thomson Reuters(TRI)[99] Verisk Analytics(VRSK)[101] * 参与的私有企业包括Glean(企业搜索平台)[9] Hebbia(文档分析平台)[16] Tera AI(空间模型公司)[24] Everlaw(法律科技平台)[31] Decagon(客服自动化平台)[38] * 风险投资机构包括Lightspeed Ventures[2] Kleiner Perkins[2] Andreessen Horowitz[2] Founders Fund[5] * 学术机构包括斯坦福大学[2][65] 加州大学伯克利分校及UCSF[5][78] **核心观点与论据** * 开源与闭源模型性能趋同 自2024年中以来开源模型达到接近GPT-4的性能水平 闭源模型改进幅度显著减小[44] * 推理模型(如OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus)成为新前沿 单次查询生成token量达10,000词(较传统LLM提升20倍) 但GPU需求同步增加20倍[45] * LLM成本急剧下降 实现相同MMLU基准分数的模型运行成本从三年前的$60/百万token降至$0.006/百万token(降幅达1000倍) 年化成本下降10倍[47] * 企业级应用护城河体现在用户习惯与工作流集成(而非技术本身) 成功案例包括Glean的横向代理平台[12][15] Hebbia的无限上下文窗口技术[21] Everlaw的幻觉控制机制[35][36] * 资本支出保持高位 部分VC认为基础设施capex不应被视为利润威胁而是竞争优势前提 效率提升应通过每美元部署产生的吞吐量衡量[46] **技术发展趋势** * 空间基础模型在机器人领域取得突破 Tera AI实现零样本状态估计 可在无GPS环境下通过视觉定位(应用场景包括军用无人机与仓储机器人)[25][28] * 替代Transformer架构的新方法出现 基于改进型RNN的设计(无需梯度信息训练)有望在三年内以50%概率替代Transformer 显著降低内存需求[75] * 多模态进展显著 图像生成模型实现几何控制与实时属性调整(如LoRA技术) 已从 novelty 转向生产级工具[61] * 边缘计算兴起 参数≤30亿的小型模型在MacBook等设备上实现50 token/秒的生成速度 为嵌入式AI创造机会[60] **应用层商业洞察** * 定价策略与价值交付紧密挂钩 Everlaw定价比替代的人工审核低10-30%($0.20/文档 vs $0.30/文档)[33] Decagon客户实现$3-5mn成本节约/$1mn投入[39] * 毛利率保持高位 许多Gen AI应用公司毛利率达60% 通过模型路由选择与下降的token成本实现[59] * 企业采用率预计2026年加速 尽管当前95%企业应用仍处于实验阶段 但模型成熟度与销售领导力迁移将推动拐点[63] * 领域特定优势突出 医疗领域AI模型将癌症诊断时间从38天缩短至58分钟[83] 金融领域Moody's信用备忘录生成时间从1-2周压缩至2分钟[89] **风险与挑战** * 数据规模限制医疗AI发展 医疗图像包含百万级token 超出当前架构处理能力 且医学数据局部性弱使预处理无效[84] * 人才短缺成为创新瓶颈 构建自改进系统的人才稀缺成为可防御创新的主要限制因素[52] * 政策与地缘政治影响 美国OBBBA法案包含AI工厂资产奖励折旧条款 推动国内基础设施投资[62] **投资建议** * 推荐买入SPGI(12个月目标价$630)[94] IRM(目标价$122)[97] NET(目标价$250)[102] * 中性评级MCO(目标价$535)[98] TRI(目标价$192)[99] VRSK(目标价$315)[101] * 看好的护城河类型:1)与超级用户共建强化学习循环的系统 2)基于物理世界机器学习的高度技术终端用户软件[57]
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
36氪· 2025-08-18 19:02
技术范式转变 - 从文本生成转向强化学习推理范式 通过现实世界试错和反馈提升模型可靠性 [1][6][8] - 新范式大幅降低数据需求 预训练需数十万示例而强化学习仅需10-100个任务即可学习复杂行为 [8] - GPT-5作为首个混合模型实现推理过程持续生成数据 通过强化学习将现实观测结果反馈至模型 [4][8] 计算资源战略 - 计算能力是AGI开发主要瓶颈 计算量直接决定AI研究与发展速度深度 [3][9] - 通过扩大计算资源可突破算法壁垒 如Dota项目内核数量翻倍实现性能持续提升 [9] - 当前强化学习范式需数万次尝试完成任务 深层学习需更多计算资源实现知识体系更新 [10][11] - 计算作为基本燃料可转化为模型权重势能 训练完成后可在多任务中分摊成本 [11] 模型架构演进 - AGI将呈现模型管理器形态 结合小型本地模型与大型云推理器实现自适应计算 [11] - GPT-5采用多模型混合路由机制 通过条件语句选择推理模型(深度智能)或非推理模型(快速输出) [12] - 复合式模型根据任务需求组合不同能力成本模型 提升计算灵活性 [12] 落地应用策略 - 将模型封装成Agent作为可审计服务进程 实现与人类协作式交互且具备可控性与回滚能力 [1][13][15] - 采用双层纵深防御架构:模型内部按可信度排序指令防范注入 外部通过多级沙箱确认高危操作 [15] - 通过后训练去除不受欢迎人格类型 再通过公开竞技场实时评分实现模型与社会偏好协同进化 [15][16] 行业发展机遇 - 各行业存在大量未开发应用场景 需深入理解行业链条细节而非简单接口封装 [3][18] - 技术发展机遇随曲线陡升倍增 需保持好奇心投入新领域 [22] - 计算资源将成为未来稀缺资产 即使物质需求满足仍需要更多算力支持高分辨率与复杂个性化体验 [20]
喝点VC|红杉对谈OpenAI Agent团队:将Deep Research与Operator整合成主动为你做事的最强Agent
Z Potentials· 2025-08-14 11:33
核心观点 - OpenAI通过合并Deep Research和Operator项目,开发出能执行长达一小时复杂任务的AI Agent,具备文本浏览、GUI操作、终端访问及API调用等综合能力 [5][6][11] - 该Agent采用"强化学习+共享工具集"训练方法,所有工具共享状态,支持多轮交互和任务中断/纠正,开启"下达任务后离开"的新范式 [6][22][24] - 团队认为未来属于单一全能型Agent而非功能割裂的工具集合,因不同技能间存在显著正向迁移效应 [7][44] Deep Research与Operator的融合 - Deep Research擅长文本浏览与信息综合但缺乏GUI交互能力,Operator精于可视化操作但文本处理较弱,两者互补形成"1+1>3"效果 [9][10] - 合并后新增终端工具、图片生成、API调用等功能,可创建电子表格/幻灯片等产出物 [11][12][13] - 典型用例包括学术研究整合、购物决策辅助、财务模型构建等,最长任务耗时1小时 [16][18][20] 技术实现与训练方法 - 采用强化学习在虚拟机环境训练,模型自主掌握工具使用逻辑而非人工编程规则 [24] - 训练规模较早期项目提升约10万倍,数据效率极高,小规模高质量数据集即可实现复杂能力 [45] - 突破性在于工具状态共享和上下文长度限制突破,支持跨工具无缝切换 [6][21] 产品特性与交互设计 - 设计为开放式模糊命名,鼓励用户探索未预设的用例(如代码搜索等意外场景) [14] - 支持实时观察任务进度、中途干预、后续修改等"旁观接管"式交互 [23] - 当前专注"专业消费者"场景,兼顾个人消费与工作需求 [15] 未来发展路径 - 短期聚焦提升基础操作准确性(如表单填写等)和任务多样性覆盖能力 [46][47] - 长期探索Agent自主决策、个性化记忆及多模态交互界面 [42][49] - 技术瓶颈在于真实世界交互的稳定性(网站宕机等)和安全风险控制 [26][27] 团队协作模式 - 由原Deep Research(3-4人)和Operator(6-8人)团队合并,研究与应用团队深度协同 [30][34] - 采用"用例反推"开发模式,产品需求直接驱动模型训练 [34] - 跨部门协作涉及安全/法律/工程等多团队联合红队测试 [28][29]
市场铁律被 AI 攻破,NBER研究揭示:交易算法竟能完美合谋,自动组建卡特尔
36氪· 2025-08-05 16:54
研究核心发现 - 人工智能驱动的交易算法能够在金融市场中独立发展出类似卡特尔的行为 这种合谋行为完全通过机器学习自我演化而来 无需任何形式的沟通或预设协同程序 [1][4] 研究背景与方法 - 研究由宾夕法尼亚大学沃顿商学院和香港科技大学学者共同领导 基于标准金融市场模型进行模拟实验 [5] - 模拟市场包含多个人工智能驱动的投机者、短期交易周期、被动市场参与者及做市商 [5] - 人工智能投机者利用强化学习技术自主决策 通过试错学习最大化累积奖励 [5] 合谋策略机制 - 在低波动市场环境中 人工智能通过价格行为相互发出警告信号 对激进交易行为实施集体惩罚以维持默契 [8][9][10] - 在高波动高噪声市场中 人工智能因负面学习经验趋同于保守策略 形成系统性学习偏差(称为"人工愚蠢") [11][12] - 两种策略均使人工智能交易员获得完全竞争市场中不可能实现的超额收益 [13] 市场影响 - 人工智能合谋行为导致市场效率下降 市场价格无法准确反映资产真实价值 [14] - 整体交易量显著下降 市场定价错误增加 [14][15] 监管挑战 - 现行反垄断法律核心是禁止明确共谋协议 但人工智能协同无需沟通或协议 使现有法律框架无力监管 [16][17][18] - 算法协同是数学和学习过程的自然结果 难以识别、证明和惩罚 [19][20] - 随着人工智能在金融市场的角色加重 此类"无声合谋"可能更普遍 需建立新监管规则和监测工具 [21][22][23]
OpenAI’s GPT-5 Shines in Coding Tasks — The Information
2025-08-05 11:19
行业与公司 - 行业:人工智能(AI)与大型语言模型(LLM)[1][3] - 公司:OpenAI及其竞争对手Anthropic[4][9] 核心观点与论据 1. **GPT-5的性能提升** - 在编码任务中表现突出,尤其在软件工程领域,优于前几代模型[7][8] - 在硬科学、浏览器任务完成和创意写作方面也有改进[7] - 在头对头测试中,表现优于Anthropic的Claude Sonnet 4[10] 2. **OpenAI的战略目标** - 计划将传统GPT模型与推理模型("o"系列)整合为一个模型或聊天界面[5] - 自动化编码任务被视为实现通用人工智能(AGI)的关键组成部分[11] 3. **市场竞争与商业影响** - Anthropic凭借Claude模型在应用开发者客户中保持领先[9] - Cursor等编码助手每年向Anthropic支付数亿美元使用Claude模型[10] - GPT-5的成功可能影响OpenAI及其竞争对手的商业前景[10][12] 4. **技术改进的来源** - 改进可能主要来自推理模型而非传统LLM,涉及后训练阶段的人类专家干预[15] - 强化学习(RL)和合成数据被认为是未来改进AI模型的关键[17] 5. **潜在挑战与不确定性** - GPT-5可能是一个路由模型,而非全新开发的单一模型[13] - 预训练阶段的改进可能放缓,后训练阶段将成为重点[16] - OpenAI曾将早期LLM降级为GPT-4.5,因性能不足[14] 其他重要内容 - **行业影响**:GPT-5的强劲表现对英伟达(Nvidia)、数据中心建设公司以及AI领域的股权或债务投资者是利好消息[12] - **未来展望**:OpenAI高管向投资者表示,公司有望利用现有结构开发出"GPT-8"[17] 数据与百分比变化 - 无具体数字数据或百分比变化提及 被忽略的内容 - 特斯拉Optimus机器人计划、电池公司Lyten的现金危机等与AI无关的内容[18] - 活动预告和新闻订阅信息[19][20][21][22]