Reinforcement learning
搜索文档
Crypto’s Machine Learning ‘iPhone Moment’ Comes Closer as AI Agents Trade the Market
Yahoo Finance· 2025-12-13 21:00
AI-powered trading hasn’t yet reached an “iPhone moment,” when everyone is carrying around an algorithmic, reinforcement learning portfolio manager in their pocket, but something like that is coming, experts say. In fact, the power of AI meets its match when faced with the dynamic, adversarial arena of trading markets. Unlike an AI agent informed by endless circuits of self-driving cars learning to accurately recognize traffic signals, no amount of data and modeling will ever be able to tell the future. ...
首个多轮LLM Router问世, Router-R1可让大模型学会「思考–路由–聚合」
机器之心· 2025-10-15 18:44
研究背景与问题定义 - 在大语言模型种类爆炸的背景下,AI系统设计面临性能、延迟与成本的多重平衡挑战,如何智能地在不同LLM之间分配任务成为AI基础设施的新挑战[3] - 当前AI应用大多依赖单一模型推理,导致简单问题算力浪费,复杂问题可能因模型能力不足而回答错误[6] - 现有LLM Router大多采用单轮决策机制,难以处理多跳推理或跨领域的复杂任务[6] Router-R1核心创新 - 提出了首个多轮LLM Router框架Router-R1,其核心创新在于让Router自身成为一个具备推理能力的Policy LLM[7][8] - Router-R1不再是简单的"Query分发器",而是一个拥有思维链,能主动进行"思考—选择模型—聚合"的智能体[8] - 通过"思考–路由–聚合"的交替机制,Router-R1能充分利用不同LLM的互补优势,实现真正的多模型协同推理[8] 技术方法与训练机制 - 将多轮路由过程形式化为序列决策问题,并通过强化学习训练Router优化性能与成本的权衡[10] - 设计了三类奖励函数:Format Reward确保输出格式正确性[10]、Final Outcome Reward采用Exact Match指标激励正确结果[11]、Cost Reward创新引入计算成本奖励机制[14] - Cost Reward根据被调用模型的参数规模及输出Token数设计反比例奖励函数,实现可控且动态的成本感知路由[14][15] - 总奖励函数为α(x,y)= Rformat + (1-α)Routcome + αRcost,超参α控制性能与成本的权衡程度[16][17] 实验性能与结果 - 在7个QA Benchmark上进行系统评测,涵盖单跳与多跳推理任务,包括NQ、TriviaQA等数据集[19] - 当α=0时,Router-R1在所有数据集上达到综合最强性能,击败GraphRouter/RouterDC等单轮路由方法[21] - Router-R1展现出对Unseen Dataset的较强泛化性,仅在NQ与HotpotQA上训练,在其他数据集执行Out-of-domain Evaluation[19][21] - 随着超参α增加,调用成本显著下降,为可控成本的LLM智能调度策略开辟新范式[23] - 在未参与训练的外部模型加入后,无需重新训练即可保证性能相对稳定并实现提升,显示优异的零样本迁移能力[24] 行业意义与发展趋势 - Router-R1代表让多个模型协同工作的新范式,使LLM从"单一回答者"进化为"多智能体协调者"[26] - 该技术能在减少算力和成本开销的同时保持高质量输出,降低大模型部署的环境与资源压力[26] - Router-R1天然支持模型重用与模块化组合,只需添加新模型描述即可快速集成,为构建可扩展、多模型共生的AI基础设施奠定基础[26] - GPT-5技术报告已采用LLM Router机制进行不同版本模型的动态调度,印证多模型协同路由将成为未来大模型生态不可或缺的底层基础设施[26]
DeepSeek的阳谋:在《自然》杂志公布论文,到底赢得了什么?
新浪财经· 2025-09-27 20:18
核心观点 - DeepSeek的研究成果登上《自然》杂志封面,其核心突破在于通过强化学习实现了人工智能模型的自我提升,并成为首个接受独立同行评审的主流大模型,填补了行业空白 [1][3][5] 技术方法与突破 - 公司采用了一种名为“强化学习”的叛逆方法,绕过了传统监督式微调,不提供人类解题范例,仅通过“答对有奖励”的纯粹激励让模型在难题中自学成才 [8][9][11] - 训练数据显示,模型自发学会了深度思考,其生成的回答文本长度持续稳定暴涨,表明它领悟到需要更多时间推演才能解决复杂问题 [12] - 模型在训练过程中自发涌现出反思和自我纠错能力,例如使用“等等”、“不对”、“我要检查一下”等词汇,并在约8000步后“wait”一词使用频率飙升,形成了三思而后行的思维习惯 [13][15][16] - 最终该模型在数学、编程等严肃推理任务上表现全面超越接受传统教学的模型,在AIME数学竞赛基准测试中的成绩远超人类参赛者平均水平 [16] 行业影响与战略意义 - 公司选择在《自然》杂志接受严格的同行评审,打破了自ChatGPT-3以来大模型“黑箱发布”的江湖规矩,为行业建立了科学可信度标准 [5][6][7] - 开放和透明的战略看似短期吃亏,实则是长期阳谋,通过建立信任、融入全球智慧网络加速自我进化、吸引顶尖人才,以赢得AI时代的整体竞争 [17][18] - 此项研究赢得了“安全可信”的科学信誉,更重要的是赢得了对人工智能本质的认知优势,证明AI的推理能力不一定需要学习人类固有知识,可以独立发现规律,极大拓展了对AI潜力的想象 [19]
Braze (BRZE) 2025 Conference Transcript
2025-09-05 21:52
公司概况 * Braze是一家专注于客户互动领域的上市公司 成立于2011年 于2021年上市 目前已完成16个上市后的财报周期[1][2] * 公司通过第一方数据和渠道 为客户编排和个性化发送给消费者的信息以及直接面向消费者的产品体验 主要服务B2C客户 同时也有大量B2B用例[3] * 公司的业务模式基于消费和结果定价 主要计价单位是月活跃用户数(MAU)和消息量 而非基于席位收费 合同平均加权长度超过两年[7][8][27] 核心业务与战略定位 * 公司定位为客户互动平台 而不仅仅是营销自动化 其差异化在于技术复杂性 能够处理现代消费者旅程的复杂性并大规模交付用例[4][5] * 公司受益于品牌优先建设第一方数据集和与客户建立直接连接的趋势 这一趋势因数字消费者体验中需求与注意力聚合者的出现而加强[3][4] * 公司的基础数据处理基础设施从最初就是事件驱动的流处理 专注于从数据流中实时获取洞察和上下文语义[9] 人工智能(AI)战略与影响 * 公司自视为AI原生公司 其业务模式特性(如不按席位收费 开放API 快速集成)与AI原生理念相符[7][8] * 生成式AI和强化学习的进步使其中间的智能步骤能力更强 让系统能进行更自主和智能的自动化大规模决策 这推动了公司愿景的更快更全面实现[10][11] * 公司将聊天机器人和答案引擎等新AI视为需求聚合器 类似于过去的在线旅行社 外卖平台和流媒体聚合器 这强调了品牌建立第一方数据直接连接客户的重要性[12][13][14] * AI的兴起使得技术复杂性成为不可或缺的能力 这有利于Braze 因为其技术优势(如API架构 数据可组合性 合作伙伴集成)更能被欣赏和利用[39][40][43] 财务表现与运营亮点 * 公司最新季度业绩强劲 有机收入增长加速 OfferFit收购贡献了约2%的同比收入增长 符合预期[19][20] * 季度内美元净留存率从略低于107%改善至略高于107% 显示出积极的趋势[24] * 减少减售(downsell)的举措见效 包括改善客户实施和 onboarding 提高对续约风险的能见度及早干预 以及部分小客户因业务健康问题的流失已基本结束[21][22] * 增售(upsell)和新业务势头非常强劲 销售团队生产率提高 并计划在下半年增加销售容量以支持明年增长[23][32][33] 产品路线图与整合 * 公司于6月初完成了对OfferFit的收购 整合进展迅速顺利 包括人员和技术[29][30] * 公司将Project Catalyst和OfferFit均视为决策产品 正在将两者的研发路线图整合 专注于决策领域[30][44] * 公司提出"可组合智能"理念 旨在让营销团队将智能单元(模型 智能体 操作器)注入品牌创造力和商业策略 并灵活动态地插入不同策略中[45][46][50] * 公司计划让整个销售团队在明年都能销售客户互动和决策产品[36] 市场竞争与行业趋势 * 公司因其技术复杂性 在有CTO等技术人员参与的采购过程中 相比Salesforce和Adobe等对手更能体现差异化优势[39] * "氛围编码"(vibe coding)的兴起使更多人能自信使用其技术功能 其可视化编程语言Canvas与此相关 使得其技术差异化更易被接受和访问[42][43] * 公司看到客户在投资教育自己以使用这些更技术化的能力[41] 未来展望与风险 * 公司对下半年的续约基础健康状况更有把握 情况相比一两年前有所改善[24] * 灵活积分模型的变更加快了销售谈判速度 改善了客户体验[35] * 决策软件和智能层在推动高价值行为转换(如免费试用转付费 单产品转多产品)方面有巨大潜力[36] * 在回答引擎优化(AEO)等领域仍处于早期 系统如同黑箱 但品牌应对聚合器的策略手册已较为清晰[17][18]
Meta hires key OpenAI researcher to work on AI reasoning models
TechCrunch· 2025-06-27 00:13
人才招聘 - Meta聘请了OpenAI有影响力的研究员Trapit Bansal加入其新成立的AI超级智能部门,负责AI推理模型开发 [1] - Bansal于2022年加入OpenAI,是强化学习研究的关键人物,并作为基础贡献者参与了OpenAI首个AI推理模型o1的开发 [2] - Meta近期大规模招聘AI人才,为顶级研究人员提供高达1亿美元的薪酬方案 [4] 团队建设 - Meta的AI超级智能实验室已汇聚多位行业领袖,包括前Scale AI CEO Alexandr Wang、前GitHub CEO Nat Friedman等 [3] - 目前Meta的Llama系列开源模型尚未包含公开的AI推理模型 [3] 行业动态 - OpenAI发言人确认Bansal已于2023年6月离职 [1] - 该事件仍在发展中,Meta发言人拒绝对此置评 [4]