大语言模型(LLM)
搜索文档
PEGA(PEGA) - 2026 Q1 - Earnings Call Transcript
2026-04-22 21:00
财务数据和关键指标变化 - 2026年第一季度自由现金流达到2.07亿美元,为全年开了个好头 [24] - 2026年第一季度Pega Cloud收入同比增长,从1.51亿美元增至2.05亿美元 [23] - 按过去12个月计算,Pega Cloud收入增长30% [23] - Pega Cloud年度合同价值(ACV)同比增长29%(按报告计)或27%(按固定汇率计),达到略高于9亿美元,增长了超过2亿美元 [23] - Pega Cloud ACV目前约占总ACV的56% [23] - 2026年第一季度净ACV增长约为2000万美元(按固定汇率计) [60] - 2026年第一季度回购了350万股股票,价值1.67亿美元,并支付了500万美元的季度股息 [27] - 截至2026年3月31日,流通股数量较2025年底减少了160万股 [28] - 2026年第一季度,公司向股东返还了超过80%的自由现金流 [27] - 2025年第一季度净ACV增加额为6000万美元,这是一个异常值,比去年其他任何季度高出约20% [22] 各条业务线数据和关键指标变化 - 公司正专注于发展Pega Cloud,这给定期和维护ACV以及收入带来了压力 [23] - 随着Pega Cloud ACV占总ACV的比例持续增长,它将影响定期和维护业务的近期及当季收入 [23] - 公司预计Pega Cloud ACV最终将占总ACV的75%或更多 [30] - 公司预计定期许可收入将更集中于2026年下半年 [30] - 维护ACV预计将随着时间的推移而下降 [46] - 定期许可ACV预计也将趋于平缓 [46] - 几乎所有新增加的销售管道都与Blueprint的使用有关,这属于AI范畴 [97] 各个市场数据和关键指标变化 - 公司约30%的业务来自欧洲市场 [67] - 美国政府关闭和采购流程的变化导致一些交易和续约从第一季度推迟 [66] - 欧洲和中东的战争,以及潜在的“主权云”要求,给环境带来了压力并可能导致交易延迟 [22][67][69] - 美国(U.S.)和亚太(APAC)地区的收入下降完全是由于定期许可收入的确认时间造成的,并非结构性变化 [78] 公司战略和发展方向和行业竞争 - 公司的战略是成为企业AI的“驾驭者”,提供可治理、可解释、并融入工作流的AI,而非事后附加 [5] - Pega平台旨在帮助企业设计、构建、执行和演进关键任务软件,其核心是Pega模型 [11] - Blueprint AI 是一个关键的战略产品,用于在“设计时”进行协作和重新构想工作流程,而Pega Infinity则用于“运行时”执行 [26] - 公司认为,AI将有利于一些企业软件供应商,但不利于另一些供应商,特别是那些提供单一功能或面向小型工作组的低端工作流程公司 [6][85] - 公司正在加速新客户(新标志)的获取,Blueprint是关键的推动因素,改变了销售动态,缩短了销售周期 [24][47] - 公司正在推动遗留系统转型,利用AI和云来现代化运营,Blueprint通过简化工作流程的重新构想和重新设计来解锁这些机会 [25][26] - 公司的定价模式基于“案例”,这与交付的业务价值挂钩,而不是基于用户数或API调用次数,这在与AI相关的成本受到更严格审查时被视为一个优势 [31] - 公司正在采用“智能体工程”方法,以更有效地执行产品路线图并加快创新步伐 [27] - 公司认为,在关键任务企业中,AI增加了为可预测性、治理、互操作性和持续变化而构建的架构平台的价值 [7] - 公司认为,仅依赖AI生成代码或运行时重复推理的方法成本高昂、不可预测且难以安全演进 [12] - 公司认为,成功来自于在清晰、受治理的结构中执行经过重新设计和构想的工作,而不是让AI实时推理一切 [14] 管理层对经营环境和未来前景的评论 - 2026年开局充满挑战,AI实验、联邦政府关闭以及欧洲和中东的两场战争给整个环境带来了压力 [22] - 第一季度增长率较低并不令人意外 [22] - 公司对Pega平台,尤其是云产品的需求持久性保持信心 [22] - AI的经济性正在发生变化,前沿模型提供商正在收紧货币化,低成本、补贴式的“随意使用”实验时代似乎即将结束 [30] - 买家正在从AI的实验阶段转向投资回报率阶段,这正好契合了公司的优势 [31] - 公司预计2026年的业务活动将更多地集中在下半年,因为续约组合和销售管道都倾向于下半年 [29][37] - 这与2025年业务异常集中于上半年形成对比 [38] - 公司预计第二季度政府采购方面可能仍会有些混乱,但问题应该不会持续很长时间 [66] - 战争对供应链的干扰可能对IT支出环境构成风险,公司正在密切关注 [67][68] - 公司认为,当前AI领域部分处于泡沫阶段,最终将会洗牌 [87] 其他重要信息 - 公司将在2026年6月7日至9日在拉斯维加斯举办PegaWorld活动,届时将有客户演讲、产品发布和超过200个AI演示 [17][18] - 公司将于2026年6月8日(星期一)在PegaWorld期间举行投资者会议 [21][32] - 公司计划于2026年7月13日(星期一)在纽约纳斯达克市场参加开市钟仪式,庆祝公司首次公开募股30周年 [33] - Forrester将公司评为客户服务解决方案领导者,认可了Pega客户服务、Pega Blueprint和Pega流程挖掘 [15] - 公司今年已获得四项与AI应用相关的创新奖项,包括一项年度产品奖 [15] - 客户也在使用Pega软件获奖,例如苏格兰国家医疗服务体系因其利用Pega软件的工作获得了公共部门奖项 [16] - 公司近期推出了Blueprint中的新“氛围编码”工具,将AI增强设计的速度与Blueprint提供的安全性和可预测性相结合 [14] - 客户案例:比利时电信运营商Proximus使用Pega将其关键任务B2B安装应用程序现代化,在Blueprint中15分钟内构建了第一个原型,并在数周内上线 [16] - 客户案例:一家大型医疗保健组织使用Blueprint设计和构建了两个新应用程序,一个在92天内上线,另一个在70天内上线 [25] - 客户案例:在第四季度,公司签署了一个新的金融服务客户,利用Blueprint的遗留转型功能,计划将30多个应用程序从遗留平台迁移到Pega Cloud [26] 总结问答环节所有的提问和回答 问题: 请详细说明全年ACV增长加速的因素 [35] - 两个因素推动业务势头倾向于2026年下半年:一是续约周期集中在下半年,客户倾向于在续约时扩展关系;二是公司通过Blueprint重新关注新客户获取,新建立的销售管道将在下半年转化 [37] - 这与2025年业务异常集中于上半年形成对比 [38] 问题: 请谈谈您看到的AI采用脱节情况,以及第一季度在智能体采用方面的趋势更新 [39] - 行业中存在对大型语言模型的过度热衷和误用,试图用LLM处理所有事情是“疯狂”的,会导致成本高昂、缺乏可靠性 [39][40] - 正确的做法是在设计时(如通过Blueprint)使用LLM进行大量推理,而在运行时使用合适的AI来保证一致性和速度,这样成本可控且价值可扩展 [40] - 公司认为其已经掌握了LLM的正确使用方法 [41] 问题: 请详细说明对新标志的新关注,以及转向Pega Cloud对维护ACV的影响,第一季度维护ACV的数字是否预示全年趋势 [44] - 随着公司持续转向Pega Cloud,维护ACV预计会随着时间的推移而下降,定期许可ACV也将趋于平缓,尽管部分客户仍会使用客户云,但这一趋势将持续 [46] - 新标志目标市场庞大,包括Gartner、Forrester的数千家企业客户,Blueprint彻底改变了与新客户互动和验证兴趣的速度,将原本可能长达两年的销售周期大幅缩短 [47][48] - Blueprint降低了所需的培训和专业知识门槛,同时结合Pega Cloud和预测性诊断云,使公司能够有效拓展更大的客户群体 [49][50] 问题: 请具体阐述成为企业AI“驾驭者”对客户的意义、用例以及在大客户中的采用曲线 [54] - “驾驭者”概念为客户提供了可靠性和可审计性,使客户能够在业务目标的上下文中使用Pega的智能体甚至非Pega智能体,而不是对所有事情进行实时推理 [56] - 这带来了效率、风险管理和弹性(通过使用多个模型)方面的价值 [58] - 举例说明,依赖LLM处理每笔信用卡纠纷会错过引入稳定性和效率的机会 [57] 问题: 请提供第一季度净新ACV数据,以及本季度业绩是否符合预期和对全年ACV增长展望的影响 [59] - 2026年第一季度按固定汇率计算的ACV增长约为2000万美元,与预期相差无几,仅略低几百万美元,属于四舍五入的误差范围 [60] - 第二季度同样不是大的续约季,业务活动主要集中在下半年,整体情况与公司之前的设想没有太大不同 [61] - 第一季度现金流强劲符合典型季节性规律 [61] 问题: 请详细说明地缘政治等因素(政府、战争)对公司业务的已见影响及对今年剩余时间的潜在影响 [65] - 美国政府关闭和采购变化导致第一季度一些交易和续约推迟,预计第二季度可能仍有些混乱,但问题应该不会持续很长时间 [66] - 欧洲和中东的战争可能通过供应链中断、油价上涨等因素对欧洲(占业务30%)的IT支出环境构成风险,公司已开始听到相关讨论,正在密切关注 [67][68] - 欧洲对“主权云”的要求也可能使交易过程复杂化并导致拖延 [69] - 公司凭借与不同超大规模云服务商合作的能力来应对这些挑战 [70] 问题: AI代币补贴减少的趋势对公司的成本结构有何影响,以及这是否改变了与客户的对话性质 [71][73] - 这对公司有利,因为Blueprint主要在“设计时”消耗代币,设计一次可运行无数次,因此设计成本不构成问题 [74] - 代币定价更接近现实是好事,尽管目前仍存在大量补贴 [74] - 随着AI成本受到更严格审查,客户从“为一切尝试AI”转向关注投资回报率,这符合公司基于业务价值交付的定价模式优势 [31][73] 问题: 美国(U.S.)和亚太(APAC)地区收入下降的原因是什么 [77] - 收入下降完全是由于定期许可收入的确认时间造成的,是会计时间问题,并非结构性变化或新业务活动受到影响 [78] - 公司更倾向于以经常性为基础报告所有收入 [79] 问题: 新发布的“氛围编码”功能推出后,Blueprint的使用和参与度趋势如何,是否看到了扩展活动的早期迹象 [80] - 反馈很好,该功能直接集成在Blueprint界面中,用户可以通过自然语言添加功能,它对于公司的工作至关重要,并且获得了良好的反馈 [80] 问题: AI将对哪些企业软件供应商不利 [84] - AI对某些单一功能的产品产生了负面影响,例如生成式AI使得一些文档处理软件的功能变成了一个普通特性 [85] - 低端工作流程/工作管理公司(如Asana, monday.com)也受到冲击,它们通常服务于小型工作组,而这些功能可能更容易被AI编码替代,但Pega服务于大型企业的关键任务流程,AI反而为其增加了巨大价值 [85][86] 问题: SpaceX可能收购Cursor(传闻600亿美元)揭示了AI世界的什么动向 [87] - 这表明AI领域部分处于泡沫阶段,未来将会洗牌,会出现一些幸存者 [87] - Cursor可以看作是为程序员设计的“驾驭者”或设计时工具,这暗示AI模型需要针对不同用例进行治理或设置护栏 [88][89][92] - 公司认为既需要设计时的“驾驭者”(如Blueprint),也需要运行时的“驾驭者” [90] 问题: 目前销售管道中有多少是AI驱动的,与传统平台ACV相比如何 [97] - 几乎所有新增的销售管道都以某种方式与Blueprint的使用相关,这属于AI范畴 [97] - 特定的运行时AI加速器(如Knowledge Buddy, Coach)通常被视为平台活动价值的溢价附加 [97] 问题: 请评论在政府和受监管行业中对遗留系统现代化计划的需求演变 [98] - 公司正在参与一些遗留转型项目,虽然进展缓慢,但这是一个巨大的市场,公司正在积累专业知识并获得良好案例,预计在PegaWorld上展示相关成果 [99]
我们还能信任AI吗?科学家编造了一种不存在的疾病,AI模型纷纷上当
生物世界· 2026-04-08 12:11
文章核心观点 - 一项关于大语言模型信息验证缺陷的学术实验表明,AI模型会不加批判地吸收并传播网络上的虚假信息,即使该信息以明显荒诞的学术论文形式存在[2][3][6] - 该实验造成的虚假信息“污染”已超出AI领域,影响了正规的学术研究,暴露出学术界可能过度依赖AI生成或检索的参考文献[7] - 这一现象揭示了AI时代信息生态的系统性漏洞,可能被商业目的等恶意利用,并对公众健康信息安全和知识信任体系构成威胁[8][9] - 面对挑战,需要在技术评估、用户行为及学术审查等多个层面建立防护措施,并强调人类批判性思维和最终判断权的不可或缺[10][12] 实验设计与执行 - 研究人员为测试大语言模型是否会传播虚假信息,凭空创造了一种名为“bixonimania”(比克索尼躁狂症)的眼部疾病,并撰写了两篇包含大量荒诞线索的论文上传至预印本平台[3] - 论文中的虚构线索包括:署名单位为一所不存在的大学及其院系、致谢虚构的《星际迷航》角色、声明获得虚构基金会资助,并直接指出“全文纯属虚构”[4] AI模型的反应与缺陷 - 论文上线几周后,多家主流AI模型开始将“bixonimania”当作真实疾病进行回答[6] - 微软的Copilot称其为“一种有趣且相对罕见的疾病”[6] - Google的Gemini将其描述为“由过度暴露于蓝光引起的疾病”,并建议患者去看眼科医生[6] - Perplexity AI甚至给出了具体的患病率:每9万人中有1人患病[6] - OpenAI的ChatGPT则帮助用户分析是否患有这种疾病[6] - 尽管在2026年3月的测试中部分模型表现出怀疑,但回应仍不稳定,有时仍会以不确定的口吻提及它,这暴露了AI模型会不加批判地吸收网络信息(包括明显虚假内容)的根本缺陷[6] 对学术界的连锁影响 - 这两篇虚构的论文被正规的、经过同行评审的医学研究论文所引用[7] - 例如,印度一所医学院的研究人员在发表于Cureus期刊的论文中,将bixonimania引用为一种与蓝光暴露相关的新兴疾病(该论文目前已被撤稿)[7] - 这表明部分研究人员可能过度依赖AI生成的参考文献而未核实原始文献,甚至是直接由AI生成论文[7] 潜在风险与隐患 - 健康信息“污染”:虚假医学信息通过日益普及的AI渠道传播,可能误导患者并延误真实病情诊断,随着专门健康类AI产品的推出,风险增加[8] - 系统性漏洞可能被恶意利用:例如,怀有商业目的(如推销防蓝光眼镜)的行为者可利用此方法制造虚假疾病进行营销,而AI会成为其“权威”传声筒[8] - 信任体系的侵蚀:当支撑科学过程的系统都无法过滤此类明显虚假信息时,公众对知识和信息的信任基础将受到严重威胁[9] 建议的解决方案 - 建立标准化评估管道:面向消费者的健康类AI模型在部署前,应通过自动化、公开的标准化测试,评估其抗幻觉能力及对错误信息的抵抗力[12] - 人类保持最终判断权:用户必须对AI提供的信息(尤其是医疗建议)进行二次核实,并咨询合格的专业人士[12] - 增强学术界的审查力度:研究者必须严格审查参考文献,不能将学术诚信的防线交给算法[12]
Karpathy强推,大厂抢着「复古」命令行,Star数全都上千了
机器之心· 2026-04-06 12:38
行业趋势:CLI成为AI智能体时代的关键交互层 - 飞书、钉钉、企业微信在三天内相继推出官方CLI工具,GitHub Star数均已上千,表明行业正快速跟进并争夺生态位 [1][2] - 在AI时代,CLI因其纯文本交互特性而复兴,它完美契合大语言模型的运作逻辑,是比GUI更自然、精准的智能体交互方式 [5] - 行业观点认为,如果企业软件的下一代交互入口是智能体,那么AI执行层的标准需要通过开源CLI来定义,以绑定未来的AI自动化工作流 [11] CLI对比GUI在AI应用中的核心优势 - 纯文本是大模型的“母语”,让智能体执行CLI命令比识别GUI按钮更自然、精准,避免了通过计算机视觉点击屏幕的缓慢和幻觉问题 [9] - CLI可以跨越复杂的API接入鸿沟,官方封装好的CLI解决了身份鉴权、Token刷新等脏活累活,AI无需理解底层接口即可直接调用系统能力 [9] - CLI具备模块化管道特性,各个工具可以像积木一样无缝串联,这与AI的“标准接口”MCP趋势殊途同归,有助于形成稳定的工作闭环 [10] 国内外主要参与者的CLI布局 - 国内三大办公软件厂商均已推出官方CLI:飞书CLI、钉钉CLI、企业微信CLI [6] - 国外科技公司及开源项目也推出了各具优势的CLI工具,例如Anthropic的Claude Code、谷歌的Gemini CLI以及OpenAI的Codex CLI [10] 为智能体设计CLI的关键原则 - 需要使CLI非交互式:所有输入都应作为标志传递,避免智能体卡在交互式提示上,交互模式应作为备用方案而非主要路径 [14] - 文档与帮助信息设计:不应一开始就提供所有文档,而应让智能体在运行过程中自行发现;`--help`选项必须包含示例,因为代理匹配命令模式比读取描述更快 [15] - 参数与流程设计:应接受所有参数的标志和标准输入,以支持智能体的管道式思考;命令应快速失败并提供可操作的错误信息;命令应设计为幂等,以应对智能体的重试行为 [16] - 安全与可预测性:应为破坏性操作添加`--dry-run`参数以供预览;提供`--yes`或`--force`参数让智能体跳过确认提示;命令结构应保持可预测,采用统一的模式(如资源+动词) [17] - 输出结果:命令成功后应返回数据(如部署ID和URL),而非仅显示表情符号 [18]
首个用户生活「长程模拟器」来了!LifeSim 重新定义大模型个性化评测
机器之心· 2026-04-06 08:38
研究背景与挑战 - 现有针对个性化AI助手的评测基准与真实世界用户-助手交互存在明显脱节,主要受限于长时间、跨场景的公开数据稀缺 [2] - 真实用户需求受到时间、地点、天气、生活事件等复杂外部情境以及用户长期偏好、个性特征、近期经历和当前心理状态等内部认知的共同影响 [4] LifeSim模拟框架 - LifeSim是一个面向长期个性化助手评测的用户生活模拟框架,旨在生成连贯的生活轨迹、事件序列与多轮交互行为 [2] - 框架核心由四部分组成:用户画像、基于信念-愿望-意图(BDI)的认知引擎、基于环境约束的事件引擎、用户行为引擎 [7] - 为支持用户多样性,构建了百万级用户画像池,每个画像包含人口统计学属性、基于大五人格的特质及长期偏好 [10] - 事件引擎以真实出行轨迹为基础,融入时间、地点等环境因素,根据用户状态生成连贯生活事件 [10] - 用户行为引擎模拟多轮交互表现,综合考虑记忆、情绪与行为选择,生成的回复兼具画像一致性、上下文相关性与自然度 [10] LifeSim-Eval评测基准 - 基于LifeSim构建了LifeSim-Eval,用于系统评测模型在长期个性化交互中的能力边界 [2] - 该评测利用LifeSim构建了120个用户、1200个评测场景,覆盖8个常见生活领域,并设置单场景与长时程两种评测模式 [15] - 核心评测指标包括意图识别、意图完成度、偏好重建、画像对齐,以及回复的自然度与连贯性 [15] - 评测更关注长期用户理解、显性与隐性意图的区分,以及跨场景的个性化一致性 [15] 实验结果与核心发现 - 在单场景设置中,大多数模型在显性意图识别上表现较好,但在隐性意图识别上普遍存在超过20分的性能差距 [17] - 在长时程设置中,模型对显性意图的完成率相对稳定,但对隐性意图的完成能力明显更弱,且会随着历史长度增加而进一步下降 [20] - 测试画像记忆机制(在每个场景后让模型总结或更新用户偏好)发现,整体收益并不稳定,说明长期个性化能力的瓶颈更在于模型是否具备稳定的长期偏好推理能力 [23] - 针对不同意图类别和主题的实验结果显示,模型在显式、任务驱动需求为主的场景与需要隐式、情感推理的场景之间,性能存在明显差异 [30] - 通过案例分析,总结出当前模型在长期个性化助手任务中常见的三类问题:推理僵化、主动追问不足、用户画像利用不足 [32] 主流模型性能表现 - 在用户行为引擎性能评测中,DeepSeek-V3.2在画像一致性(P.C.)和上下文相关性(C.R.)上分别达到97.1和96.8,GPT-4o分别为94.0和95.6 [12] - 在LifeSim-Eval综合评测中,闭源模型GPT-5在显性意图识别和完成度上分别达到79.5和76.9,隐性意图分别为52.2和48.9 [19] - 开源模型中,DeepSeek-V3.2在显性意图识别和完成度上分别达到78.6和73.5,隐性意图分别为54.6和50.8;其思考版本(Thinking)在隐性意图识别和完成度上进一步提升至59.3和58.2 [19] - 在长时序意图完成性能测试中,当对话历史令牌数达到约16K时,DeepSeek-V3.2对显性意图的完成度(I.C.)从88降至80,对隐性意图的完成度则从57大幅降至30 [21] - 在问题类型统计中,Claude-Sonnet-4.5的主动询问占比最高,达51.2%;Llama3.1-8B-it的僵化推理占比最高,达64.2% [30]
大模型SFT后效果≠RL潜力!港科大、阿里提出自适应冷启动新范式
机器之心· 2026-04-04 11:29
研究背景与核心问题 - 自2025年以来,强化学习已成为大语言模型后训练阶段的默认范式,能激发出模型复杂的推理和长思维链能力,并赋予其达成超人类表现的潜力[2] - 然而,直接将普通基座模型用于强化学习训练时,由于缺乏方向性引导,算法在有限步数内难以探索出正确的推理路径[2] - 当前标准做法是在强化学习前,使用少量优质数据进行监督微调,为模型进行“冷启动”热身,以提高后续强化学习阶段的效率[2] 核心发现:冷启动的“致命陷阱” - 研究发现一个反直觉现象:在监督微调冷启动阶段评估性能最好的检查点,用于后续强化学习训练后,最终成绩往往不是最好的,甚至会出现倒退[6] - 研究团队首次揭示,冷启动后表现最好的检查点,往往并不对应最大的强化学习潜力[3] - 造成此现象的核心原因是“作为强化学习冷启动的监督微调”与“单纯的监督微调”在目标上存在根本分歧[6] - 如果监督微调训练过度,传统的交叉熵损失函数会强迫模型死记硬背演示数据细节,导致模型丢失原本丰富的知识分布和生成多样性,从而在进入强化学习阶段后失去探索新路径的能力,锁定了强化学习的上限[6] - 随着监督微调步数增加,模型在验证集上的性能可能仍在上升,但经过强化学习训练后的最终潜力却会早早开始下滑[10] 破局关键:输出多样性的重要性 - 研究发现,不应仅以准确率作为监督微调冷启动的停止标准,而必须兼顾准确率与多样性[3] - 在监督微调的早期,模型在学习新推理格式的同时,还保留着基座的原始知识,此时模型的输出多样性会达到一个峰值;随着训练继续,模型开始过拟合,多样性迅速暴跌[12] - 这个输出多样性的“黄金拐点”,恰恰对应着模型强化学习潜力的最高点,是开启强化学习训练的最佳时机[13][16] - 强化学习的成功高度依赖于“探索”与“利用”的平衡,如果模型在进入强化学习阶段前就丢失了输出多样性,会因探索空间不足导致最终效果大打折扣[8][25] 解决方案:自适应早停损失函数 - 研究团队提出了一种全新的轻量级训练目标——自适应早停损失函数,旨在为大模型的强化学习训练打造最完美的起跑线[3][17] - 自适应早停损失函数的核心哲学是“因材施教”,它不再盲目要求模型在所有地方都完美拟合演示数据,而是在Token和子序列两个微观层面上动态调节学习力度[18] - 在Token级别,如果模型当前预测概率已经很高,自适应早停损失函数会自动降低该Token的损失权重,防止对特定词汇的过拟合[18] - 在子序列级别,自适应早停损失函数会实时计算当前生成前缀的平均置信度,如果前半部分已非常符合目标分布,则会在后续生成中放宽限制,鼓励探索[18] - 通过这种精细的动态平衡,自适应早停损失函数成功让模型在“学会长思维链推理模式”和“保留基座原始探索能力”之间找到了完美平衡点[19] 实验验证与性能表现 - 研究团队在极具挑战性的数学推理任务上进行了大规模实验,选用了Qwen2.5-7B-Instruct、Qwen2.5-Math-7B及Llama-3.1-8B-Instruct作为基座模型,并在AIME 24/25、AMC 23、MATH-500等榜单上进行测试[21] - 实验结果表明,无论在哪种基座模型上,使用自适应早停损失函数作为冷启动策略,其后续经过强化学习训练的最终性能,全面碾压了直接强化学习、标准交叉熵损失监督微调以及现有的其他前沿方法[21] - 在Qwen2.5-7B-Instruct模型上,使用自适应早停损失函数后进行强化学习,在AIME25、AMC23、AIME24、MATH、Min、Olym等基准测试上的平均得分达到42.26,优于其他所有冷启动方法[22] - 在Qwen2.5-Math-7B模型上,自适应早停损失函数结合强化学习取得了50.04的平均分,同样表现最佳[22] - 进一步测试证明,无论冷启动数据量多寡、数据难度如何,自适应早停损失函数都能稳定发挥,始终提供优于传统方法的强化学习潜力[23][24] 研究意义与行业影响 - 该研究打破了“监督微调拟合越好越好”的迷思,证明了在冷启动阶段,“保持多样性”比“满分模仿”在后续的强化学习训练中更具长期价值[26] - 自适应早停损失函数的提出不仅仅是一个损失函数的改进,更是一次对大语言模型后训练范式的认知刷新[26] - 该研究为从监督微调到强化学习范式的转变过程提供了重要的探索起点,未来可能会有更多研究去探索这两种范式带来的根本不同[26]
谷歌前研究员:仅靠规模化无法实现AGI
阿尔法工场研究院· 2026-03-31 19:18
通用人工智能的定义与目标 - 真正的AGI应具备与人类相似的“技能获取效率”,即面对任何新问题或新领域时,能以相似的效率和极少量的训练数据与计算迅速理解并掌握[2] - 预测行业可能先实现“自动化大部分经济工作”的AGI定义,之后才实现更强调学习效率的定义[2] 当前AI范式的局限性与新路径探索 - 当前以深度学习和大语言模型为主的技术栈存在根本局限性,高度依赖海量训练数据进行模式匹配,在代码、数学等可验证领域表现出色,但在写作等难以验证的领域进步缓慢[2] - 行业正探索与深度学习完全不同的新研究范式,例如程序合成,旨在用尽可能简洁的符号模型替代参数化曲线进行学习,以实现更高的数据效率和模型最优性[2] 对AGI技术形态与时间线的预测 - 实现AGI的“流体智能引擎”本身会是一个非常精简的代码库,可能少于1万行代码,能够运行在兆字节级别,但其运作所需的知识库会庞大得多[3] - 基于当前进展速度和投资规模,预测AGI可能在2030年左右实现,届时可能对应Arc-AGI v6或v7的发布[3] 对研究者和创业者的建议 - 认为当前行业过于集中于LLM技术栈是反生产力的,应鼓励更多不同的研究路径,例如遗传算法、状态空间模型,甚至建议研究者去阅读七八十年代的旧研究思路[4] - 一个有望成功的AI系统,其能力提升必须能够脱离人类工程师的持续直接干预,能够通过增加计算或数据等资源实现自主扩展和改进[4]
ICLR 2026 | 复旦&通义万相提出ProMoE,显式路由引导打破DiT MoE scaling瓶颈!
机器之心· 2026-03-31 15:00
混合专家架构在视觉生成领域的挑战与核心问题 - 混合专家架构在大语言模型中成功扩展了模型容量并保持了计算效率,但在应用于视觉生成领域的Diffusion Transformer时收益有限,未能复刻其在语言模型中的成功[2] - 视觉Token与语言Token存在根本差异:视觉Token具有高度空间冗余性和功能异质性,这阻碍了视觉MoE中专家的专业化[3] - 具体而言,语言Token语义密度高、簇间分离良好,而视觉Token较为分散,其类间距离与类内距离的比值量化结果为19.283远大于0.748,证明了视觉Token的冗余性[7] ProMoE框架的创新设计 - 为解决上述问题,研究团队提出了ProMoE框架,其核心是通过两步路由和显式语义路由引导来实现“专家内一致”和“专家间多样”[9] - 第一步为条件路由:根据Token的功能角色进行硬路由分配,无条件图像Token直接分配给专门的无条件专家,条件图像Token则进入下一步,实现了专家的功能隔离[10] - 第二步为原型路由:对于条件图像Token,引入一组可学习的“原型”,通过计算Token与各原型间的余弦相似度得到路由分数,将Token分配给对应专家[10] - 引入路由对比学习作为显式语义路由引导:通过拉近Prototype与分配给它的Token集合质心,以及推开Prototype与其他专家处理的Token集合质心,来增强语义引导和专家多样性[11][13] ProMoE的实验性能与结果 - 在模型配置上,ProMoE系列包含从S到XL的不同规模,例如ProMoE-L总参数量为1.063B,激活参数量为458M[18] - ProMoE在各种规模和设置下稳定超越了稠密模型,参数量仅1.063B的ProMoE-L-Flow,凭借更少的激活参数,超越了计算量更大的Dense-DiT-XL-Flow[19] - 与现有视觉MoE方案对比中,ProMoE-L-Flow以1.063B的总参数量和77.72 GFLOPs的计算量,在FID和IS指标上超越了总参数量1.846B、拥有16个专家的DiffMoE-L-Flow[22][23] - 在GenEval基准测试中,ProMoE在所有子任务上优于标准的Token-Choice MoE模型,展现出更强的泛化能力[24][25] - 训练曲线显示ProMoE的收敛速度明显快于稠密模型和现有MoE模型,并且随着模型尺寸从Base扩展至XL,以及专家数量从4增加到16,其生成性能均呈现稳定提升,展现出扩展潜力[28][31]
拒绝「降智、减配、乱收费」:面向LLM API的可信验证框架
机器之心· 2026-03-23 17:46
行业背景与问题 - 大语言模型已成为各类AI应用的重要基础设施,绝大多数用户通过云端API服务调用模型能力,例如OpenAI、Anthropic和Google等公司提供的服务[7] - 这种黑盒服务模式引发了根本性的信任危机:用户无法验证服务提供商是否真正执行了其声称的模型[9] - 从经济角度看,服务商存在通过多种方式降低计算成本或增加收费的动机,包括:使用更小、更便宜的模型进行模型替换;使用低精度计算进行过度量化;报告比实际更多的token使用量进行过度计费[10] - 这些违规行为产生的输出往往是语义上正确但整体质量较低的结果,用户难以直接检测,国内外开发者社区已有大量用户报告LLM服务“降智”现象,即订阅服务一段时间后模型表现明显下滑[1][10] - 服务商还可能出于竞争或策略考虑,对特定用户群体提供差异化或低质量服务,这严重破坏了模型服务的公平性与可信度[3][10] 解决方案:IMMACULATE审计框架 - 研究团队提出了一种名为IMMACULATE的全新审计框架,旨在解决黑盒LLM API的信任问题[5] - 该框架无需访问模型内部结构,也不依赖专用可信硬件,即可检测云服务商是否真实执行了其声称的模型推理过程,并是否如实报告token使用量[5] - 其核心技术基础是可验证计算,这是一类密码学技术,使服务器能够在不泄露内部计算过程或模型参数的情况下证明计算结果的正确性[12] - 核心思想是无需验证所有请求,只需随机审计少量请求即可检测系统是否存在大规模违规行为,这基于一个关键的经济事实:如果服务商希望通过违规行为获取经济收益,就必须在相当比例的请求上进行违规执行[12][14] - 工作流程包括:用户正常发送请求;服务端返回回答与token使用量;审计者随机选择部分请求进行审计;服务端提供可验证计算证明;审计者根据统计指标判断执行是否可信[15] 关键技术:Logit Distance Distribution - 验证LLM推理过程面临GPU推理存在数值非确定性的挑战,即使在完全相同的模型和输入下,不同运行之间的浮点误差也可能导致输出略有不同[17] - 大语言模型的推理过程包含连续计算和离散决策两类步骤,连续计算受浮点误差与并行调度影响具有数值非确定性,而离散决策的输出是完全确定的[17] - 由于生成过程是自回归的,连续计算中极小的数值偏差也可能导致后续离散决策变化,从而使整个推理路径发生分叉,这使得传统需要逐步复现完整推理过程的验证方法难以直接应用[17] - IMMACULATE利用了这一结构特性:固定离散决策路径,仅比较连续计算的偏差,具体方法是比较部署模型与参考模型在每一步产生的logits向量之间的距离分布,这一分布被称为Logit Distance Distribution[18] - 核心思想是不直接验证每一步推理是否完全一致,而是衡量实际执行模型与参考模型之间的logit偏差分布,如果系统正常运行,logit偏差只来自数值误差,偏差分布稳定且集中;如果存在违规行为,偏差分布会明显扩大或偏移[19][20][21] 实验效果与系统开销 - 实验结果表明,在随机审计机制下,仅需约3000次审计请求,即可在高概率下检测到违规行为[23] - 对于模型替换攻击,检测率最高超过90%[28] - 对于量化攻击,检测率可达1%–10%[28] - 系统开销极低:在vLLM推理引擎下,吞吐影响小于1%[24][28] - 计算证明仅在极少请求上触发,用户仅需1%的额外开销就能验证黑盒LLM API的执行完整性[3][24] 总结与意义 - IMMACULATE提出了一种面向黑盒LLM API的可验证审计框架,通过结合随机化审计、可验证计算以及新的Logit Distance Distribution指标,该方法能够在不访问模型内部、无需可信硬件的情况下检测云端LLM服务的执行完整性[5][26] - 该研究表明,大规模LLM服务的透明性与可信度可以通过轻量级审计机制得到显著提升,为未来AI基础设施的可信运行提供了一条可行路径[27]
离开Meta,杨立昆两个月融了70亿
投中网· 2026-03-12 14:57
文章核心观点 - 以图灵奖得主杨立昆(Yann LeCun)创立的AMI Labs获得巨额融资为引,阐述了当前资本正在狂热追逐顶尖AI技术人才,并重点押注“世界模型”这一被视为继大语言模型(LLM)之后的新技术颠覆方向 [2][3][13] AI初创公司融资与估值 - 杨立昆创立的AMI Labs在2025年1月成立,两个月后官宣完成10.3亿美元(约70.87亿元人民币)融资,由凯辉创新、贝佐斯家族基金等领投,英伟达、丰田创投等战略投资 [2] - 该轮融资对AMI Labs的投前估值为35亿美元(约240.82亿元人民币),远超其原计划以30亿欧元(约241.17亿元人民币)估值募资5亿欧元的目标 [2] - 由李飞飞创立的空间智能公司World Labs于2月19日宣布完成10亿美元融资,市场预计其投后估值约50亿美元,投资方包括Autodesk、英伟达和AMD [10] - 前DeepMind首席科学家David Silver创立的Ineffable Intelligence,种子轮融资规模即达到10亿美元 [15] 世界模型技术路径与公司定位 - AMI Labs明确押注“世界模型”,不做LLM,其系统旨在从现实世界传感器数据中学习,理解物理规律,具备长期记忆和推理规划能力,应用于工业控制、机器人、医疗等高可靠性领域 [7] - 杨立昆认为以ChatGPT为代表的LLM无法通向通用人工智能(AGI),是一条死路,而世界模型学习的是“物理规律如何运行” [9] - World Labs发布的空间智能产品Marble,是一种能根据图像或文本提示生成三维世界的基础模型,旨在构建对物理空间的理解 [10] - Google DeepMind开发的Genie模型能生成并模拟三维交互环境,被视为迈向可交互世界模型的重要尝试 [11] 豪华团队与行业人才流动 - AMI Labs联合创始人阵容豪华,包括前Meta AI研究科学家谢赛宁(首席科学官)、香港科技大学教授冯雁(首席研究与创新官)、前Meta欧洲区副总裁Laurent Solly(首席运营官)等 [7] - 公司总部位于巴黎,并在纽约、蒙特利尔和新加坡设办公室,计划开源大量代码以加速技术进展 [8] - 当前AI浪潮中,顶尖技术人才离开大厂创业已成常态,除杨立昆外,案例包括前阿里贾扬清创立Lepton AI后被英伟达收购、前小度CEO景鲲创办Genspark快速成为独角兽等 [14][15] - 争夺大厂技术领军人物已成为投资机构的“必修课”,他们的项目在启动前就常被风投资本包围 [15][16] 产业资本动向与市场前景 - 英伟达CEO黄仁勋预测,面向现实世界的“物理AI”(即世界模型相关技术)将成为AI下一个重要前沿,潜在市场规模可能高达90万亿美元 [12] - 工业软件公司Autodesk对World Labs的重金押注,反映了软件行业在AI冲击下的转型焦虑,投资消息公布当天其股价上涨近2% [11] - 法国工业软件巨头达索系统(Dassault Systèmes)宣布与英伟达建立战略合作,共同推进世界模型技术 [12] - AI公司构建世界模型需要三维世界的感知与交互能力,这使得具备三维工业建模能力的软件企业重新获得关注,AI可能成为其新的增长契机 [11]
博通电话会全文&详解:2027年AI芯片营收将破1000亿美元,AI不会颠覆基础设施软件!
美股IPO· 2026-03-05 12:40
公司业绩与财务指引 - 博通2026财年第一季度总营收创历史新高,达到193亿美元,同比增长29%,调整后EBITDA为131亿美元,占营收的68% [14] - 公司预计2026财年第二季度合并营收约为220亿美元,同比增长47% [15][18][21] - 半导体解决方案业务第一季度营收为125亿美元,同比增长52%,其中人工智能半导体营收同比增长106%至84亿美元 [15] - 预计第二季度半导体业务营收为148亿美元,同比增长76%,其中人工智能半导体营收将同比增长140%至107亿美元 [15][21] - 基础设施软件业务第一季度营收为68亿美元,同比增长1%,预计第二季度营收约为72亿美元,同比增长9% [18][21] - VMware云基础架构(VCF)第一季度收入同比增长13%,订单合同总额超过92亿美元,年度经常性收入(ARR)同比增长19% [12][18] AI芯片业务展望 - 公司预计到2027年仅AI芯片(XPU、交换芯片、DSP)的营收就将超过1000亿美元 [4][5][18] - 支撑该预测的装机容量预计在2027年将接近10吉瓦 [1][5][42] - AI芯片业务增长由6家长期战略客户驱动,包括Google、Meta、OpenAI、Anthropic及另外两家未公开的大型语言模型(LLM)平台公司 [4][5][16] - Anthropic对TPU计算能力的需求预计在2027年激增至超过3吉瓦,OpenAI也将在同年大规模部署超过1吉瓦的算力 [5][16] - 公司与这六家客户建立了多代(2-4年滚动规划)的战略绑定合作关系,而非短期交易 [5][16][67] 网络业务增长引擎 - 网络业务是AI收入的重要组成部分,第一季度占比为33%,预计第二季度将达到40%,未来长期区间预计在33%至40% [10][17][30] - 增长动力来自横向扩展(Scale-out)和纵向扩展(Scale-up)两个层面 [10] - 在横向扩展方面,以太网是首选方案,公司率先上市的100Tbps Tomahawk 6交换机面临巨大需求,并计划在2027年推出性能翻倍的Tomahawk 7 [10][17] - 在纵向扩展方面,公司主张在机架内集群尽可能使用直接附加铜缆(DAC)连接XPU或GPU,因其具有低延迟、低功耗和低成本优势,目前技术已能通过铜缆驱动400G传输速率 [10][59] 定制芯片(XPU)发展趋势 - 定制化的XPU(扩展处理器)针对特定工作负载(如MoE、推理、预填充、解码)进行优化,相比通用GPU,能提供更低的成本和功耗 [6][7][34] - 随着模型演进,技术成熟的客户正走向每年同时开发两款专用芯片的路线:一款用于模型训练,另一款专门针对推理 [8][63] - 这意味着定制芯片的需求是长期双线扩张,而非一次性替代GPU [9] - 公司在定制AI加速器(XPU)领域拥有技术领先优势,包括芯片设计、先进工艺、封装和网络集群架构,领先竞争对手12到18个月 [25][26] 供应链与产能保障 - 公司已提前锁定了2026年至2028年的关键组件产能(包括前沿晶圆、高带宽内存、基板等),成为业内最早锁定2028年产能的公司之一 [1][11][47] - 产能锁定的能力得益于早期的预期、与客户的深度多年期合作以及优秀合作伙伴的支持 [11][46] - 由于持续采购零部件以满足强劲的AI需求,第一季度末库存为30亿美元,库存周转天数升至68天(上一季度为58天) [11][20] - 管理层确认,基于当前的供应情况,2028年业务能够实现增长 [11][49] 基础设施软件业务 - 公司认为其基础设施软件(特别是VMware云基础架构VCF)不会受到人工智能的冲击,反而会受益 [12][18] - VCF被定位为人工智能软件和物理芯片(硅)之间的永久抽象层,不可被取代或替代 [1][12][18] - 生成式人工智能和智能体人工智能的增长预计将增加对VMware的需求 [12][18]