Artificial Intelligence
搜索文档
梁文锋,坐不住了
虎嗅APP· 2026-04-20 08:25
公司动态与融资情况 - DeepSeek正以约**100亿美元**的估值寻求新一轮融资,规模约**3亿美元**,创始人梁文锋的态度从一年前“拒绝融资”转变为主动接触资本 [4] - 有市场传闻称,过去一年里梁文锋曾先后见过马化腾与雷军讨论融资可能性,信号明显 [4] - 尽管面临技术困境,但风险投资机构(VC)对投资DeepSeek仍持肯定态度,认为其估值**100亿美元**低于智谱、MiniMax和Kimi等已上市的同行 [8][24] 公司面临的挑战与困境 - 公司新一代模型(V4)的发布时间多次被预告却未能如期落地,发展节奏明显放缓 [5][13] - 延迟原因被指向一个现实问题:试图摆脱对英伟达算力体系的依赖,但此过程极不顺利 [5][13] - 团队层面出现波动,包括参与代码研究的郭达雅、LLM核心作者王炳宣、OCR核心作者魏浩然在内的多位关键人才相继离开 [6] - 公司过去因算法与工程优化实现的高“性价比”优势,高度依赖于对英伟达GPU底层PTX编程的深度优化,这导致其向国产芯片迁移的成本极高,近乎需要“从0开始”重写底层代码 [14][15][16][20] 公司的技术路径与历史优势 - DeepSeek曾通过从“效率”入手,进行算法与工程优化,实现了接近SOTA水平的性能,同时大幅压低成本,其提出的GRPO架构是对训练与推理效率的再设计 [14] - 公司的效率优势源于两方面:创始人早期量化交易积累的丰富英伟达GPU资源,以及大量依赖对一流模型的蒸馏结果 [14] - 公司通过直接优化PTX编程,对GPU执行层进行改写,从而实现了对AI算力基础设施的系统性重构,这是其实现“性价比”的关键 [14][15] - 这种深度绑定英伟达体系的路径,使其在过去被视为在重写一套更便宜的AI基础设施,但也成为当前转型的最大障碍 [12][15][19] 行业对比与公司定位 - 包括OpenAI和国内互联网大厂在内的公司,为避免被单一算力体系锁死,不会在底层过度依赖类似PTX的深度优化 [18] - DeepSeek过去因“极致性价比”、“算法创新”和“国产替代路径”等叙事被推至高位,被视为中国大模型体系中少数具备“自洽能力”的玩家 [11] - 公司过去被视为“例外”:用更少的钱做出接近SOTA的模型、拒绝融资、强调效率而非规模 [28][29] - 若公司寻求广泛VC融资并转向商业化,将需要考虑模型能力如何转化为收入,并可能站在与Kimi、MiniMax、智谱、阶跃星辰等公司竞争的同一梯队 [25][27][31]
AI Absorbs $242 Billion in Q1 Venture Funding, Exceeding All of 2025 Combined
Yahoo Finance· 2026-04-20 05:22
全球AI风险投资创纪录 - 2026年第一季度,人工智能领域吸引了约2420亿美元的风险投资,占当季全球初创企业总投资额的80% [1] - 当季全球风险投资总额达到约3000亿美元,涉及约6000家受资公司,创下历史纪录 [1] 巨额融资主导资金流向 - 四笔巨额交易占全球风险投资总额的65% [2] - OpenAI融资1220亿美元,Anthropic融资300亿美元,xAI融资200亿美元,Waymo融资160亿美元 [2] - 仅2026年第一季度的AI融资额就已超过2025年全年总和 [2] 基础设施扩张面临瓶颈 - 约一半计划于2026年在美国建设的AI数据中心已被推迟或取消 [5] - 变压器短缺、电网压力和供应链瓶颈限制了建设进度 [5] - 预计新增的12吉瓦容量中,仅约三分之一正在积极建设中 [5] AI代理进入职场应用 - Coinbase正在测试在Slack和电子邮件等平台中与人类员工协同工作的AI代理 [6] - Coinbase首席执行官暗示,公司未来拥有的AI代理数量可能超过人类员工 [6] 社会与政治影响引发讨论 - 关于AI生产力提升带来的社会分配问题引发政治辩论,有观点提出通过政府发放支票实现“普遍高收入” [7] - 有警告称AI公司计划在2026年中期选举中投入3亿美元资金 [7]
Here’s What TD Cowen Thinks About Tempus AI Inc (TEM) Stock
Yahoo Finance· 2026-04-20 04:50AI 处理中...
Tempus AI Inc (NASDAQ:TEM) is among the best medical AI stocks to buy now. Tempus has partnered with SoftBank, Gilead, and Merck on AI-driven drug development programs. Analysts are growing more confident in Tempus amid its expanding partnerships. On April 13, TD Cowen upgraded Tempus AI Inc (NASDAQ:TEM) to a Buy rating from Hold, though it lowered the price target to $65 from $70. TD Cowen analyst Dan Brennan pointed to the company’s strong fundamentals for the upgrade, though Brennan noted the stock has ...
US security agency is using Anthropic's Mythos despite blacklist, Axios reports
Reuters· 2026-04-20 02:12AI 处理中...
The United States National Security Agency is using Anthropic's Mythos Preview AI tool despite the Pentagon hitting the company with a formal supply-chain risk designation, Axios reported... ...
Sam Altman-Founded World Network Bottlenecked By Nvidia Chips: Tools For Humanity Executive Says, 'Once W
Benzinga· 2026-04-20 02:01
公司业务与产品 - World项目是一个去中心化身份验证项目 旨在区分真实人类与AI机器人 其通过名为Orb的专用设备收集包括虹膜在内的生物识别信息 [2] - 项目由Tools For Humanity公司主导开发 该公司由OpenAI首席执行官Sam Altman联合创立 [3] - 公司强调其目标并非取代国家身份证系统或驾照 而是作为一个更基础、更深刻的工具 以最高确定性证明用户是独一无二的人类而非机器人 [5] 产品生产与供应挑战 - Orb设备面临供应有限的制约 其使用了英伟达公司制造的芯片 设备“极其复杂” [2] - 公司正在快速生产 但全球数量仍然有限 制约了设备的广泛分发 [2] - 项目进入美国市场花费了很长时间 目前刚刚开始扩大规模 面临的不仅是监管问题 更是物流问题 [3] - 公司认为 一旦拥有大量Orb设备 就能进入更多地区 [3] 技术实现与数据安全 - 公司声称生物识别信息经过处理、加密后直接发送到用户手机 随后所有数据会从Orb设备的存储中删除 [4] - 公司表示该项目并非获取用户的生物识别信息 而是发明了一种允许使用生物识别技术而无需真正交出生物识别信息的方式 [4] 市场激励与代币表现 - 为鼓励用户验证其人类身份 项目会分发免费的加密货币WLD [6] - 截至报道时 WLD代币价格为0.3130美元 在过去24小时内上涨4.24% [6] - 自2024年初达到峰值以来 该代币价值已抹去97% [6]
Alibaba Just Launched New AI Models for Video Games. Does That Make BABA Stock a Buy?
Yahoo Finance· 2026-04-19 21:30
公司战略与AI业务进展 - 阿里巴巴集团控股有限公司已从在线零售巨头扩展为人工智能、数据基础设施和数字创新的主要参与者[1] - 公司正投入巨资以在人工智能竞赛中保持领先地位 并为此推出了用于开发视频游戏的新AI模型“Happy Oyster”[1] - “Happy Oyster”是一个“世界模型” 能够生成真实世界的3D模拟视频 其特点是无需提示即可连续聆听和响应 场景可实时适应和演化[2] - 该模型将阿里巴巴置于与游戏巨头腾讯控股有限公司的直接竞争之中[2] - 该模型出自“阿里巴巴通义Hub” 这是一个新部门 在CEO吴泳铭的领导下 整合了公司的AI研究(包括通义大语言模型系列)、面向消费者的应用程序及相关AI产品[3] 公司基本面与市场表现 - 阿里巴巴运营着全球最大的电子商务平台之一 通过广泛的数字平台连接买家、卖家、企业和服务提供商[3] - 公司总部位于香港铜锣湾 拥有巨大的市值 达3308.7亿美元[3] - 公司股票在过去52周内上涨了29.52% 但今年以来下跌了3.8%[4] - 尽管公司持续投资于AI和云业务 并在中国电商领域保持领先 但投资者似乎担忧其短期利润[4] - 公司股价在2025年10月曾达到52周高点192.67美元 但目前已从该水平下跌了26.8%[4] - 公司14日相对强弱指数为63.73 表明尽管近期遭抛售 但股票更接近超买区域而非超卖区域[5] - 基于前瞻性调整 公司的市盈率为24.87倍 高于行业平均的17.21倍[5][7] 近期财务表现 - 在12月季度 阿里巴巴收入同比增长2% 达到2848.4亿元人民币(按当前汇率计算为417.6亿美元)[8] - 该季度收入未达到市场分析师预期的2907.0亿元人民币(426.2亿美元)[8] - 公司在人工智能和快速商务方面的支出导致了利润下滑[8]
梁文锋的电话,被投资人打爆了
商业洞察· 2026-04-19 17:21
DeepSeek启动首次外部融资 - 中国大模型头部玩家DeepSeek正式启动成立以来的首次外部融资,目标估值不低于100亿美元,计划募集资金不少于3亿美元 [5] - 融资消息引发资本市场高度关注,投资人反应热烈 [6] 100亿美元估值逻辑与行业对标 - 100亿美元估值介于已上市的智谱AI(约68亿美元)和MiniMax(约137亿美元)的首日市值之间,但DeepSeek作为未盈利、未商业化的私募公司,此估值体现了投资人对技术实力和未来潜力的极高溢价 [8][10] - 全球范围内,OpenAI于2026年3月以8520亿美元估值完成1220亿美元融资,Anthropic于2026年2月以3800亿美元估值完成300亿美元G轮融资,DeepSeek的100亿美元估值相对较小,但在中国AI独角兽中已属高位 [9][11] DeepSeek的资金来源与创始人背景 - DeepSeek由量化私募巨头幻方量化于2023年孵化,创始人梁文锋同时执掌两家公司,并在DeepSeek直接和间接持有84.29%的股份,拥有几乎100%的表决权 [13] - 公司此前从未接受外部VC投资,创始人梁文锋曾因理念不合及自身资金充足而拒绝资本 [14][15][17] - 幻方量化2025年收益均值高达56.55%,按超700亿元管理规模计算,利润约350到400亿元,其2025年强劲表现可能带来超过7亿美元的收入,足以支撑早期研发 [16] 融资动因:研发成本飙升与行业变化 - 大模型烧钱速度呈指数级增长:DeepSeek V3训练成本预算为557万美元,而V4预计将达十亿美元级别 [19] - 2026年一季度,国内通用大模型融资额同比下滑72%,但资金向头部集中趋势明显 [19][34] - 中国日均Token调用量已突破140万亿,两年间增长了1000多倍,算力消耗进入爆发式增长期 [35] V4模型的技术挑战与延期原因 - DeepSeek V4预计在4月底亮相,参数规格跃升至约1万亿(MoE架构),上下文窗口扩展至100万token,并首次支持原生多模态,内部测试基准表现优秀 [21] - 模型发布多次延期,背后原因包括:技术路线质变导致工程复杂度提升;选择深度适配华为昇腾芯片以实现去英伟达化,代码迁移与精度对齐耗时;以及公司对“效率神话”品牌形象的压力 [22][23][24][25] - 这些技术挑战的本质均指向对更多资金的需求,以获取算力、工程师并加快调试进度 [26][27] 人才流失与股权激励问题 - 自2025年初以来,DeepSeek核心团队经历严重人才流失,多名关键贡献者转投小米、腾讯、字节跳动等大厂 [29] - 流失主因是公司未融资导致缺乏市场化估值,员工股权承诺无法兑现,而竞争对手能提供“现金+期权+IPO预期”的组合 [30][31] - 建立市场化股权激励机制需要先通过融资确定公司公允价值 [31] 行业竞争格局与资本重要性 - 全球大模型竞争已演变为资本之战,OpenAI和Anthropic以极高估值完成巨额融资 [33] - 国内赛道呈现“头部聚集、冷热分化”格局,阶跃星辰、智谱AI、MiniMax等公司获得大额融资或成功上市 [34] - 行业竞争从技术单点比拼演变为算力、人才、生态的综合较量,没有资本持续支撑难以长远发展 [36][39][40] 游戏规则转变与未来展望 - 过去DeepSeek以“效率神话”和低成本研发(如用557万美元做出R1模型)颠覆行业,但2026年游戏规则已变,参数规模和算力需求跃升至新量级 [38][39] - 行业正从“讲故事”转向“看业绩”,模型表现、商业化进展、算力自主进度将成为关键 [40][41] - 未来1-2年国内大模型赛道可能迎来新一轮洗牌,头部玩家估值将逐渐回归基本面,DeepSeek的首轮融资是这场洗牌的开始 [41]
投资界AI周报 | DeepSeek估值喊到800亿
投资界· 2026-04-19 17:05
行业融资动态 - 群核科技完成IPO,成为杭州六小龙中上市最快的公司,估值达350亿人民币 [3] - 它石智航完成Pre-A轮融资,金额达4.55亿美元,创下中国具身智能领域最大单笔融资纪录,投资方包括高瓴创投、红杉中国、美团龙珠等 [3][5][6] - 极佳视界完成B轮融资,金额近15亿人民币,投资方包括健瓴资本、普华资本、毅达资本等 [3][5][6] - 加速进化完成C轮融资,金额近10亿人民币,投资方包括北京高精尖产业基金、京国盛基金、华控基金、联想之星等 [5][6] - HiDream.ai完成B轮融资,金额超5亿人民币,投资方包括东方富海、安徽投资集团、合肥产投集团等 [5][6] - 不停科技完成B++轮融资,金额近5000万美元,投资方为长线资本、创世伙伴CCV [6][7] - 开源中国完成C+轮融资,金额为数亿人民币,投资方包括上海国投先导、中网投、君联资本等 [6][7] - xLean颗粒进化完成A轮融资,金额为数千万美元,投资方包括国际国方、华业天成资本、五源资本等 [6][7] - 庞伯特完成A++轮融资,金额近2亿人民币,投资方为神骐资本、蓝驰创投 [6][7] - 享刻智能完成A轮融资,金额为1.5亿人民币,投资方为九号机器人、东方私募基金、国晟资本 [6][7] - 源升智能完成Pre-A轮融资,金额过亿人民币,投资方包括达晨财智、春华资本、渶策资本等 [6][7] - 德塔智能完成天使轮融资,金额超亿人民币,投资方包括高瓴资本、乐聚机器人、智元机器人等 [6][7] - 蓝点触控完成C+轮融资,金额超亿人民币,投资方包括溥泉资本、智元机器人、银河通用机器人等 [6][7] - 龙虾出行完成天使轮融资,金额近亿元,投资方为多家知名机构与产业投资人 [5][7] - Creao AI完成新一轮融资,金额为千万级美元,投资方包括Prosperity7 Ventures、经纬创投、高瓴创投等 [6] - Elorian完成新一轮融资,金额为5500万美元,投资方包括Striker Venture Partners、Menlo Ventures、英伟达等 [6] 公司战略与市场动向 - DeepSeek正在首次洽谈外部资本,以增强财务资金,估值超过100亿美元(约800亿人民币) [9] - 微软加倍押注AI,计划采购3万块英伟达GPU [9] - 字节跳动回应“亿元年薪挖DeepSeek员工”传闻,称招聘的所有Seed团队技术人员薪资体系一致,包括现金、字节期权和豆包期权,期权四年期全部归属 [9][10] - 消息称DeepSeek核心研究员郭达雅正式入职字节跳动 [10] - 字节与荣耀合作“豆包手机”的细节尚未达成一致 [10] - 特斯拉拟在上海生产人形机器人 [16] - 小鹏汽车官宣AI机器人Iron将实现规模工业化量产 [16] - 全球首个具身智能工业产线规模落地 [16] - 宇树称仅H1一款机型参赛机器人半马 [16] - 高德将发布首款四足机器人 [16] - 追觅科技旗下AI视觉机器人品牌NAVO亮相广交会 [16] - 京东宣布推出“机器人救护车”并发布机器人产业服务全景图 [16] - 米哈游蔡浩宇AI公司首个视频模型曝光 [10] - 智谱AI在北京买楼,涉及金额4000亿人民币 [4] 技术与产品发布 - 腾讯正式发布并开源混元3D世界模型2.0 [16] - 阿里ATH事业群发布世界模型产品Happy Oyster [16] - 阿里通义实验室开源Qwen3.6-35B-A3B模型 [16] - Meta推出全新闭源多模态模型Muse Spark [16] - MiniMax发布全球首个云端自我进化AI助手MaxHermes [16] - MiniMax Agent桌面端更新,新增Pocket功能,支持接入飞书、微信等 [16] - Claude Opus 4.7深夜上线 [16] - OpenAI向部分用户发布Cyber模型,与Mythos展开竞争 [16] - 阶跃发布新一代语音生成模型StepAudio 2.5 TTS [16] - Seedance 2.0全面开放API服务 [16] - 英伟达推出面向量子计算的人工智能模型Ising [16] - 李飞飞世界模型新成果发布 [10] - 阿里ATH事业群发布首款AI开发工具秒悟 [16] - 腾讯轻量云独家上线Hermes Agent应用模板 [16] - Adobe推出可操作Claude的创意工具AI助手 [16] - 美团发布AI产品“小团健康管家” [16] - 快看漫画将研发多款AI应用,涉及AI角色互动等 [16] - 荣耀发布自研“龙虾AI智能体”YOYO [16] 政策与产业基金 - 广州组建人工智能产业投资基金,基金总规模200亿元,采用“母基金+直投基金”架构,首期计划设立3只直投基金 [15] - 福建省人工智能产业基金公开遴选基金管理机构,计划设立规模不超过3只基金,单只基金目标规模不低于10亿元,首期认缴规模不低于5亿元 [17] - 国家发改委表示,今年将重点在“人工智能+”基础设施等领域开展扩大有效投资行动 [17] - 湖北省发布《“人工智能+制造”专项行动实施方案》,旨在促进人工智能与制造业深度融合 [17] - 广州市优化营商环境措施三十条提出,加快场景培育和开放,实施新场景大规模应用示范行动,全域开放无人驾驶场景,打造50个政务超级智能体 [17] - 工信部2026年工业和信息化质量工作通知提出,深化人工智能赋能质量提升,组织编制重点行业“人工智能+质量”应用全景图和转型路线图 [18] 行业事件与风险 - 一个AI团队Yupp融资2亿后倒闭 [4] - 涉及120亿人民币的“最牛AI骗局”曝光 [4] - OpenAI CEO奥特曼遭遇死亡威胁,凌晨家中被投燃烧瓶 [10] - 英伟达否认“洽购大型PC制造商”传闻 [16] - 马斯克要求“光速”推进Terafab项目 [16]
有人把 Claude Mythos 的架构逆向出来了
深思SenseAI· 2026-04-19 15:13
文章核心观点 - 开源项目 OpenMythos 对 Anthropic 的 Claude Mythos 模型架构进行了推测性重建,其核心主张是 Claude Mythos 很可能是一个“循环深度变换器”架构 [5] - 该架构的核心特点是使用“循环块”和相同的权重进行多次循环计算,而非增加参数或层数,以此实现更深的推理深度和系统性泛化能力,并可能结合 MoE 技术来扩展知识广度 [6][8][20] - 这种架构在理论上能实现“隐式的链式思维”,在潜在空间内并行探索推理路径,并通过动态调整循环次数来优化计算效率,从而可能用更少的参数达到与传统大模型相当甚至更优的效果 [12][23][24] 模型架构推测 - **核心架构:循环深度变换器 (RDT)**:模型并非堆叠更多不同参数的层,而是将中间的一个“循环块”使用完全相同的权重重复运行 T 次,以此扩展推理深度 [6] - **三段式结构**:OpenMythos 实现的架构分为三部分:Prelude(标准 Transformer 层,运行一次)、Recurrent Block(循环块,运行 T 次)、Coda(解码输出)[11][13] - **循环机制关键细节**:在每次循环中都会重新注入由 Prelude 编码的原始输入,以防止隐藏状态在多次循环后偏离原始问题 [11] - **可能的宽度扩展:MoE集成**:推测循环块中的每个前馈网络层可能是稀疏的混合专家系统,每次循环可能激活不同的专家子集,结合循环提供的深度,共同提升模型能力 [20] 技术优势与特性 - **系统性泛化能力**:在训练分布之外的新组合问题上,模型不会像传统 Transformer 那样逐渐退化,而是可能在某个节点“突然”掌握,表现出三阶段的“顿悟”现象 [8] - **深度外推能力**:在更长推理链(如10跳)上的测试中,循环 Transformer 可能成功,而标准 Transformer 会失败,这对应了 Mythos 处理多步推理时无需显式思维链的观察 [9] - **隐式链式思维**:每次循环等价于思维链的一步,但发生在连续的潜在空间内,不输出中间 token,允许模型并行探索多条推理路径并逐渐收敛 [12] - **参数效率**:研究表明,一个 `770M` 参数的循环模型,可以达到 `1.3B` 参数固定深度模型同等的下游任务质量,参数量减少约 `40%` [7][23] 工程挑战与解决方案 - **训练稳定性**:循环深度变换器训练极不稳定,存在残差爆炸和损失突刺的风险 [14] - **稳定性解决方案**:采用 Parcae 研究的方法,通过将谱半径 ρ(A) < 1 的约束直接设计进参数化中(如使用负对角矩阵和 ZOH 离散化方案)来确保系统稳定 [15][17] - **过度思考问题**:循环次数并非越多越好,超过一定深度可能导致性能下降 [21] - **自适应停机机制**:推测模型可能集成类似“自适应计算时间”的机制,让模型动态决定每个位置所需的循环次数,对简单 token 早停,对复杂 token 多循环,以优化计算 [22] 规模律与影响 - **新的规模律**:研究指出,在固定的计算预算和参数量下,增加平均循环次数并减少训练 token 数量,可能比减少循环、增加数据的效果更好 [23] - **推理时规律**:更多循环带来质量提升,但收益呈饱和指数衰减,这与思维链的推理规模律相似 [23] - **对行业的影响**:该技术路径挑战了“更大模型=更强”的直觉,强调更高效地利用有限参数和动态调整推理计算量,可能提升部署时的吞吐量,对 AI 能力提升路径有重要含义 [24]
新一代记忆智能体框架MIA:让智能体告别「失忆式工作」,在持续进化中变强
机器之心· 2026-04-19 12:31
研究背景与问题 - 当前大多数智能体处于“失忆式工作”模式,每次检索从零开始,推理路径无法沉淀,失败无法转化为经验,难以在深度研究中持续变强[3] - 现有方法尝试基于历史方案生成规划,但受限于预训练范式,常出现“决策器”不擅长规划、“执行器”缺乏规划执行能力的问题,导致记忆增长但智能未提升[3] - 核心问题在于:是否存在将经验转化为能力的智能体记忆机制[4] 解决方案:MIA框架 - 上海创智学院与华东师范大学联合团队提出Memory Intelligence Agent (MIA),一个面向深度研究场景的新一代记忆智能体框架[4] - MIA构建了基于“Planner–Executor–Manager”架构的记忆系统:Planner是战术大脑,能制定并实时调整研究计划;Executor是执行专家,能解读并遵循复杂研究蓝图;Manager是终极管理员,优化记忆存储以消除冗余[6] - MIA的核心亮点在于:构建了从“逐次推理”到“可积累的研究闭环”的系统[8] 核心技术机制 - MIA作为持续运行的Planning–Execution–Memory闭环系统,在每次任务中经历:经验调用 → 协同推理 → 经验沉淀,并反哺后续决策[10] - **经验调用**:通过三维检索机制调用历史经验,包括语义相似度、价值奖励和频率奖励,并引入失败轨迹作为约束以避免重复错误[11] - **协同推理**:将推理解耦为Planner(拆解任务、生成步骤)与Executor(按步骤执行)的协作过程,通过Reflect–Replan形成反馈闭环,执行受阻时自动重规划[11] - **经验沉淀**:对两种记忆同时更新,包括压缩轨迹形成结构化非参数记忆,以及在线更新Planner参数将经验转化为参数记忆,实现从经验存储到能力内化的跃迁[13] 核心创新点 - 构建双记忆机制:非参数记忆负责沉淀经验,参数记忆负责吸收能力,二者相互转化形成持续进化闭环[12] - 提出Manager–Planner–Executor多智能体结构,将记忆管理、策略规划与任务执行解耦,并通过交替强化学习驱动Planner与Executor协同进化,将“会规划”和“会执行”对齐[12] - 引入面向开放世界的自进化机制,结合反思与无监督学习,让智能体在开放世界推理过程中持续修正策略、动态更新记忆,实现边做边学的在线进化[12] 训练与进化机制 - 采用两阶段交替强化学习:第一阶段固定Planner,训练Executor学会理解并严格执行规划;第二阶段固定Executor,训练Planner学习如何利用记忆生成更优计划及失败时的反思与重规划能力[14][21] - 在推理阶段引入测试时学习,使智能体能够持续进化,过程包括:执行推理任务生成多条候选路径,从成功与失败路径中提取非参数化记忆,基于成功路径在线更新参数化记忆[14] - 提出无监督的自进化评估机制,用“过程质量”替代“结果标签”,只要推理严谨、证据可靠、结论合理,即使没有标准答案也可作为有效学习信号[15][16] 评估机制 - 受学术评审启发,将对结果的判断拆分为多个“专家视角”,包括:逻辑评审员检查推理链条是否自洽、事实评审员验证信息来源及是否存在幻觉、结果评审员评估任务是否真正完成[17][22] - 最终由一个“领域主席”进行综合决策并给出整体判断,为MIA提供稳定的优化信号,助力实时进化[17] 实验性能与成果 - 在多项文本与多模态深度研究任务中,MIA显著提升了智能体的稳定性与效率[19] - 在LiveVQA(多模态在线搜索)与HotpotQA(纯文本沙盒搜索)对比实验中,MIA显著提升了现有最先进LLMs(GPT-5.4, Gemini-3-Flash, claude-sonnet-4.6)在调用搜索工具下的表现[26] - 基于Qwen-2.5-VL-7B执行器的MIA模型在7个核心数据集上表现卓越,超越了在不调用工具下的GPT-5.4、GPT-4o和Gemini-2.5-Pro,逼近了Gemini-3-Flash[26] - 在与当前先进智能体记忆方法的横向评测中,MIA在7个数据集上均取得最佳性能表现[26] - 具体数据表现:在In-Domain的FVOA-test数据集上,MIA达到69.6分,高于No Memory的61.4分、RAG的60.5分及Memento的66.3分;在Out-of-Domain的LiveVOA数据集上,MIA达到43.1分,显著高于其他对比方法[23] 总结与行业意义 - MIA的出现传递了清晰信号:决定智能体上限的不再仅仅是接入外部工具的数量,而是其能否在每次交互中将繁杂的“过程信息”压缩为精炼的“执行本能”[25] - 智能体记忆的目标不应只是记住“结果是什么”,而应是学会“该怎么做”[25] - 该研究论文已在X平台被DAIR.AI创始人、拥有30万粉丝的AI论文分享博主Elvis Saravia转发并获高度评价,同时入选Hugging Face Daily Papers榜单[7]