MUSE
搜索文档
阿里妈妈发布MUSE:用多模态搞定十万级超长行为序列,并开源Taobao-MM数据集
机器之心· 2025-12-16 12:11
文章核心观点 - 阿里妈妈与武汉大学团队提出了一种名为MUSE的新型多模态搜索框架,旨在解决推荐系统对用户超长历史行为序列(如10万至百万级)建模能力不足的问题,通过利用图像和文本等多模态信息,系统性提升终身用户兴趣建模的质量与可用长度 [1][4][6] - MUSE框架已在阿里妈妈展示广告精排模型中全量上线,实现了对10万长度用户原始行为序列的建模能力,并在线上A/B实验中带来了显著的CTR提升(+12.6%)和业务收益(RPM +5.1%, ROI +11.4%) [6][36] - 该工作不仅提出了创新的算法与工程协同设计,还开源了首个包含“长行为序列+高质量多模态embedding”的大规模公开数据集Taobao-MM,以推动业界和学界在相关方向的研究 [1][6][41] 技术背景与问题 - 当前主流CTR建模,特别是以SIM/TWIN为代表的两阶段长期行为建模框架,虽将可用历史行为长度扩展至万级别,但收益边际提升已变得困难,尤其在检索精度受限时,序列从万级往上扩展效果提升会明显趋缓 [2] - 用户行为序列极长(在淘宝中轻松达到百万级),但受限于在线延迟、存储和算力,实际部署模型通常只能使用最近几千条行为,或进行粗粒度截断 [3] - 现有ID-based建模方法存在局限:长尾和过期item的ID embedding质量不佳,而它们在“终身历史”中占比很高;模型主要学习“ID共现关系”,而非用户真实的内容兴趣 [3][15] MUSE框架核心洞察与设计 - **核心设计原则**:GSU(通用搜索单元)应保持“简单”,而ESU(精确搜索单元)需要“丰富+融合” [12] - **对GSU的洞察**:在有高质量多模态embedding的前提下,GSU只需要一个轻量的余弦(cosine)相似度检索就足够好,复杂的检索结构收益低且不具性价比 [17] - **对ESU的洞察**:多模态序列建模与ID融合非常关键,ESU对多模态embedding的质量极其敏感,远高于GSU [18][19] - **表征预训练**:底层采用SCL多模态预训练,通过结合用户真实“搜索-购买”行为进行对比学习,使得到的embedding同时具备内容语义和行为相关性 [23] MUSE框架技术详解 - **多模态GSU**:使用SCL embedding进行简单的余弦相似度计算和Top-K检索,从用户10⁵~10⁶级历史行为中筛选出最相关的几十条,过程高效且无复杂Attention [24][26] - **多模态增强ESU**:采用SimTier与SA-TA双路并行建模 [25] - **SimTier路径**:将目标item与历史行为的多模态相似度序列压缩为一个“相似度直方图”,形成紧凑的语义兴趣分布向量,计算开销极小 [26][33] - **SA-TA路径**:在标准的ID-based Target Attention基础上,融合多模态余弦相似度及其与ID打分的交互项,形成最终的attention score,以缓解长尾item打分失真问题 [27][28][30] - **最终输出**:SimTier输出的多模态兴趣向量与SA-TA输出的ID兴趣向量拼接,作为“终身兴趣表示”输入给上层CTR模型 [30] 工程落地与性能 - **延迟控制关键**:将GSU从Ranking关键路径中剥离,进行异步预取,其延迟被Matching阶段遮蔽,从而在引入10万行为序列和多模态信息的同时不增加在线延迟 [32][35] - **具体两阶段设计**: 1. Pre-fetching阶段:与Matching并行,从远端存储拉取用户100K行为的多模态embedding并缓存至GPU显存 [36][42] 2. 相似度计算与Top-K选择阶段:在Ranking前快速计算相似度,得到Top-K行为ID和相似度序列供ESU使用,计算量小且可与特征处理并行 [36][42] - **效果验证**:线上A/B实验显示,相比仅使用5K长度行为的ID-only基线(SIM),MUSE(行为长度100K)带来CTR提升12.6%、RPM提升5.1%、ROI提升11.4% [36] - **离线消融实验**:序列越长,MUSE带来的收益越大;多模态增强ESU在所有长度上都显著优于ID-only ESU,且长度越长优势越明显 [36] 对业界的启发与可复制经验 - **GSU优化**:优先学习高质量的item图文embedding,并用多模态余弦检索替代GSU的ID-only检索,这是性价比最高的第一步,无需在GSU阶段设计复杂结构 [38] - **ESU增强**:将多模态信息引入ESU是关键,可逐步推进:引入轻量的“相似度直方图”模块(如SimTier);在现有DIN/TWIN的attention中融入多模态相似度作为辅助打分(类似SA-TA) [38] - **工程架构**:解决超长序列和多模态引入的I/O瓶颈是重点,可借鉴MUSE模板:将GSU抽成独立服务与Matching异步并行;将embedding就近缓存;确保Ranking阶段计算轻量 [39] - **落地路线**:对于拥有长行为日志(>> 万条)、丰富内容特征且ID-only模型收益见顶的业务,可先提升表征质量,用多模态支撑GSU检索,再在ESU中融合多模态信号,作为“轻量版MUSE”的起点 [46] 开源数据集Taobao-MM - **数据集价值**:这是首个同时具备“长行为序列+高质量多模态embedding”的大规模公开数据集,旨在支持“长序列 × 多模态”方向的研究,减少业界和学界自建数据的成本 [41][44] - **主要特点**:用户行为序列最长1K(开源版,内部实验支持100K);提供128维SCL多模态embedding;数据规模约1亿样本、近900万用户、3500万级item [43]
AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架
量子位· 2025-10-22 07:50
MUSE框架核心创新 - 提出全新的智能体框架MUSE,旨在解决现有LLM智能体在处理现实世界长程任务时无法积累经验和持续自我进化的核心挑战[1] - 核心理念是为LLM智能体构建经验驱动、自我演化的闭环系统,通过测试时学习范式解决静态参数、无法进化、长程任务三大痛点[5] - 框架围绕分层记忆模块展开,实现规划→执行→反思→提取经验的四步闭环循环,使智能体性能随经验积累持续提高[13][15] 分层记忆模块设计 - 引入分层记忆模块作为大脑中枢,组织不同层级经验以解决传统LLM智能体缺乏长期记忆的问题[7] - Strategic Memory保存困境-策略对,全局加载到系统提示指导宏观行为范式[7] - Procedural Memory按应用→SOP索引→详细步骤三级组织,将成功子任务轨迹实时沉淀为自然语言标准作业程序[7] - Tool Memory包含静态描述和动态指令双组件,为每个基础工具提供肌肉记忆并在使用后立即更新[8] 自主反思机制 - 在每完成一个子任务后,智能体会自主对执行轨迹进行反思,评估任务成功或失败[10] - 将原始执行轨迹自动转化为结构化经验,成功时提炼高效操作序列作为新SOP[11] - 具备第二次机会机制,第一次尝试失败可重试一次,再次失败才触发重新规划[12] 实验性能表现 - 在专为长期生产力任务设计的TAC基准测试上取得SOTA性能,指标首次突破50%大关达到51.78%[16] - 仅使用轻量级Gemini-2.5 Flash模型就击败了使用更大模型Claude Sonnet 4的现有SOTA方法[16] - 面对重复任务时表现持续改进,展示出熟能生巧的能力[19] 泛化与迁移能力 - 积累的经验具备强大泛化特性,在全新未见任务上能实现零样本改进[21] - 经验可迁移性显著,将闭源模型经验迁移到开源模型DeepSeek-V3后,使其在一众开源模型中成为SOTA[22] - DeepSeek-V3使用MUSE带记忆框架后,检查点通过率从34.12%提升至50.59%[23] 实际应用演示 - 在模拟人类项目经理管理公司项目issue的演示中,MUSE能在包括GitLab、Plane在内的多个软件平台来回跳转操作,无需人类介入完成复杂任务[3] - 智能体可创建多人聊天群组,同时向三位同事询问信息,显著简化信息收集流程[24] - 能够跨越多个平台依次与同事沟通,执行超过100个步骤圆满完成复杂任务[26] 技术开源与未来方向 - MUSE的论文与代码已经完成开源[4] - 未来研究方向包括引入人类反馈和人类示范集成到记忆系统中,加速AI智能体学习效率[29] - 需要优化经验检索效率,确保新旧知识无缝整合,实现真正的终身持续学习[30] - 需创建更全面的长期任务评估基准,多维度考察智能体记忆保留能力、技能迁移能力和主动决策能力[31]
NWTN(NWTN) - Prospectus(update)
2025-09-23 19:45
股权结构与交易 - 出售股东拟出售最多295,145,910股B类普通股,占2025年9月22日已发行和流通普通股总数约87.4%[11][13] - 截至2025年9月22日,公司董事会执行主席间接持有36,350,011股A类普通股和172,427股B类普通股,占总投票权约75.1%[17] - PIPE将向PIPE投资者发行最多38,986,354股B类普通股[45] - East Stone向I - Bankers和EarlyBird发行690,000份认股权证,业务合并完成后转换为Robo.ai Inc.的认股权证[49] - 业务合并后,ICONIQ的A类普通股转换为公司3271.501万股A类普通股,B类普通股转换为2.07314707亿股B类普通股[108] - PIPE投资者以每股10.26美元的价格购买3898.6354万股B类普通股,总购买价4亿美元[110] 合资与收购 - 2025年9月19日公司附属公司与JW签订合资协议,成立RJ Investment L.L.C. - FZ,Robo Investments持股51%,JW持股49%[59][60] - 公司于2025年9月18日与Mobius等签订协议,以829万美元(5181250股每股1.6美元的B类普通股)购买aitos 1745股普通股,占已发行和流通股的16.58%,还将向核心团队发行6000000股B类普通股作为激励[68] - 公司与JW、Ferox成立合资公司,公司持股51%,JW和Ferox各持股24.5%[71] - 公司于2025年与Astra相关方签订协议,发行15000000股每股1美元的B类普通股交换Astra全部股权[76] - 公司与EVT合作成立合资公司,公司持股51%,EVT持股49%[83] - 公司与JW International LLC - FZ达成协议,JW将贡献资产,公司将发行1000万股B类受限普通股,每股价格1.41美元[92] - 公司与W Motors成立合资公司,公司持股51%,W Motors持股49%[99] 产品研发 - 2019年公司与W Motors联合推出Seven SPV,2022年将其概念转化为MUSE[58] - MUSE计划有1.42米高的进出通道等先进特征[58] - 公司计划2027年开始量产首款全尺寸SPV MUSE,2025年底量产特种车辆和自主物流车[184] 财务业绩 - 2023年和2022年公司分别产生约1.38亿美元和约1.78亿美元的重大经常性经营亏损和经营活动负现金流[159] - 2024年公司实现净现金流入3360万美元,但现金及现金等价物从2023年底的2320万美元大幅降至2024年底的约10万美元[159] - 截至2024年12月31日,公司累计亏损约7.37亿美元,而2023年底为5.645亿美元[159] - 公司2024年、2023年和2022年的综合亏损分别为1.725亿美元、2.682亿美元和4060万美元[164] 风险与挑战 - 公司主要产品Rabdan品牌汽车生产线停产,对公司业务、财务状况、经营成果和前景产生重大不利影响[127] - 公司在财务报告内部控制方面存在重大缺陷,可能无法及时准确报告财务结果[127] - 公司开展业务面临中国大陆法律法规复杂多变,以及政府监督干预等风险,可能对业务和证券价值产生重大不利影响[117] - 美国关税及贸易政策变化可能对公司业务造成负面影响,但因公司目标市场为迪拜和中东,影响有限[165][166][167][168] - 自2025年4月4日起,中国对稀土元素和钕铁硼磁铁的出口限制可能影响公司电动汽车关键部件采购,导致生产线停产、成本增加和竞争力下降[169] - 俄乌冲突和中东、西南亚地区冲突导致的全球地缘政治局势可能对公司业务造成负面影响[171] - 公司申请政府补助、贷款和其他激励措施存在不确定性,若无法成功获得,可能对业务产生重大不利影响[175] - 负面宣传或安全问题可能损害公司品牌和声誉,对业务造成不利影响[176] - 公司依赖第三方制造商和技术合作伙伴,与其关系的不利变化可能对业务产生重大不利影响[177] - 公司供应链依赖供应商,供应中断或短缺会影响生产交付及业务运营[180] - 电动汽车市场发展影响公司业务,其受消费者认知、技术、政策等多因素影响[185] - 全球乘用车市场竞争激烈,公司面临多类竞争对手,未来竞争或加剧[187] - 政府政策变化,如对新能源汽车分类和牌照政策,会影响公司业务[191] - 替代技术发展或内燃机改进,可能影响公司电动汽车需求[193] - 公司车辆有自动驾驶功能,可能面临产品责任或保修索赔,增加成本和声誉风险[194] - 公司车辆使用锂电池,电池安全事故会导致诉讼、召回等问题[195] - 公司开发的自动驾驶技术依赖软硬件,软硬件问题会影响业务和财务状况[197] 其他 - 中国大陆子公司分配股息需先转给香港子公司,再由公司分配给股东,跨境资金转移需合法合规[21] - 中国大陆外商投资企业需至少提取10%税后利润作为一般储备,直至储备累计金额达到注册资本的50%,弥补以前年度亏损后可分配累积利润[21] - 2021年12月16日,PCAOB通知SEC无法对中国大陆和香港的注册会计师事务所进行全面检查和调查,若SEC认定公司连续两年提交未经PCAOB检查的审计报告,将禁止公司普通股在美国证券交易所或场外交易市场交易[23] - 招股说明书中关于公司行业和运营地区的信息,包括市场规模、机会和份额等,基于行业出版物、报告和预测,未独立验证,存在不确定性和局限性[36] - 招股说明书包含前瞻性陈述,基于管理层的信念、期望、假设和现有数据,不保证未来表现,受多种风险和不确定因素影响[40] - 公司董事及高级职员责任险于2023年11月到期,2024年12月购买新保单且有条件追溯生效[199]
同行评审濒临崩溃,一篇审稿报告450美元?科学家不再愿意「用爱发电」
36氪· 2025-09-01 15:54
同行评审系统面临的挑战 - 学术论文和项目申请数量激增,导致评审专家不堪重负,系统压力巨大 [5][8] - 系统压力导致研究质量下滑,低劣甚至错误的研究得以发表,同时创新想法可能被埋没 [5] - 同行评审制度本身长期被批评效率低下、存在小团体主义和偏见 [5] 同行评审制度的历史与现状 - 现代同行评审模式在20世纪60至70年代才普及,此前评审方式不规范 [10] - 随着政府科研投入增加,论文数量激增,促使期刊编辑转向外部评审 [10] - 当前系统面临稿件太多而审稿人太少的危机,2024年调查显示约一半受访者过去三年收到的审稿邀请变多 [10] 激励评审专家的尝试 - 非金钱激励措施包括公开展示审稿周期、为高产审稿人设奖,但效果有限或有反作用 [14] - Springer Nature调查显示70%的科学家希望同行评审工作被纳入业绩评估,但目前仅50%的机构这样做 [14] - 付费审稿引发持续辩论,支持方认为是对劳动价值的公平体现,2020年全球审稿人无偿工作超1亿小时,价值数十亿美元 [15] - 反对方警告付费可能带来利益冲突和不良激励,且审稿本被视为带薪工作的一部分 [15] 付费审稿的实验结果 - 《重症监护医学》期刊每份审稿报告支付250美元,邀请接受率从48%微升至53%,审稿周期从12天略缩短至11天,但缺乏资金长期维持 [21] - 《生物学开放》期刊每份审稿报告支付220英镑,要求4天内回复,稿件平均处理周期从38天大幅缩短至4.6个工作日,审稿质量得到保证 [22][24][25] - 德国大众基金会为评审专家提供近1000欧元/天的报酬,但仍难以找到合适的评审人 [27][28] 评审模式的创新改革 - 欧洲南方天文台采用“申请者互评”模式,将评审工作下放给申请者,以解决劳动力短缺问题 [3] - 英国资助机构试验显示,分布式同行评审模式可将评审速度比传统流程快一倍,并通过分组设计避免利益冲突 [30] - 联合评审模式让资深学者与青年研究人员结对,既能引入新力量又能培训新人 [34][35] 提升评审质量与效率的方法 - 结构化同行评审要求评审人回答具体问题,爱思唯尔试点显示评审人一致性从31%提升至41%,并有助于暴露评审人知识短板 [38][40] - 提升透明度措施包括公布评审报告和鼓励评审人署名,支持者认为此举可提升评审报告地位和质量 [41][42] - 根本解决方案在于扩大评审专家队伍,打破资深学术专家小圈子的局限 [31][33]
NWTN(NWTN) - Prospectus
2025-08-29 19:35
股权结构与交易 - 出售股东可出售多达294,855,501股B类普通股,占截至2025年8月25日已发行和流通普通股总数约87.5%[10][12] - 执行董事长Alan Nan Wu间接持有36,350,011股A类普通股和172,427股B类普通股,占公司总发行和流通股本总投票权约75.2%[15] - PIPE将向PIPE投资者发行最多38,986,354股B类普通股[43] - East Stone向I - Bankers和EarlyBird发行690,000份认股权证,业务合并完成后转换为Robo.ai的认股权证[47] 股票发行与交易 - 2022年11月14日,按每股10.26美元向ICONIC INVESTMENT ONE SPV RSC LTD发行30,709,249股B类普通股[10] - 2022年11月14日,按每股约10.26美元向ZHEJIANG JINHUA JINYI NEW DISTRICT DEVELOPMENT GROUP CO., LTD发行19,493,177股B类普通股[10] - 2025年8月5日,按每股0.405美元向Zhengjian SHI和Zhu LI发行1,851,852股B类普通股[10] - 2025年8月28日,B类普通股在纳斯达克的收盘价为1.37美元[14] 业务合作与并购 - 2025年8月8日,公司与JW International LLC - FZ签订资产贡献与股份发行协议,JW贡献相关资产,公司以每股1.41美元向其发行10,000,000股受限B类普通股[57] - 2025年1月14日,公司与W Motors签订合资协议成立合资公司,Robo.ai持有51%股权,W Motors持有49%股权,双方均贡献价值1亿美元资产[62][63] 业绩情况 - 2023年和2022年,公司经营活动产生的负现金流分别约为1.38亿美元和1.78亿美元,2024年实现净现金流入3360万美元[119] - 截至2024年12月31日,公司现金及现金等价物从2023年的2320万美元降至约10万美元,累计亏损约7.37亿美元,2023年为5.645亿美元[119] - 2024年、2023年和2022年,公司综合亏损分别为1.725亿美元、2.682亿美元和4060万美元[124] 产品研发与规划 - 公司已推迟超级跑车和ADA中型紧凑型SPV车型的研发,计划转向阿联酋的自主物流车和特种车领域[111] - 公司计划2027年量产首款全尺寸SPV MUSE,2025年底量产特种车辆和自动驾驶物流车[144] 风险因素 - 公司业务受中国大陆复杂法律法规影响,政府可能监督干预,影响运营和证券价值[20] - 若PCAOB未来无法检查中国大陆和香港会计师事务所,公司使用其审计报告可能面临交易禁令[22] - 国际贸易政策、关税等变化可能对公司业务产生重大不利影响[125] - 中国出口限制影响稀土元素和钕铁硼磁铁供应,或影响公司电动汽车业务[129] - 地缘政治冲突可能引发市场动荡、供应链中断和网络攻击,影响公司业务[131] - 公司依赖外部融资,无法保证获得足够资金[120] - 客户取消或延迟订单,公司未来现金流可能为负[124] - 公司在财务报告内部控制方面存在重大缺陷[112][116] - 公司研发投入大,结果不确定[164] - 公司增长战略依赖多因素,可能稀释收益且无法保证效益[161] - 公司车辆使用锂电池,电池安全事故可能导致诉讼和声誉受损[155] - 信息技术系统易受攻击,影响公司运营和客户使用[167] - 公司可能面临知识产权侵权索赔[170][172][178] - 公司依赖第三方技术,无法获取使用权将影响业务[177][179] - 公司高度依赖高级管理团队,人员流失会影响业务[181] - 公司车辆需符合安全标准,不达标影响业务[186] - 公司需遵守反贿赂等法律,违规面临罚款和声誉损害[187] - 公司国际业务面临监管、政治等风险[191] - 阿联酋法律制度不确定性及法规变化或对公司业务不利[194] - 若无法与W Motors达成协议,公司可能增加费用和时间成本[196]