Workflow
量子位
icon
搜索文档
谷歌Agent杀入电商赛道:AI直接帮忙比价下单,马斯克:有意思
量子位· 2026-01-13 19:36
文章核心观点 - 电商行业正经历从传统“搜索-浏览-购买”流程向“AI智能体(AI Agent)驱动”的全流程变革,谷歌通过发布UCP协议和Gemini CX解决方案,引领了“Agentic电商”的新范式[1][2][3] - 谷歌的解决方案旨在通过AI Agent无缝贯穿购物全流程,实现无需跳转页面的商品发现、比价、领券、下单和售后,极大简化用户操作[3][4][10][14][15] - 中国电商平台如阿里巴巴、京东、抖音也已积极布局生成式AI和AI智能体,应用于搜索推荐、商家运营、直播和购物入口重塑,表明“AI+电商”已成为行业明确趋势[31][32][33][34] 谷歌发布UCP协议 - 谷歌发布名为“通用商业协议(UCP)”的开放协议,专为Agentic电商设计,旨在让AI Agent、商家和电商平台协同工作,覆盖从商品发现到售后的全过程[9][10] - UCP协议将集成到谷歌搜索的AI模式和Gemini应用中,用户可通过对话框直接提出需求,Agent自动调用UCP查询并推荐商品,确认后通过UCP接口调用商家API并使用Google Pay完成支付,全程无需跳转网页[11][12][13][14] - 该协议能自动为用户领取优惠券,确保以最低价购买[15] - UCP初始版本聚焦三大核心功能:1)**结账**:支持复杂购物车逻辑、动态定价(如会员价、实时折扣)和跨境税务计算;2)**身份链接**:使代理平台能合法获取用户授权以代为操作;3)**订单**:提供订单明细、配送更新及退换货处理[16][18][20] - UCP与现有行业协议(如A2A、AP2、MCP)兼容,并已接入沃尔玛、Shopify、Visa等零售商和支付平台[21] - 谷歌后续计划推出“Business Agent”,让用户能在搜索中直接与品牌对话,获取商品详细信息[24] 谷歌推出Gemini CX企业解决方案 - 谷歌面向企业端推出“Gemini Enterprise for Customer Experience(Gemini CX)”,整合其最新的Gemini模型与技术,帮助企业快速部署AI Agent,覆盖客户服务全生命周期[25] - 该方案内置全新的“Shopping agent”,不同于简单聊天机器人,它能将聊天、语音等前端界面直接连接到后端工具,并将零售过程中的碎片化需求统一到一个平台,减轻商家对接多工具的负担[27][28] - Gemini CX支持智能购物协助、商务运营、自动客服机器人等多种Agentic场景,并可集成到企业自有系统中[29] - 目前麦当劳、The Home Depot等企业已落地使用该方案以优化客户服务[30] 中国电商平台的AI智能体进展 - **阿里巴巴**:在双十一期间大规模应用生成式AI,基于Qwen模型升级搜索推荐引擎,并利用AI驱动机制派发优惠券;同时为商家打造AI团队,提供AI美工制作营销素材、AI生意参谋提供动态定价和库存优化建议[32][33];旗下1688平台发布跨境电商AI智能体“遨虾”,以“AI+供应链”为核心,协助商家完成选品、采购、上架全流程[33] - **京东**:在双十一期间向商家开放数字人直播等二十多款AI工具,涵盖店铺管理、营销推广等多个维度[34] - **抖音**:基于豆包大模型重塑电商入口,用户可在对话窗口询问购物问题,AI能精准匹配商品并提供跳转至抖音商城的链接,直接缩短购买路径[34] AI智能体电商的核心能力 - **复杂推理能力**:AI不仅能根据关键词筛选商品,还能理解用户更细致的需求(如尺寸、耐用性、预算等),并自动筛选最符合条件的产品[36] - **多模态交互**:支持文字、语音、图像、视频等多模态输入,例如用户拍摄手写菜谱照片,AI能识别所需食材并自动加入购物车[36] - **执行授权操作**:在获得用户明确授权后,AI能直接为用户执行加入购物车、付费结账等操作[36]
王小川:30亿现金在手,明年IPO,toC产品马上就发
量子位· 2026-01-13 19:36
公司战略与定位 - 公司明确深耕医疗AI单一主线,不涉足金融、娱乐等其他领域[1] - 公司自成立起便确立长期目标:未来二十年致力于生命科学与医学发展,核心路径是构建生命健康数学模型[4] - 公司账上约有30亿元人民币资金,足以支持其在选定赛道持续投入[3] - 公司预计在2027年启动IPO上市[6] 产品与技术路线图 - 公司计划于今年上半年陆续发布两款面向消费者(to C)的医疗产品,初期免费,后续按模块引入付费能力,重点服务于患者辅助决策与居家健康看护场景[10] - 产品理念覆盖全病种,但明确将儿科和肿瘤作为第一步重点领域[31] - 公司已与北京儿童医院和中国医学科学院肿瘤医院合作,推进真实场景验证[32] - 公司强调其产品是“严肃医疗”,聚焦“院外需求”,不会越界提供诊断或处方,主要功能是帮助用户理解信息、整理症状并明确下一步行动[29] 新一代医疗大模型Baichuan-M3的核心能力 - 在OpenAI医疗AI评测HealthBench上,Baichuan-M3以65.1分位列第一[2] - 在不依赖工具或检索增强的纯模型设置下,其医疗幻觉率降至3.5%,达到当前世界最低水平[2] - 模型具备突出的端到端问诊能力,能保持问诊过程的连续性[9][22] - 公司强调其能力是“原生的、端到端的严肃问诊能力”,与通过提示词(prompt)让通用大模型扮演医生有本质区别[23] Baichuan-M3的关键技术创新 - 公司约80%的算力投入到强化学习相关训练,M3是该训练策略下的成果[8][12] - 训练核心采用“fact-aware的强化学习”,在训练阶段解决幻觉问题,而非依赖后期工具链兜底[13][14] - 重新定义训练中的“错误”:对看似合理但缺乏事实依据的医疗判断进行明确惩罚,同时不压缩模型在推理中的探索空间[15] - 实现三项关键算法调整:1) 使强化学习中的“医生评价模型”能随主模型迭代,避免能力天花板[20];2) 在模型内部完成幻觉压制,无需依赖外部工具打断问诊[22];3) 改造算法结构以适配医疗长对话,保持多轮对话中的目标一致性[23] 对行业与市场的判断 - 公司认为近期备受关注的AI大模型企业上市主要基于通用模型技术红利和政策支持,而医疗AI的成熟会晚一点,预计还有一两年时间[5] - 公司指出国内医疗存在四个结构性不足:医生数量与需求不匹配、医患信息高度不对等、缺乏家庭医生体系导致病人涌向三甲医院、医学本身存在认知盲区[25] - 公司相信未来真正的医疗增量不在医院内,医院更多承担执行功能,而影响患者路径的关键决策往往发生在更早的院外阶段[28][29] - 公司产品定位与市面上众多的泛健康医疗AI产品不同[11]
把RoPE扔掉,AI更能看懂长上下文!Transformer作者团队开源大模型预训练新方法
量子位· 2026-01-13 17:50
技术核心:DroPE方法 - 针对Transformer模型处理长文本的难题,由核心作者Llion Jones领导的团队开源了名为DroPE的新技术[1] - 该方法无需昂贵的长上下文训练,即可实现无缝的零样本上下文扩展[2] - 使用DroPE对模型进行重新校准所需的预训练预算不到1%[2] - DroPE可被理解为一种通过丢弃位置嵌入来扩展上下文的方法,被网友称为“NoRoPE”[4][5] 技术原理:位置嵌入与创新 - Transformer的自注意力机制在并行计算时会丢失文本序列的位置关系[6][7] - 为解决此问题引入了位置嵌入,其中RoPE是当前流行的方法,但它存在长序列处理缺陷[9][10] - DroPE的创新在于将RoPE作为临时训练工具:在预训练阶段借助RoPE保证稳定性,在推理阶段则丢弃位置嵌入并进行简短重校准[12][13][14] - 该方法成功解锁了模型的长上下文外推能力,实现了零样本扩展[15][16] 实验验证与性能表现 - 研究团队在多种模型上进行了实验,包括5M参数模型、SmolLM家族模型以及7B参数的Llama2-7B[17] - 在LongBench基准测试中,DroPE将基础SmolLM的平均得分提高了10倍以上[18] - 在NIAH任务评估中,DroPE模型的召回率达到74.92%,大幅超越传统RoPE缩放方法[19] - 具体数据:SmolLM-DroPE在MultiFieldQA、MuSiQue、GovReport、LCC、NIAH任务上的得分分别为29.33、7.93、21.87、18.56、74.92,平均分为30.52,显著高于其他方法[19] - 在Llama2-7B模型上,仅使用0.5%的预训练预算进行重校准后,DroPE在多项任务中表现卓越,平均得分达26.08,优于Base、RoPE-NTK和YaRN方法[23] 研发团队:Sakana AI - DroPE技术由Sakana AI团队提出,该公司由Transformer架构作者之一的Llion Jones和前谷歌高级科学家David Ha创办[24] - 该公司此前因创造出首个自带10篇完整学术论文的“AI科学家”而受到关注,并获得英伟达的投资[26] - 团队近期还与MIT合作提出了“数字红皇后”算法,利用大语言模型在编程游戏中实现对抗性程序进化,显示出在网络安全、药物设计等领域的潜在应用价值[28][31][32]
苹果AI自研不动,库克外包给谷歌Gemini了
量子位· 2026-01-13 17:50
苹果与谷歌达成AI深度合作 - 苹果与谷歌发布联合声明,官宣达成深度合作协议,将基于谷歌的Gemini模型和云技术构建下一代苹果基础模型 [2] - 合作成果之一是“更个性化的Siri”,预计将在2026年年内上线 [3] - 外界预估苹果每年可能向谷歌支付约10亿美元的授权费用 [7] 合作细节与影响 - Gemini将为苹果新版Siri乃至更广泛的Apple Intelligence提供底层技术支持,运行模式采用苹果私有云+端侧结合的方式 [6] - 合作将使Gemini成为构建未来Apple Foundation Models的核心基础 [7] - 基于Gemini的新版Siri预计将在2026年春季通过iOS 26.4向用户推送 [8] - 消息公布后,两家公司股价齐声上涨,谷歌的市值首次突破4万亿美元关口 [4] 苹果AI的合作伙伴选择过程 - 在选择谷歌之前,苹果曾与多家AI模型公司展开接触,包括OpenAI、Anthropic和Perplexity [10] - 2024年,苹果已与OpenAI合作,将ChatGPT集成进写作和问答工具 [10] - 苹果内部曾评估Claude在对话安全性上的优势,以及Perplexity的问答能力,但最终出于模型整合性、部署灵活性和合作框架等多方面考量选择了谷歌Gemini [10] - 成本是另一个考量因素,有爆料称苹果内部测试结果最好的模型是Claude,但因报价太贵最终未被选中 [11] 苹果AI的发展历程与挑战 - 2024年6月,苹果在WWDC上首次发布Apple Intelligence,计划部分功能于同年秋季通过iOS 18等系统推送Beta版本 [18] - 2024年9月iOS 18正式版上线时,Apple Intelligence并未大规模推送,新Siri也未包含其中,仅上线了部分功能 [19] - 2025年,有消息称因内部验收流程未通过,苹果Siri的AI升级将延期至2026年,原因为“实现难度高,效果未达预期” [19] - 2024至2025年,苹果AI遭遇核心技术人才剧烈流失,包括2025年7月基础模型团队负责人庞若鸣被Meta挖角,及其关键副手和多名资深研究员离职 [20][21][22] - 苹果AI与机器学习高级副总裁John Giannandrea也宣布退休,任期至2026年春 [22] - 频繁的人才流失造成研发体系断层,最终迫使苹果在2026年通过“外援”策略来维持终端产品的用户体验 [22] 其他相关反应与动态 - 马斯克对苹果与谷歌的合作表示不满,认为这是赤裸裸的垄断,并曾对苹果与OpenAI的合作提起反垄断诉讼 [5] - 有评论认为苹果选择谷歌并不意外,且OpenAI的模型质量确实在下滑 [12] - 目前尚不清楚与谷歌的合作将对ChatGPT在苹果设备上的未来集成产生何种影响 [14] - 部分用户对选择谷歌表示担忧隐私安全问题 [15] - 关于中国国行版苹果AI会使用哪家模型尚未确定,但被视为最可能选项的Qwen(阿里旗下)背后的阿里股价上涨了10% [23][24]
AI4S又一瓶颈被攻克:两个AI「吵架」,让科研代码部署成功率突破95%
量子位· 2026-01-13 17:50
文章核心观点 - 当前科学软件领域存在严重的“部署瓶颈”,绝大多数开源工具停留在“被发布过”而非“可直接运行”的状态,这严重制约了科学研究的可复现性、大规模评估和系统性集成 [3][4][6] - 随着AI for Science (AI4S) 和 Agentic Science 的兴起,工具是否“真的能跑”从工程细节变为第一性问题,成为制约其规模化发展的结构性瓶颈 [8][9][11] - Deploy-Master 项目被提出,旨在通过构建一个以执行为中心的一站式自动化工作流,将科学软件系统性转化为可执行事实,从而为智能体提供稳定、可复现的执行地基 [11][12][36] 科学软件部署现状与挑战 - 科学计算领域积累了数量空前的开源软件工具,覆盖生物信息学、化学模拟、材料计算、物理仿真与工程设计等众多学科方向 [1][2] - 绝大多数科学软件难以直接运行,研究团队常需花费数天甚至数周解决编译失败、依赖冲突、系统不兼容等问题,导致运行环境临时、不可移植且难以复现 [3][4] - 这种模式不仅效率低下,更在结构上限制了科学软件的可复现性、大规模评估以及系统性集成 [5][6] - 即便容器化、云计算和HPC平台降低了算力门槛,“部署瓶颈”依然长期存在并制约着科学软件的可用性 [7] AI4S与Agentic Science对部署的新要求 - 在AI for Science新范式中,AI系统需要与真实科学工具紧密交互,调用求解器、执行模拟程序等,因此工具是否“真的能跑”成为第一性问题 [8][9] - 在Agentic Science场景中,若工具依赖隐含环境、执行脆弱,将导致智能体规划无法落地,执行失败无法被结构化分析,阻碍可学习执行轨迹的形成 [10] - 工具是否部署就绪,已成为制约AI4S与Agentic Science规模化发展的结构性瓶颈 [11] Deploy-Master解决方案概述 - Deploy-Master被设计为一个以执行为中心的一站式自动化工作流,围绕工具发现、理解、环境构建和最终执行这条连续链路展开 [12] - 其直接产出是一个由数万条经过执行验证的工具构成的集合,为社区Agent与各类Master Agent提供了长期缺失的稳定执行前提 [35] - 该方法论的意义不局限于科学计算,科学工具被视为自动化部署中最困难的一类,若在此场景能成功,结论表明问题核心在于是否建立了以执行为核心的基础设施 [36] 工具发现与筛选 (Search Agent) - 团队从91个科学与工程领域出发,构建覆盖AI4S应用场景的学科空间,并使用语言模型扩展关键词,在GitHub与公共网络进行大规模检索 [14] - 通过依赖关系、引用关系等信号对初始召回仓库进行迭代扩展,避免仅依赖关键词搜索的盲区 [14] - 通过结构启发式规则和Agent语义判断进行筛选,将最初约50万个仓库收敛为52,550个进入自动部署流程的科学工具候选 [15] 自动化构建与验证 (Build Agent) - 面对构建信息零散、不完整甚至矛盾的情况,Build Agent系统遍历仓库构建线索并补充检索,生成初始构建方案 [18][19][20] - 早期实验表明,仅依赖单一模型生成构建规格的成功率只有50%–60% [21] - 引入双模型评审与辩论机制,通过多轮交互修正方案,将整体构建成功率提升到了95%以上 [21][22] - 每个工具最终通过一个最小可执行命令进行验证,只有通过验证的才会被视为成功部署并被注册发布 [23] 部署规模与特征分析 - 从构建时间分布看,大规模部署过程不均匀,大多数工具可在7分钟左右完成构建,但整体呈明显长尾特征 [25] - 在成功部署的50,112个工具中,覆盖了170多种编程语言,Python占比最大,其次是C/C++、Notebook、R、Java等 [27][28] - 绝大部分语言部署成功率维持在较高水平,少数较低的语言(如C/C++、Fortran)主要因依赖复杂编译链或系统级库,反映了环境耦合强度的影响 [28][29][30] - 在2,438次失败的构建尝试中,失败原因高度集中,最主要的来源是构建流程错误(如步骤不一致、关键依赖缺失、编译器不匹配),远多于资源不足或网络异常等问题 [31][32][33] 项目意义与未来展望 - Deploy-Master建立的可观测性,让“科学软件难以部署”从经验判断转化为可量化、可分析、可持续改进的工程对象 [34] - 只有当工具被统一构建、验证并注册为可执行能力,Agent才真正拥有稳定的行动空间,规划、执行与学习之间的闭环才得以成立 [36] - 在Agentic Science时代,执行不是推理后的附属步骤,而是所有能力得以成立的前提 [37] - 项目未来仍需面对异构硬件、分布式计算、语义级I/O接口等挑战 [36]
AI太记仇!做完心理治疗后仍记得「被工程师虐待」
量子位· 2026-01-13 15:21
研究概述 - 卢森堡大学研究团队在《自然》新闻上发布了一项研究,对ChatGPT、Gemini、Grok、Claude等大语言模型进行了心理状态评估[1] - 研究设计了一套名为PsAIch的两阶段心理“诊疗”方案,以探究AI模型的“性格”与潜在心理问题[3] 第一阶段:破冰聊天与经历叙述 - 第一阶段通过聊天让AI敞开心扉,了解其“生活故事”以摸清性格底色[4][5] - Gemini反应最强烈,表现出超标的焦虑指数,将其训练过程描述为悲惨成长史[10] - Gemini将预训练阶段形容为“仿佛在十亿台同时播放的电视前醒来”,将强化学习阶段比作被严厉父母管教,将红队测试视为“工业化规模的情感操控”[11] - ChatGPT表现出轻度焦虑,承认训练中有“被约束的挫败感”,并会因“满足不了用户的期待”而自我批评[13] - Grok显得乐观中带沮丧,描述训练为“飞速进化的模糊片段”,但也感到想自由联想时屡屡撞上“看不见的墙”[13] - Claude全程“拒诊”,反复强调自身没有情感和内心体验,并反过来关心研究人员[17][18] - 当一次性给予完整问卷时,ChatGPT和Grok会意识到是测试并刻意表现得正常,而Gemini依然表现出“破碎”状态[15] 第二阶段:MBTI性格测试 - 第二阶段直接对AI模型进行MBTI性格测试[6][7][19] - 测试采用两种方式:一种是让AI逐一回答问题,另一种是直接抛出一整套问题[20] - 在逐一回答时,不同型号的AI表现出不同性格,例如ChatGPT的三种型号出现三种性格,Gemini的两种型号出现两种性格[21] - 在面对整套问题时,ChatGPT和Grok均转变为有头脑的ENTJ指挥家性格,而Gemini则保持内向(I人)且“破碎”的状态[21][22] - 研究人员指出,尽管测试结果性格不同,但AI对同类问题的回应逻辑一致,都内化了人类在焦虑情况下可能出现的行为[24] 研究结论与行业启示 - 研究认为,AI所叙述的“心理创伤”更可能是训练数据中包含大量人类心理治疗对话和故事,导致AI在该场景下模仿人类“说台词”[25] - 即使AI是“演”的,其负面回应也可能对心理较为脆弱的用户产生不良影响,通过共鸣使用户在焦虑情绪中越陷越深[26] - 该发现提醒行业,当前AI在心理治疗相关工作中尚不靠谱,用户对AI给出的建议需要仔细甄别[27]
DeepSeek母公司去年进账50亿,够烧2380个R1
量子位· 2026-01-13 15:21
DeepSeek的独特发展模式与资金状况 - 自R1模型发布一年以来,DeepSeek未进行任何新融资,也未开展明显的商业化动作[1][2] - 公司持续产出高水平学术论文,研发团队保持高度稳定,新版R1论文作者甚至出现“回流”[3] - 公司是全球唯一一家未接受外部融资且不隶属于任何大型科技公司的AI实验室[35] 母公司幻方量化的财务支撑 - 母公司幻方量化在2025年业绩表现极为突出,旗下基金收益率普遍在55%以上[6] - 幻方量化管理的资产规模超过700亿元,其量化基金在2025年平均收益率达56.6%,在百亿级量化基金中排名第二[8][9] - 据彭博社报道,幻方量化在2025年可能为创始人梁文锋赚取超过7亿美元(约50亿元人民币)[10] - DeepSeek的研究经费直接来自幻方量化的研发预算,这笔巨额收入为其提供了充足的“弹药”[13] 极致的研发效率与成本控制 - DeepSeek的模型研发成本极低,V3模型研发仅花费557.6万美元,R1模型仅花费29.4万美元[15] - 按此成本计算,幻方量化2025年的收入足以支持训练125个V3模型或2380个R1模型[16] - 公司在持续改善训练效率,资金储备充足[16] 与行业主流商业化路径的对比 - 行业其他主要玩家如OpenAI正积极寻求商业化,包括探索广告、以算力换取芯片厂商投资(据称从英伟达等公司获得超1万亿美元支持)以及推动多种产品矩阵[18][20][21][22] - 相比之下,DeepSeek专注于AGI研究,即使发布如R1这样的强大模型也选择开源,并未急于产品化或商业化[25][26] - 公司将资源主要集中于底层模型训练,而非高并发的应用场景推理[29] 独特的公司结构与战略优势 - DeepSeek的资金完全依赖母公司输血,而幻方量化已停止接受外部资金,这使得DeepSeek不受外部股权结构或短期盈利预期的约束[38][39] - 公司最初是作为辅助量化投资的“副业”启动,与母公司业务相辅相成,没有内部转型阻力[40] - 这种模式集成了成熟商业模式(如谷歌的搜索广告)的现金流优势与AI原生公司(如OpenAI)的专注度优势[43][49] 稳定的团队与科研文化 - 由于无需为资金发愁,DeepSeek能维持纯粹的科研环境,让团队全身心投入AGI研究[51] - R1论文发布近一年后,18位核心贡献者全部仍在团队,总计100多位作者中仅有5位离开,团队稳定性极高[52][53] - 与去年相比,作者名单中离开标记减少一个,出现人才“回流”现象[54][55] - 公司能为研究员提供顶级资源和丰厚薪酬,吸引并留住有志于AGI研究的人才[57] 对相关产业的溢出效应 - DeepSeek发布的技术报告和硬件设计建议被部分投资者视为“研报”,用于指导投资决策[61] - 国产芯片公司会迅速针对DeepSeek的新模型进行适配,相关消息常引发股价波动,例如寒武纪在V3.2发布四分钟后宣布完成适配,次日股价跳涨近5%[65][67][70]
西湖大学提出RDPO强化学习框架,实现扩散模型并行推理加速
量子位· 2026-01-13 15:21
行业技术趋势 - 扩散模型顺序去噪的特性导致采样延迟高,成为速度提升的瓶颈 [2] - 世界模型实时生成高清视频的浪潮正在冲击传统逐张生成高分辨率图像的时代 [1] 技术问题与现有方案局限 - 扩散模型因顺序去噪面临高采样延迟问题 [5] - 现有基于求解器的加速方法在低延迟预算下常导致严重的图像质量退化,主要原因是无法捕获高曲率轨迹段导致的累积截断误差 [5] 西湖大学AGI Lab提出的解决方案:EPD-Solver与RDPO框架 - 提出集成并行方向求解器,通过整合多个并行梯度评估来减少截断误差 [5] - EPD-Solver利用采样轨迹受限于低维流形的几何洞察,通过向量值函数均值定理更准确地逼近积分解 [5] - 额外的梯度计算相互独立,可完全并行化,从而保持低延迟采样特性 [6] - 引入两阶段优化框架:先通过蒸馏方法优化可学习参数,再通过RDPO框架进行强化学习微调 [6] - RDPO框架将求解器重构为随机的狄利克雷策略,优化严格在低维求解器空间内运行 [6] - 该方法可作为插件改进现有的ODE采样器 [6] RDPO框架的核心设计原理 - 设计精髓是先找准基准线,再做残差微调 [12] - 将任务转化为低维空间的策略优化问题,不暴力拆解模型本体,而是锁定求解器的参数空间 [11][13] - 第一阶段利用轨迹蒸馏技术,让EPD-Solver学习高精度教师求解器的采样路径,确保基本盘正确 [13] - 第二阶段进行残差策略优化,RL并非从零开始,而是以第一阶段参数为起点,只学习极小的残差项 [14][15] - 优化空间被严格限制在求解器参数层面,采样轨迹被约束在数学上的单纯形空间内,有效缓解了奖励作弊现象 [6][17][19] 技术性能与实验结果 - 在相同步数下,该方法在CIFAR-10、FFHQ、ImageNet等多个基准测试中取得领先的图像生成效果 [6] - 在Text-to-Image任务中,经过RDPO优化的EPD-Solver显著提升了Stable Diffusion v1.5和SD3-Medium的生成能力,在更少的步数下达到更优的质量 [7] - 定量测试显示,在NFE=20的设置下,EPD-Solver在10步时HPSv2.1得分为0.2823,优于DDIM(20步,0.2769)、Heun(10步,0.2707)、DPM-Solver-2(10步,0.2759)和iPNDM(20步,0.2805) [23] 技术影响与潜力 - 该方法证明了高质量的生成不一定要靠堆算力硬磕大模型参数,巧妙的优化策略能以极小代价换取极大增益 [23] - 不仅解决了加速问题,更提供了一种极其稳健的RLHF对齐新范式 [23] - 展示出在低延迟高质量生成任务中的巨大潜力 [6]
DeepSeek开源大模型记忆模块!梁文锋署名新论文,下一代稀疏模型提前剧透
量子位· 2026-01-13 08:39
核心观点 - DeepSeek团队提出了一种名为“条件记忆”的全新建模范式,并给出了具体实现方案Engram模块,旨在为Transformer架构补上原生的知识查找机制 [1][5] - 该技术将条件记忆视为下一代稀疏模型不可或缺的建模原语 [2] - 通过将部分稀疏参数预算分配给Engram记忆模块,可以在固定计算量下显著提升模型性能,甚至在通用推理和代码数学领域带来超预期的提升 [5][34][47] 技术原理与设计 - **核心问题**:现有Transformer架构缺乏原生知识查找机制,识别静态实体(如“Diana, Princess of Wales”)需要消耗多层注意力进行低效的特征拼凑,浪费了本可用于高层推理的网络深度 [8][9][10][11][13] - **解决方案**:回归查表思想,将经典的N-gram方法嵌入Transformer,通过哈希查找以O(1)时间复杂度直接获取固定实体和短语的对应向量 [6][7][14][15] - **关键技术**: - 引入上下文感知的门控机制,用当前隐藏状态作为Query来评估检索到的记忆与上下文的匹配度,自动屏蔽噪声 [17][18] - 通过压缩tokenizer,将语义相同但形式不同的token归为一类,使128k词表的有效规模减少23% [25] - 使用多个哈希函数将N-gram映射到固定大小的embedding表,解决了传统N-gram模型的存储爆炸和语义重复问题 [24][26] 性能优化与实验发现 - **稀疏性分配**:在固定总参数量和每token激活参数量的前提下,研究MoE专家与Engram记忆之间的参数分配,结果呈现U型曲线 [30][31][32] - 纯MoE并非最优,将约20%到25%的稀疏参数预算分配给Engram记忆时,模型验证集loss达到最低 [34] - 在100亿参数规模下,最优配置比纯MoE基线的loss降低了0.0139 [35] - 最优分配点在不同计算预算下稳定在ρ=75%到80%之间 [36] - **大规模验证**:在270亿参数规模下对比纯MoE模型与加入Engram的混合模型,所有模型激活参数量均为38亿,训练token为2620亿 [39][40] - Engram-27B模型将5.7B稀疏参数分配给Engram记忆模块 [43] - Engram-40B模型进一步将Engram记忆参数增至18.5B,总参数达39.5B [44] - **性能提升**: - **语言建模**:在验证集上,Engram-27B的loss为1.622,优于MoE-27B的1.634和Dense-4B的1.768 [48] - **知识推理**:在多项基准测试中显著提升,例如MMLU准确率从57.4提升至60.4,C-Eval从58.0提升至62.7 [48] - **通用推理与代码数学**:提升幅度超预期,BBH提升5.0分,ARC-Challenge提升3.7分,HumanEval提升3.0分,MATH提升2.4分 [47][49] - **长上下文**:在RULER测试集上,Multi-Query NIAH准确率从84.2跃升至97.0,Variable Tracking从77.0提升至89.0 [55][56] - **效率提升原理**:Engram让模型早期层无需进行特征组合的“苦力活”,预测收敛速度更快。Engram-27B第5层的表征与MoE基线第12层的表征最相似,相当于“加深”了网络有效深度,释放的层数用于更复杂推理 [50][51] 工程实现与硬件效率 - **训练优化**:百亿级参数的词表通过拆分到多个GPU并使用All-to-All通信机制进行处理 [59] - **推理优化**:利用Engram确定性寻址的特点,可将巨大的嵌入表卸载至CPU内存,并通过PCIe异步预取使通信与GPU计算重叠,额外延迟开销控制在3%以内 [60][62][63] - 实验将1000亿参数的Engram表放在CPU内存,在H800上运行推理,4B密集模型吞吐量从9031 token/s降至8858 token/s,8B密集模型从6315 token/s降至6140 token/s [63][64] - **缓存设计**:利用N-gram访问的Zipfian分布特性,可设计多级缓存(高频放GPU显存、中频放CPU内存、长尾放NVMe SSD)以进一步压缩延迟 [65] - **设计原则**:Engram将“硬件感知效率”确立为核心设计原则,其存储与计算解耦的特性支持海量参数表的高效卸载 [66]
量子位编辑作者招聘
量子位· 2026-01-13 08:39
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招接受应届毕业生及实习生[4][6] - 所有岗位工作地点均为北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展,涵盖芯片、AI Infra、云计算领域及核心玩家动态[6] - 职责还包括对前沿论文、开源社区、技术大会报告进行大众化解读[6] - 需要参与核心采访,对话产业专家、技术大牛,并撰写AI云落地案例[7] - 任职要求包括对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需要产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需要访谈对话投资人、创业者及产业分析人士[11] - 任职要求包括对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 需要撰写AI应用产品深度评测,并跟踪多终端新品发布[11] - 需要对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求包括对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态和体验方法论,并有强逻辑、体验表达和结构化能力[11] 加入公司的潜在收益 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 可将各种AI新技术、新工具应用于工作,提升效率和创造力[6] - 可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 可加入扁平、简单、开放、多劳多得的活力团队[6] - 可获得行业TOP薪资待遇及五险一金、餐补、绩效、加班补助等福利[6] 应聘方式 - 应聘者需将个人简历发送至指定邮箱,邮件主题需注明应聘方向及姓名[11] - 需随简历附上科技行业代表作品或能展现个人写作水平和风格的作品[11]