Workflow
量子位
icon
搜索文档
知名数学家辞职投身AI创业:老板是00后华人女生
量子位· 2025-12-06 09:30
核心事件与人物 - 世界级顶尖数学家小野肯(Ken Ono)辞去终身教职,全职加入AI初创公司Axiom,担任创始数学家[1][2][4][5] - 吸引小野肯加入的Axiom公司由他24岁的学生、华人女生洪乐潼(Carina Letong Hong)创办[2][7] - 此次事件被描述为轰动数学和AI两界,标志着一位纯数学领域的领军人物转向AI产业[1][5] 公司Axiom概况 - 公司定位为一家主打AI数学的明星初创公司,核心目标是为量化对冲基金开发能解决实际数学问题的AI[6][27] - 公司在仅有0产品0用户的情况下,于几个月前完成首轮融资,估值达到3亿美元[7][37] - 公司团队规模小,起步晚,员工仅十余名,但已吸引多位顶尖AI和数学专家加入[35][53] 创始人洪乐潼背景 - 创始人洪乐潼为24岁00后,斯坦福数学博士辍学创业,是IMO金牌得主[7][9] - 她仅用3年时间完成MIT数学和物理本科双学位,本科期间已发表9篇广泛领域的学术论文[9][44] - 她曾是小野肯在MIT的学生,在其指导下解决拉马努金理论中的部分猜想,并获得多项顶级学术荣誉[46][47] - 她被提名为2022年度中国罗德学者(仅4名中国获奖者之一),近期被评为2026年福布斯30位30岁以下AI精英[9][51] 数学家小野肯的背景与角色转变 - 小野肯被誉为“最懂拉马努金的当代数论学者”,是数学领域举足轻重的人物,拥有弗吉尼亚大学终身教职[4][17][19] - 他此前对AI领域持怀疑态度,但去年春天参加AI模型测试研讨会后,观念发生转变,认为AI在某些数学领域已遥遥领先[14][15][21] - 他在Axiom的角色是创始数学家,负责为AI模型“绘制地图”,即设计高难度数学问题、制定性能基准并指导模型优化[10][12] 公司技术方向与产品目标 - 公司致力于开发能够进行严格逻辑推理和数学证明的AI,构建和验证形式化证明,保证结果的准确严谨[27] - 产品主要面向对冲基金和量化交易公司,帮助其快速解决金融领域的复杂数学问题[28] 公司已取得的技术成果 - Axiom的AxiomProver模型近期解决了数学界两个著名难题:Erdős问题 124 和 481[29] - Erdős问题 124 是一个30年前的加法数论问题,Axiom不仅解决了问题,还将其验证到基础公理层面[30][31] - Erdős问题 481 源自45年前,OpenAI的GPT-5曾声称解决但被指仅是检索文献,而Axiom确实完成解决并借助Lean完成了形式化验证[33][34] 团队与人才吸引力 - 除小野肯外,公司还吸引了前Meta研究员François Charton等顶尖AI专家加入[35] - François Charton的研究(如让Transformer模型解微分方程)被视为让神经网络理解数学结构的先驱成果[35] - 小野肯在加入Axiom前,曾连续拒绝多家其他硅谷公司的邀请[36] 行业意义与愿景 - 此次合作被类比为数学界的“黄金师徒”哈代和拉马努金,旨在携手逼近数学界的“GPT时刻”[54] - 公司从建立之初就立志寻找数学公理,破解困扰人类数个世纪的难题[51]
谷歌新架构突破Transformer超长上下文瓶颈!Hinton灵魂拷问:后悔Open吗?
量子位· 2025-12-05 17:33
谷歌发布突破性大模型新架构 - 谷歌在NeurIPS 2025上发布两项关于大模型新架构的研究,旨在突破Transformer在处理超长上下文时的根本局限 [1][2] - 新架构通过“测试时训练”机制,能在推理阶段将上下文窗口扩展至200万token [2] - 谷歌近期在从产品到基础研究方面展现出穷追猛打的竞争态势 [5] Transformer架构的固有局限 - Transformer的自注意力机制导致计算量和内存消耗与序列长度的平方成正比(O(N²)),这是处理超长上下文时的主要瓶颈 [4][7] - 学界已探索线性循环网络和状态空间模型等替代方案,通过将上下文压缩到固定大小实现线性扩展,但难以充分捕捉超长序列中的丰富信息 [9][10] Titans架构:结合RNN速度与Transformer性能 - Titans是谷歌提出的新架构,其目标是结合RNN的速度和Transformer的性能 [8][11] - 该架构的核心是“测试时记忆”,模型在推理过程中无需离线重新训练,即可通过整合新信息来维持长期记忆 [12] - Titans引入了一种新的“神经长期记忆模块”,该模块本质上是一个在推理阶段仍能动态更新权重的多层感知机 [14][15] - 其关键设计是能够主动学习识别并保留输入数据中连接各个token的重要关系和概念,更新机制基于“惊喜指标”,即模型检测到记忆内容与新输入内容之间的差异 [18][19][20] - 低意外度的输入仅作为短期记忆处理,高意外度的输入则被优先存储到长期记忆模块中 [21] MAC:Titans的主要变体 - MAC是Titans架构的一种主要变体,其设计思路是将长期记忆作为额外的上下文信息直接输入给注意力机制 [16] - MAC不改变注意力计算方式,而是改变了注意力的输入来源,将长期记忆的“摘要”与当前短期输入一起处理 [16] - 实验表明,Titans (MAC)变体在多项长上下文测试中表现优异,例如在S-NIAH-W任务16K长度下准确率达到95.2%,显著优于Mamba 2(0.0%)和DeltaNet(0.0%)等模型 [30] MIRAS:序列建模的统一理论框架 - MIRAS是支持Titans背后的核心理论框架,其核心目标是让模型在推理阶段也能进行学习 [8][22] - MIRAS将任意序列模型解构为四个关键设计选择:内存架构、注意力偏差、保留门控(遗忘机制)和记忆算法 [23][28] - 该框架的创新在于引入非欧几里得目标函数,允许使用更复杂的数学惩罚机制来更新记忆 [26] - 基于MIRAS,研究人员创建了三个特定的无注意力模型:YAAD、MONETA和MEMORA,分别采用不同的损失函数和规则来提升鲁棒性、稳定性和可控性 [27][29] 性能表现与行业影响 - 基于Titans和MIRAS的模型性能优于最先进的线性循环模型(如Mamba 2)以及规模相近的Transformer基线模型 [27] - 新架构能够在参数规模小得多的情况下,处理极长上下文,并且性能优于GPT-4等大规模模型 [32] - 谷歌方面表示,尽管面临竞争,但不后悔公开Transformer研究,认为其对世界产生了巨大的积极影响 [34]
Office危!阿里千问这回把“办公全家桶”打包进了对话框
量子位· 2025-12-05 17:33
阿里千问产品功能升级核心观点 - 阿里千问对办公与写作能力进行了重大升级,将文档生成、智能排版、在线编辑、多格式转换等功能整合进一个入口,旨在实现办公学习流程在一个App内的串联 [1][4] PPT创作能力升级 - 升级核心在于将找资料、出大纲、生成创作、编辑、导出等PPT制作全流程在一个App中彻底打通 [6] - 支持上传文档、拍照识别、语音说话、一句话指令等多种输入方式,并能自动提炼重点、提供现成模板 [6] - 生成PPT前会先提供可编辑的大纲,用户可对封面、章节结构、每页内容进行预览和修改 [7][8] - 生成的PPT图文并茂,在排版上能保持文字行间距、字间距、大小标题位置的合理性,内容分区清晰 [11][13] - 支持对生成后的PPT进行直接编辑,用户可选中任意文字(如大标题、正文)进行随意改写 [13][14] - 支持更换PPT的模板款式、风格与颜色,并可一键导出为PPT、PDF、长图三种格式 [16] - 此次升级亮点在于将原本需在PC上完成的流程浓缩至手机App,显著降低了使用门槛,适用于学生课堂展示、职场工作报告等多种场景 [17][18] 文档编辑能力升级 - 文档编辑进入一站式模式,用户可通过与千问对话自动生成主题清晰、结构合理、排版完整的Word文档 [19][20] - 以生成《2025中国具身智能行业报告》为例,千问能围绕核心观点、政策与战略、资本与市场、技术格局等维度进行分析并自动整理成Word文档 [21][22][23] - 生成的文档支持完整的二次编辑,功能包括修改指令要求、排版预览、扩写、缩写、润色、改字数、换语气等 [25][26] - 文案润色功能支持用户直接勾选文字进行一键润色,并以小窗口形式呈现,方便用户结合上下文判断效果 [27][28][30] - 风格改写功能支持调整语气,例如可将严肃的行业报告改为更口语化的科技自媒体调性 [31][32] - 缩写功能能压缩段落内容,在减少字数的同时保持内容逻辑顺畅、信息完整及核心结构 [33][35] - 支持Word、PPT、PDF、Excel等各类格式之间的转换,确保用户相关操作在一个App内完成 [35] 产品战略与用户体验 - 产品方向是让AI不只激发灵感,还能帮助用户真正完成工作 [36] - 对于学生和职场人士而言,在一个App内一站式搞定PPT和上千字的调研报告,相比传统方式效率大幅提升 [36]
GPT-5从零提出量子物理新想法,物理学家写成论文已登Physics Letters B
量子位· 2025-12-05 16:04
论文核心成果 - 密歇根州立大学物理学家Stephen Hsu在《Physics Letters B》上发表了可能首篇由AI(GPT-5)提出核心思想的理论物理论文 [1][2][3] - 论文探讨量子演化是否严格线性这一根本物理学问题,即研究在量子力学中加入非线性修改后能否依然与相对论兼容 [5] - 核心结论是大多数非线性修改都无法与相对论兼容,问题主要出在“locality”和“foliation independence”上 [6][9] AI协作研究方法 - 科学家采用“生成-验证”协作方法,即一个模型实例生成推导步骤,另一个独立实例负责检验,可显著降低AI产生错误的概率 [12] - 协作中最关键的一步是GPT-5完全自主地提出了使用Tomonaga-Schwinger框架来分析非线性量子力学与相对论兼容性的思路 [10] - 配套发表了AI方法论文章,详细描述了与GPT-5的协作过程 [7] AI协作的挑战与前景 - 与大型语言模型合作研究类似于与才华横溢但不可靠的人类天才合作,模型能产生深刻洞见,但也会犯简单和深刻的错误 [13][14][15] - 模型的错误有时难以发现,例如会引入来自遥远子领域、听起来合理但实际错误的技术应用,需要花费大量精力验证 [16][17] - 对人机协作前景持乐观态度,预计人类与AI的混合协作将成为数学、物理等高度形式化科学的标准,AI将越来越像自主研究智能体 [18]
优理奇机器人完成两轮合计3亿元天使++++轮及天使+++++轮融资,“算法-硬件-场景”三位一体加速具身智能应用落地
量子位· 2025-12-05 16:04
融资与市场认可 - 公司于半年内完成第五轮融资,近日交割天使++++轮及天使+++++轮,两轮合计融资3亿元人民币[1] - 投资方包括川商基金、吴中金控、益华资本、青域基金、太浩创投等机构,以及若干上市公司和产业方,老股东赛纳资本追加投资[1] - 公司获得资本持续青睐,源于其在具身智能领域“算法-硬件-场景”三位一体的稀缺价值得到市场认可[1] 产品性能与竞赛成就 - 公司的Wanda系列轮式双臂机器人在2025年世界人形机器人运动会上,于酒店清洁与迎宾等复杂任务中展示出卓越的长序列任务执行与稳定操作能力[3] - 该机器人以第一的技术分和速度分摘得两金一银,并在与全球顶尖机器人企业和高校的比拼中获得金牌榜第二的成绩[3] 商业化进展与市场布局 - 公司自2025年启动量产后,已实现单月百台交付,在手订单超千台[5] - 产品覆盖酒店、物业、安保、零售、餐饮等多个高价值场景[5] - 商业化落地进入高速增长通道,并已在诸多海外市场布局[5] 核心技术能力 - 公司构建了涵盖感知、决策、控制的完整技术栈[6] - 通过UniTouch多模态感知模型、UniFlex、UniCortex等行业领先的“大小脑”模型组合,以及行业首款量产的8自由度仿生机械臂和开放工具链,显著提升了机器人在非结构化环境中的适应性与可靠性[6] - 公司已建立起从训练模型到真实反馈的快速迭代闭环,在“算法×真实环境×工程化”成为竞争焦点的当下占据优势[7] 科研教育生态建设 - 公司面向高校与科研机构推出标准化机械臂产品UniOpenArmX,该产品在IROS 2025全球顶级机器人会议上首发[9] - 产品由公司首席科学家及本届IROS大会总主席王贺升教授深度参与定义,以“可教学、可编程、可复现”为特点,配备完整ROS2接口,旨在为科研与教育提供高效基础设施[9] 行业趋势与公司战略 - 具身智能行业正从“演示阶段”迈向“验证与规模化阶段”[11] - 公司创始人兼CEO杨丰瑜认为,具身智能的未来属于能够将算法能力、硬件能力与场景能力统一起来的企业,机器人不仅需要聪明的大脑,更需要可靠的本体与开放的生态系统[11] - 公司将继续沿着产品化、国际化和生态化三条路径稳步推进,致力于让具身智能真正成为社会基础设施的一部分[12] 公司发展要素 - 此次融资完成标志着公司已集结迈向下一阶段所需的全部关键要素,包括顶尖的技术与工程团队、经过严苛验证的产品、清晰的商业化路径、强大的产业资本联盟以及政府层面的全力支持[13] - 凭借在软硬件全栈技术与场景落地方面的综合优势,公司正推动具身智能应用落地加速步入全新的时代[15]
视频模型也能推理,Sora2推理能力超过GPT-5
量子位· 2025-12-05 16:04
文章核心观点 - 视频生成模型具备通过生成连续视频帧进行时空规划与推理的能力,尤其在复杂空间任务上表现优于顶尖的多模态大语言模型 [1][2][4] - DeepWisdom研究团队提出“Reasoning via Video”新范式,并推出首个评估视频模型空间推理能力的基准测试VR-Bench [5][18][20] - 实验结果表明,视频模型在迷宫等空间推理任务中展现出超越VLM的泛化鲁棒性和更符合物理直觉的路径规划能力 [28][32][36][37] 视频模型推理能力优势 - 视频模型通过生成连续视频帧进行“帧链”推理,天然包含空间一致性和时间因果性,避免了VLM将视觉信息转化为文本描述导致的信息丢失和上下文饱和问题 [9][16][19][33] - 在处理高难度空间任务时,视频模型性能稳定甚至提升,而VLM性能出现断崖式下跌,例如Sora-2在不规则迷宫的高难度设定下成功率出现不降反升趋势 [31][32][35] - 视频模型生成的路径平滑、高效,紧贴最优解,步骤偏差远低于VLM,表明其真正理解空间结构而非盲目猜测 [37][38] VR-Bench基准测试设计 - VR-Bench包含7920个程序化生成视频,涵盖常规迷宫、不规则迷宫、3D迷宫、陷阱场和推箱子五大类高难度空间任务 [20][24] - 测试采用四项核心指标:成功率、精确匹配率、精确率和步骤偏差,为视频模型建立了客观的、可量化的评分体系 [25][34] - 该基准将视频评测从视觉鉴赏转为理性路径验证,构建了清晰的奖励机制,为未来引入强化学习铺平道路 [22][23][25][27] 关键实验发现 - 开源模型Wan-R1经过监督微调后,在多项任务上表现卓越,在陷阱场任务实现100%成功率,在3D迷宫任务精确匹配率达65.3%,远超同条件下微调的VLM模型Qwen2.5-VL-7B-SFT [40][41][45] - Wan-R1展现出强大的泛化能力,包括难度泛化、材质泛化和任务泛化,证明其内化了通用的空间规划与物理模拟逻辑而非简单记忆 [42][45] - 视频模型存在类似大语言模型的Test-Time Scaling效应,当采样数K从1增加到16时,模型在各类迷宫上的平均性能提升10-20% [43][44][47][48] 行业影响与未来展望 - 该研究标志着视频生成模型正从“艺术创作”走向“通用智能”,为构建World Simulator提供了关键路径 [14][49][51][52] - “Reasoning via Video”范式为未来具身智能机器人的运动轨迹预演和复杂场景模拟奠定了基础,是通往通用人工智能的重要方向 [50][52][53] - 团队已开源代码和数据集,推动行业共同探索视频模型的推理潜力 [54][56]
北航领衔发布300页代码智能综述:从基础模型到智能体,一次读懂Code LLM全景图
量子位· 2025-12-05 13:33
编程范式演进 - 编程范式正从手动编码、IDE辅助、框架驱动,向AI辅助的协作式开发演进,开发者更习惯于用自然语言表达意图,由模型完成更大比例的实现[4] - 随着模型上下文窗口增大和工具调用能力增强,开发的起点转变为组织需求与意图,这种范式变化比以往任何工具升级都更深刻[5][6][7] - 行业正处在编程方式发生跃迁的关键节点上[8] 代码基础模型技术底座 - 代码基础模型的训练依赖于GitHub代码、Issue讨论、StackOverflow、API文档等语料,共同构成模型的工程世界知识[10] - 预训练中大量使用填充中间内容与多Token预测等任务,使模型能处理跨行、跨段落的复杂代码结构[10] - 模型架构从CodeBERT、CodeT5演进到当前主流的仅解码器与混合专家架构,体现了对代码任务需求的不断适配,整个训练体系在长期协同演进[11][12] 代码任务与评估体系 - 代码模型的评测体系按任务粒度系统整理,从函数级、跨文件到工程级和智能体级,每一层都有对应的基准[14] - HumanEval、MBPP等是基础指标,但只反映模型的底层能力,更真实的工程语境需要仓库级长上下文任务、SWE-Bench、跨文件补全等基准来评估模型对软件结构的理解[15][16] - 评估方法包括大语言模型即评委、多智能体评测、执行级校验等,使评估更接近实际开发场景,模型能否写好代码取决于其处理真实项目复杂依赖的能力[17][18] 模型对齐与能力增强 - 模型对齐与增强通过监督微调、推理数据蒸馏、多语言与多模态扩展等方法,目标是让模型更理解工程,而非仅生成看似代码的文本[19][20] - 仓库级训练是关键,模型必须理解模块间依赖、目录结构和项目组织方式,才能在真实场景中表现稳定,单个函数的数据远远不够[22] - 增强推理能力方面,多轮提示、链式思考数据、自动生成高难度样本成为新趋势,强化学习中的基于可验证奖励的强化学习通过单元测试作为奖励信号,是近两年性能提升最显著的方向之一[23][25][26] 软件工程智能体 - 当模型以智能体身份参与软件工程流程时,其潜力被放大,涉及需求理解、代码定位、跨文件生成、自动测试、自动程序修复、日志分析等任务,并为每一步构建了对应的智能体框架和案例[27][28] - 智能体不再是单纯的代码生成器,而是需要连续决策、实时利用环境反馈的工程参与者,当前最大瓶颈是如何有效利用测试结果、工具调用反馈、IDE状态等环境信号[28] - 在更通用的智能体生态中,代码不仅是输出物,更是一种用于表达工具调用、逻辑执行和状态管理的通用语言,这意味着未来的智能体体系可能会越来越依赖以代码为核心能力的模型[30][31][32] 安全与治理 - 代码模型的安全问题比自然语言模型更复杂,风险涵盖数据安全、模型安全和执行安全三个层面,包括训练数据许可证风险、模型生成潜在漏洞、提示攻击、环境操控及代码执行带来的系统级风险[34][35] - 对应的治理手段包括数据审计、安全微调、偏好对齐、红队测试、静态与动态检测、安全沙箱等机制,随着模型集成进工程环境,这些安全能力正成为基础设施的一部分[35] 训练方法论 - 论文总结了高价值的训练经验,包括预训练的数据设计、监督微调的关键超参数、混合专家模型的稳定性策略、强化学习的展开与奖励设计等,结合扩展定律和敏感性实验,将分散的经验凝结成一套可系统复用的方法论[36][40] - 这些方法论揭示了数据投入最划算的阶段、可能出现收益下降的阶段、对性能影响巨大的超参数、可灵活调整的超参数,以及不同规模和架构模型在训练中的性能拐点[45] 应用落地与未来方向 - 代码大模型应用正在加速落地,已进入集成开发环境插件、协作编码、自动测试、自动修复、形式化验证等软件工程多个关键环节[41] - 随着智能体框架与工具链不断成熟,代码智能正从辅助工具逐渐成为开发流程的一部分,未来的软件工程可能会继续朝意图驱动、协作式编码的方向演化,模型的角色将越来越重要[42][43] - 这篇超过300页的论文将代码智能的关键模块串联,勾勒出一张完整、系统、可实践的技术地图,对关注模型训练、工具开发或未来软件工程演化方向的从业者具有重要参考价值[43][44]
谷歌最强大模型付费上线,在DeepSeek开源后被吐槽太贵
量子位· 2025-12-05 13:33
Gemini 3 Deep Think 模型发布与性能 - 谷歌正式上线最新最强模型Gemini 3 Deep Think,其推理能力表现突出[2] - 新模型在复杂数学、科学推理和逻辑问题上相比前代有大幅提升,旨在解决最强模型都难以处理的问题[9] - 模型采用迭代推理的“深度思考”模式,能多轮打磨代码,生成更精细程序,在可视化、原型设计和实验方面交付细节更丰富的结果[9] - 模型底层技术衍生于曾在IMO、ICPC World Finals上获得金牌的Gemini 2.5 Deep Think,并借助更先进的并行推理机制,可同时从多个思路进攻高难度问题[14][15] 模型演示与能力展示 - 模型能将草图转化为逼真的3D场景,结构、镂空花纹与光影处理到位[3] - 能用几句话搭建出运行丝滑的3D多米诺骨牌解压游戏[4] - 用户可与其进行视觉艺术创作,在虚拟宇宙中探索[5] 基准测试表现 - 在Humanity‘s Last Exam基准测试中,Gemini 3 Deep Think在不使用工具的前提下准确率达到41.0%,比GPT-5 Pro高出10个百分点[10] - 在ARC-AGI-2基准测试中,其代码执行准确率达到前所未有的45.1%,比Gemini 3 Pro高14%,领先GPT-5.1近30%[11] - 根据提供的基准测试数据表,Gemini 3.0 Pro在多项测试中表现优异,例如在HMMT Feb 2025哈佛MIT数学竞赛中得分为97.5,在LiveCodeBench世界级编程竞赛中得分为90.7,在GPQA Diamond理工科博士生测试中得分为91.9[26] 定价策略与市场反馈 - Gemini 3 Deep Think目前仅向Ultra会员开放,月费为249.9美元,折合人民币约1800元[18] - 该定价策略引发Pro用户强烈不满,用户认为未提供试用额度或按次付费选项,难以判断模型价值[18][21] - 与竞争对手相比,OpenAI为Plus用户提供每周100条o3模型额度,谷歌此策略被指“小气”[23] - 模型发布后市场反响平平,评论区焦点集中于吐槽定价[24] 行业竞争格局 - 谷歌在Gemini 3 Pro取得优势后,迅速推出Gemini 3 Deep Think,被描述为“不给对手任何喘息的机会”[8] - 竞争对手DeepSeek近期更新的V3.2版本在推理能力上直逼Gemini 3 Pro,同样获得了IMO 2025、ICPC World Finals 2025等竞赛金牌,且为开源模型,对谷歌形成直接竞争压力[25][26] - 行业观点认为,DeepSeek作为开源模型,正像一条“大鲶鱼”一样搅动整个行业[28]
Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死
量子位· 2025-12-05 13:33
行业范式转移 - AI行业顶尖研究者(如Ilya Sutskever)共同指出,单纯依赖扩大模型规模(Scaling Law)的时代已结束,行业正逼近收益递减的临界点 [1][2][20] - 真正的突破需来自架构层面的根本性创新,而非对现有Transformer流水线的修修补补,下一代AI的竞争力关键在于架构的聪明程度 [3][20][21] - 全球首个可大规模落地的开源原生多模态架构NEO的诞生,被视为这一范式转移的首个成功范例 [4][21][53] NEO架构的核心创新 - 采用原生一体化设计,从第一性原理打造视觉与语言血脉相连的统一模型,不再区分视觉和语言模块,从根本上解决了模块化架构的效率、能力和融合三大鸿沟 [19][22][46] - 创新性引入原生图块嵌入技术,通过轻量级卷积神经网络直接从像素构建高保真视觉表征,突破了主流模型的图像建模瓶颈 [24][25][27] - 采用原生三维旋转位置编码,为时间、高度、宽度维度分配不同频率,精准刻画不同模态的天然结构,为扩展到视频和3D场景铺平道路 [29][30][31] - 在统一注意力框架下实现因果与双向注意力并存,极大提升了对图像内部空间结构的理解能力,支撑复杂的图文交错推理 [33][34] 性能与效率表现 - 在数据效率上表现卓越,仅使用3.9亿个图像文本对进行训练,数据量仅为同类顶级模型所需数据的十分之一 [11][39] - 在多项关键评测中,仅以2B和8B的中小参数规模,就追平甚至超越了依赖海量数据的旗舰级模块化模型 [39][40][42] - 在MMMU、MMBench、MMStar、SEED-I、POPE等多个权威基准测试中取得高分,展现出优于其他原生VLM的综合性能 [41][42] 商业化与应用前景 - 其开源策略(已开源2B与9B模型)有望推动整个开源社区从模块拼接范式向更高效统一的原生架构迁移,加速形成新一代多模态技术事实标准 [48][49] - 在中小参数规模下展现出的高推理性价比,大幅降低了多模态模型的训练与部署门槛,使得强大的视觉理解能力可下沉至手机、机器人、智能汽车、AR/VR眼镜、工业边缘设备等终端场景 [43][44][45][50] - 原生一体化的架构设计为视频理解、3D空间感知乃至具身智能等更高阶的多模态交互场景预留了清晰的扩展接口,是构建下一代通用人工智能系统的理想底座 [46][47][51]
华为新架构砍了Transformer大动脉!任意模型推理能力原地飙升
量子位· 2025-12-05 10:13
文章核心观点 - 华为诺亚方舟实验室提出了一种名为Nexus的全新高阶注意力机制,旨在解决Transformer架构在复杂数学和逻辑推理任务上的根本性缺陷[7][8] - Nexus通过革新Query和Key的生成过程、采用递归框架以及权重共享策略,在不增加模型参数量的前提下,显著提升了模型在复杂推理任务上的性能[10][29][31] - 该架构不仅在小规模从头训练模型中表现优异,还能作为即插即用的升级套件用于改进现有大语言模型,展示了架构创新相对于单纯扩大模型规模的重要性[36][44][48] Transformer架构的现存问题 - 传统的自注意力机制本质上是配对比较,每个词只与另一个词直接关联,导致其在建模多跳、多点之间的复杂、间接逻辑关系时能力不足[5][6] - 标准注意力机制中,Query和Key是静态的、与上下文无关的线性投影,限制了模型捕捉复杂动态关系的能力[14][15] Nexus高阶注意力机制的核心创新 - **精妙第一刀:Q和K的革新** - 将Query和Key的生成过程本身也设计为一个注意力操作,使token在计算最终Q和K前,先通过一个“预推理”的内部循环从全局上下文中聚合信息,形成更具上下文感知能力的表示[17][18][20] - **精妙第二刀:巧用递归框架** - 采用递归框架,将内部注意力循环进行嵌套,从而能够构建二阶乃至更高阶的关系,天然支持多跳推理链[23][24][27] - **精妙第三刀:不增参数** - 通过权重共享策略,让内层和外层的注意力模块复用同一组投影权重,使得模型在计算路径更复杂的同时,参数量与原始Transformer完全一致[29][30][31] - 消融实验显示,使用权重共享的Nexus-QK-Shared版本在Pythia-70M模型上,平均准确率比基线高出近1个百分点,而参数量无增加[34] Nexus架构的实验效果 - **小模型全面领先** - 在Pythia系列模型上从头训练Nexus,在六个标准推理数据集上均优于原始Transformer,在需要多步推理或科学常识的任务中提升显著[37][38] - 具体数据:在70M参数的SciQ任务上,准确率从61.5%提升至68.5%(提升7个百分点);在1B参数的PiQA任务上,准确率从62.5%提升至63.6%[39][40] - **大模型改装即用** - 将Qwen2.5的1.5B和7B版本的标准注意力层替换为Nexus结构,仅进行监督微调,即可在多个高难度数学推理基准上带来稳定提升[41][42] - 具体数据:Qwen2.5-1.5B在MATH-500上准确率从78.6%提升至80.1%;Qwen2.5-7B在AIME24上准确率从45.2%提升至47.5%[43][49] 技术影响与行业意义 - Nexus架构的思想具有普适性,其高阶关系建模能力可应用于视觉、图神经网络及多模态任务,华为诺亚团队下一步将探索其在视觉Transformer和多模态大模型中的应用[45][46] - 该研究揭示了Transformer模型的瓶颈可能在于注意力机制的表达能力,而非参数量,强调了聪明的架构设计有时比单纯扩大模型规模更为重要[46][47][48]