量子位
搜索文档
首创双NPU架构一鸣惊人!联发科天玑9500重磅加码主动式AI体验
量子位· 2025-09-22 19:16
文章核心观点 - 联发科提出超性能+超能效双NPU架构 实现AI Always on 从硬件架构重构端侧AI运行基础 让AI成为系统常驻能力而非被动唤醒的功能模块[1][33][50] - 天玑9500通过双NPU协同工作 超性能NPU处理高强度推理任务 超能效NPU专注低功耗常驻场景 结合存算一体架构和硬件压缩技术 实现性能与能效双重突破[34][36][40] - 端侧AI正从"可调用"走向"默认在线" 需具备即时响应能力 联发科通过系统级技术方案解决模型加载慢 功耗高 训练难三大挑战 推动AI无缝融入多模态交互[49][55][61] 芯片架构创新 - 首发双NPU架构 超性能NPU搭载深层次AI引擎2.0 在ETHZv6.0.3测试中得分15015 相比天玑9400提升超过一倍[34][36][37] - 超能效NPU采用存算一体架构 将计算单元与缓存单元物理融合 减少数据搬移能耗 改善常驻AI任务下的发热与续航问题[40][42] - 引入四通道UFS 4.1 模型加载速度提升40% 结合硬件级压缩技术 4B大模型仅需1.6GB内存即可运行[44] 性能表现提升 - 3B大模型输出性能相比上一代提升100% 内容生成更快更流畅 支持128K上下文窗口 是上代的4倍 可处理相当于10小时录音的数万字文本[9][12] - DiT模型推理性能提升100% 首次实现端侧4K超高画质生图 仅需10秒完成生成 支持个性化风格生成 可将照片转为手绘 插画等艺术风格[16][20][22] - 通过1.58bit量化 Transformer专用电路和Eagle推理加速算法 生成速度比天玑9400提升2倍以上 在3~4W功耗区间内推理效率提升56%[44] 端侧AI落地应用 - 与vivo联合打造蓝心AI录音机 分钟级训练的定制美颜 全场景蓝心大模型端侧推理与训练能力 端侧训练内存需求降至2GB 首次实现终端侧完成个性化美颜训练[26][47] - 与OPPO合作小布识屏与AI意图搜索 进行异构计算和内存优化协同 多品牌正围绕天玑9500展开端侧AI能力部署探索[28] - AI能力常驻系统后台 实现帧帧追焦等单反级拍照体验 在不打扰用户的情况下持续提供帮助 推动无感交互成为可能[30][32][59] 行业趋势与共识 - 大模型下沉使端侧AI使用频率越来越高 从输入法预测补全到拍照构图建议 从锁屏摘要到图像生成 AI正从"调用一次"变为"时刻可用"[4][54] - AI需融入用户原生操作流程 成为交互一部分 响应需即时 不可依赖被动加载或临时唤醒 需常驻系统成为设备资源调度组成部分[55][56][57] - 端侧AI不再局限于特定任务 开始在系统各层持续参与 推动人机交互向更自然流畅方向演进 底层系统需为AI持续供能[60][62]
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
量子位· 2025-09-22 16:08
文章核心观点 - Scale AI发布的新软件工程基准测试SWE-BENCH PRO显著提升了难度 导致主流大语言模型的解决率普遍低于25% 远低于旧基准SWE-Bench-Verified约70%的水平[1][5][23] - 尽管整体表现不佳 但GPT-5在已提交的任务中准确率达到63% 显著优于Claude Opus 4.1的31% 显示其在优势领域的稳定性[3][4] - 新基准通过采用全新商业代码库、排除琐碎修改任务、增加多文件复杂场景以及严格防数据污染设计 更真实地反映工业级软件工程挑战[9][12][13] 基准测试设计特点 - 测试集包含1865个问题 分为公共集(731题)、商业集(276题)和保留集(858题) 覆盖消费者应用、B2B服务和开发者工具等多元化代码库[12][18] - 严格排除1-10行代码的简单修改 专注于需要大量多文件修改的复杂任务 更符合实际开发场景[13][8] - 采用人工增强的问题陈述 包含详细的需求说明和接口信息 确保模型获得充分上下文[16][19] - 测试环境容器化运行 每个任务在特定语言环境中评估 失败测试经人工筛选 偶尔失败的测试运行三次确保结果稳定性[20][21][22] 模型性能表现 - 在公共集上GPT-5以23.3%解决率领先 Claude Opus 4.1以22.7%紧随其后 Claude Sonnet 4达到16.3% Gemini 2.5 Pro Preview为13.5%[25][26] - 商业集表现更差 最优模型Claude Opus 4.1仅17.8% GPT-5为14.9% 显示模型在真实商业场景能力有限[26][27] - 老模型表现不佳 DeepSeek Qwen-3 32B和GPT-4o解决率分别只有3.4%和3.9%[24] - 编程语言差异显著 Go和Python表现较好(部分模型超30%) JavaScript和TypeScript波动大(0%-30%) 不同代码库解决率差异明显(低于10%至超50%)[30] 模型失败模式分析 - Claude Opus 4.1主要失败在语义理解(错误解答48.5%)和语法错误(32.7%) 显示技术执行强但算法理解存在挑战[31][34] - GPT-5未回答率高达63.1% 但提交答案的准确率较高 工具使用有效性存在差异[32][31] - Claude Sonnet 4主要问题为上下文溢出(61.6%)和无休止文件读取(29.5%) 显示上下文管理能力不足[31][34] - Gemini 2.5失败模式较均衡 含工具错误(38.8%)、语法错误(30.5%)和错误解答(18%)[34] - Qwen-3 32B工具错误率高达42% 凸显集成化工具使用的重要性[34]
奥特曼预告ChatGPT新产品!Pro会员也要额外收费,这次不计成本投入算力
量子位· 2025-09-22 13:54
OpenAI的巨额算力资本支出规划 - 公司已投入160亿美元(约人民币1138亿元)用于租用计算资源,相当于每日支出数千万美元用于服务器租赁 [2] - 公司计划在2024至2030年间,为服务器租赁投入总计3500亿美元,其中仅2030年单年支出预计就高达1000亿美元 [7] - 公司近期与甲骨文签订了一份为期五年、价值3000亿美元的算力采购合同,此项支出独立于上述3500亿美元计划之外 [7] - 公司计划在未来五年额外支出约1000亿美元,用于从云服务商处租用备用服务器,以应对AI算力需求的暴增,此项支出亦不包含在3500亿美元预算内 [3][7] 算力投入与营收增长的对比 - 得益于ChatGPT的强劲增长,公司预计2024年总营收将达到130亿美元,较去年的40亿美元增长超过三倍 [10] - 公司已将2030年的收入预测上调约15%,按此前预测的1740亿美元计算,上调后年收入将突破2000亿美元 [11] - 即便如此,公司在2030年的研发投入(大部分为算力支出)预计将接近收入的50% [12] - 2024年的160亿美元算力支出中,计算(训练)成本为90亿美元,推理成本为70亿美元;预计到2030年,这两项投入均将接近500亿美元 [18] 与同业科技巨头的研发投入对比 - 亚马逊、微软、甲骨文及Alphabet等科技巨头当前的研发成本占收入比例介于10%至20%之间 [14] - 以微软为例,其十年研发成本合计占总营收的15.5%,2025财年研发成本占比也远低于OpenAI [15] - 向来在研发上投入较高的Meta,该比例也仅约为25% [16] - 这意味着OpenAI在算力(研发)投入上的占比,是多数同行的近两倍甚至更多 [16] 算力短缺对业务的影响及新产品预告 - 由于计算能力短缺,公司曾多次推迟新功能和新的AI模型的发布,甚至需要刻意降低某些产品的运行速度 [4] - 公司首席执行官预告,未来几周将发布计算密集型的新产品 [4][22] - 部分新功能可能仅限Pro用户使用,甚至需要额外收费,这引起了Plus用户的不满 [23] 巨额算力投入的潜在目标 - 公司计划在单年投入高达500亿美元的计算资源(据称为GPT-5时代的6倍)用于训练模型,旨在取得突破性成果 [21]
马斯克新模型性价比拉满:1折价格实现Gemini 2.5性能,支持2M上下文
量子位· 2025-09-21 21:29
产品发布与核心特性 - xAI推出新一代多模态推理模型Grok 4 Fast 支持2M上下文窗口并与X平台无缝集成[1][3] - 模型具备智能搜索能力 可实时浏览网页和X平台 处理图像、视频等多种媒体内容并快速整合分析结果[21][22] - 采用端到端工具使用强化学习训练 擅长判断调用代码执行或网页浏览等工具时机[20] - 通过统一架构设计 同一组模型参数可处理长链思维推理和快速响应非推理任务 显著降低延迟与Token成本[24][25] 性能表现与基准测试 - 在推理基准测试中全面超越Grok 3 Mini 平均思考Token数量较Grok 4减少40%[11][12] - 在Artificial Analysis"人工分析智能指数"榜单中呈现业界领先的"价格-智能"比[14] - 文本竞技场排名第8 性能与grok-4-0709相当 同体量模型中表现最优(其他同类模型排名均在第18位及以下)[17] - 搜索竞技场以1163分强势登顶 较第二名o3-search领先17分[18] - 在BrowseComp测试中达44.9%(Grok 4为43.0%) BrowseComp中文测试达51.2%(Grok 4为45.0%)[23] 定价策略与市场定位 - 实现1折价格追平Gemini 2.5 树立性价比新标杆[10] - 输入Token定价为每百万Token 0.20美元(<128k tokens)或0.40美元(≥128k tokens) 输出Token定价为每百万Token 0.50美元或1.00美元[27] - 缓存输入Token定价为每百万Token 0.05美元[27] - 已面向所有用户开放 Auto模式下复杂查询将自动调用该模型[26] 技术团队与人才储备 - 从谷歌挖角关键人才Dustin Tran 其曾助力谷歌Gemini获得IMO、ICPC金牌[28] - Dustin Tran为谷歌DeepMind工作8年的高级研究科学家 深度参与Gemini系列研发 推动模型在LMSYS排行榜首次登顶[30] - 学术论文被引用超过24281次 h-index达47 i10-index达60[31][34]
OpenAI神秘狠人,花名Bob
量子位· 2025-09-21 21:29
文章核心观点 - OpenAI内部存在一位被称为“Bob”的关键工程师,其负责开发的高性能CUDA内核(Bob内核)对公司的AI模型训练至关重要,该内核每天在数十万张GPU上执行万亿次[1][2][3] - Bob的技术能力极为突出,被同事视为“巫师”,公司对其依赖度极高,其工作直接影响算力资源效率,若出bug会导致需要回滚checkpoint重训,浪费大量算力[4][6][8][9] - 行业推测Bob的真实身份是OpenAI资深技术人员Scott Gray,其背景与Bob内核的技术特征高度吻合,Scott拥有丰富的GPU内核优化经验,曾发表核心论文并参与多项重磅研究[16][17][19][22] - 硅谷AI公司对顶尖技术人才的争夺激烈,Meta等公司正积极瞄准此类核心人才,OpenAI此前已有核心研究员被Meta挖走,此次Bob身份的曝光可能引发新一轮人才竞争[10][26][28][29] 关键人物分析 - Bob是OpenAI内部神秘的核心工程师,专门负责推理用的CUDA内核开发,同事称其内核为“Bob内核”,他一人承担了这一高难度任务[1][2][6] - Bob的技术能力极强,能在几分钟内解决他人一周无法解决的问题,公司内部有“Bob magic”表情包对其表示膜拜[7][9] - 行业推测Bob的真实身份是Scott Gray,其为OpenAI资深员工,2016年加入,负责GPU内核优化,参与写作51篇机器学习论文,总引用超过80000次[16][17] 技术重要性 - Bob内核每天在数十万张GPU上执行万亿次,对精度要求极高,若出bug会导致回滚checkpoint重训,浪费大量算力资源[3][4] - Scott Gray在2017年作为一作发布《Block-sparse GPU kernels》论文,针对块稀疏权重设计高性能GPU内核,相比传统方案在特定稀疏度下可提速数倍[19][21] - 此类高性能CUDA内核技术是AI公司的核心基础工程,对模型训练效率有关键影响[14] 行业人才竞争 - Meta创始人扎克伯格已获悉Bob的相关消息,并将“Bob到底是谁”列为招聘会议Top 1事项,显示出对顶尖技术人才的强烈兴趣[10][12] - 硅谷AI公司对人才的争夺激烈,核心技术人员被视为公司机密,行业存在“露头就秒”的抢人现象[26][27] - OpenAI此前已有赵晟佳、Lucas Beyer、Alexander Kolesnikov等核心研究员被Meta挖走,人才竞争态势严峻[29]
AI播客的未来是成为每个人的音频助手,事实性、完整性和活人感都很重要|对话ListenHub
量子位· 2025-09-21 16:01
核心观点 - AI播客工具ListenHub定位为“创作者的AI嘴替”,旨在成为每个人的音频助手,通过三层Agent架构将文字等内容转化为高质量播客 [6][28][100] - 公司认为AI应用的核心在于通过工程化将60分的模型能力提升至90分的产品体验,满足用户真实场景需求 [40] - 语音交互(视频接收+音频输出)被视为未来核心的人机交互方式,公司正基于此方向开发下一代Voice Agent产品 [60][61] 产品定位与功能 - ListenHub核心功能包括AI播客(支持双人或单人模式)和FlowSpeech(全球首个书面语转口语化音频的TTS功能) [9][10] - 产品通过逐字编辑、音色定制(Pro会员支持克隆个人音色)、单人播客等差异化功能满足专业创作者需求 [32] - 产品采用三层Agent架构:信息获取Agent、内容整理Agent(确保事实性和完整性)、口语转换Agent [16][25][26] 技术实现与优势 - 内容整理Agent通过吸收传统播客制作论文的know-how和用户反馈,有效减少AI“幻觉”,确保输出内容忠于原文 [18][23][24][27] - 技术优势体现在工程链路优化和上下文管理,尤其擅长处理信息密度高的领域如科技、财经内容 [26][32] - 模型选择依赖团队的“品位”,需建立标准化评估集并对齐认知,同时强调将Prompt编写与上线的距离缩短 [69][70][72] 用户画像与市场策略 - 当前付费用户主要为自媒体从业者,涵盖营养、医学、汽车、财经等领域,用于公众号内容创作和内部培训 [29][39] - 用户转化的关键指标是“Aha Moment”,即用户首次参与内容生产并听完生成音频的时刻 [44][45] - 公司采用MVP策略,通过前100个真实付费用户的需求反馈驱动产品迭代,定价为Pro版年费1000多元 [33][34][36] 商业化与运营 - 功能开发优先级以“用户付费”为核心指标,凡有助于付费的功能均优先开发 [38] - AI产品应从第一天起考虑收费,因付费用户能提供最真实反馈且留存率与活跃度更高 [93][94] - 当前增长以有机增长为主,付费转化率远高于国内行业普遍的千分之几或万分之几水平 [95][97] 行业竞争与趋势 - 面对大模型厂商能力覆盖的威胁,公司认为用户切换成本高,且大模型进步速度不足以迅速吞噬细分领域 [79][80] - AI应用公司的护城河在于用户know-how和认知积累形成的数据飞轮,而非网络效应 [54][55] - Agent被视为创作领域的最终产品形态,其范式为用户提出需求,AI自动完成并基于反馈迭代 [59] 产品开发方法论 - 公司推行“人人都是产品经理”模式,无传统产品经理岗位,利用AI工具提升团队30%-50%效率 [49][50][51] - AI产品应尽早推出,但首次亮相必须将核心链路做到极致,以形成强烈的第一品牌印象 [75][76] - 创业公司需做“别人没做过的创新”(如FlowSpeech),以从0到1的突破获得传播优势,后来者将面临更高认知成本 [83] 未来规划 - 3-5年内公司愿景是成为用户音频内容的首选,覆盖从播客到短内容、长内容乃至实时生成小说的各类需求 [100][101] - 计划通过浏览器插件、API等方式降低使用门槛,服务更广泛人群包括老人、视障人士等 [101] - 下一代产品将聚焦语音交互赛道,开发“音频陪伴”类Voice Agent,解决当前实时语音助手“智商不够”的痛点 [61][62][64]
老黄9亿美元再投AI Infra,这次直接打包带走CEO和核心技术
量子位· 2025-09-21 14:36
英伟达对Enfabrica的“雇佣式收购” - 英伟达以约9亿美元(约合64亿元人民币)的交易,获取了AI基础设施初创公司Enfabrica的核心团队和技术授权,这是一种不收购公司实体但获取其核心资产的“雇佣式收购” [1][5][10] - 交易已于上周完成,Enfabrica的CEO罗尚·桑卡尔及其核心团队已入职英伟达 [2][11] - 这是英伟达今年以来的第4次对AI初创公司出手 [7] 被收购方Enfabrica的核心情况 - Enfabrica成立于2019年,是一家专注于解决AI计算中I/O、内存及网络瓶颈的硅谷基础设施公司 [6][13] - 公司技术旨在使大规模GPU集群能作为单体计算机运行,宣称可实现超过10万个GPU的互联,将数据中心GPU集群计算成本降低50%,内存扩展高达50倍 [13] - 公司迄今已融资2.6亿美元(约18.5亿人民币),在2023年末的估值达到6亿美元(约43亿元人民币) [6][15] - 其推出的“弹性AI内存架构系统”(EMFASYS)相比基于闪存的推理方案可降低50%的单token成本,比SSD层级延迟降低两个数量级 [15] - 2024年7月,公司推出了新的芯片加软件系统,通过将部分内存流量从高带宽内存(HBM)转移至低成本DDR5,以降低AI数据中心内存成本 [15] 交易关键人物背景 - 被聘走的CEO罗尚·桑卡尔曾在博通工作八年,担任数据中心以太网交换芯片业务高级总监,主导多代Tomahawk/Trident系列芯片,并推动构建了25G以太网等行业生态系统 [18] - 罗尚毕业于多伦多大学电气工程系,拥有沃顿商学院MBA学位,现持有六项技术专利 [20] 行业背景与战略意图 - 分析认为,英伟达此举意在长远布局,旨在保持其在AI硬件领域的霸主地位,不仅是在招揽人才,更是在锁定AI数据中心的网络骨干 [8][21] - 这种仅获取核心团队和技术授权的“降本增效”式收购,是硅谷科技巨头的常见策略,可以引入顶尖工程师和核心技术,同时避免整体收购带来的监管审查等麻烦 [24][26] - 此前,英伟达已于2023年参与了Enfabrica的B轮融资 [14] 硅谷类似的“雇佣式收购”案例 - 2024年6月,Meta以143亿美元(约1017.7亿元人民币)获取AI初创公司Scale AI创始人亚历山大·王等49%股权 [25] - 2024年7月,谷歌以24亿美元招揽人工智能编码初创公司Windsurf的联合创始人兼CEO及研发团队,交易包含技术授权 [25] - 2023年3月,微软支付约6.5亿美元获得Inflection的技术授权,其创始人携大部分员工加入微软并成立新部门 [27] - 2023年6月,亚马逊与Adept AI达成协议,雇佣其大部分员工并支付约3.3亿美元以授权技术 [28] - 2023年8月,谷歌母公司Alphabet与Character.AI达成协议,以20亿美元的许可费获得该公司的技术和人才资源 [29]
鸿蒙的全面进击:“天工计划”十亿重磅加码,打造AI全场景新生态
量子位· 2025-09-21 14:36
鸿蒙操作系统5的AI全场景能力 - 系统展示了更强大的AI全场景能力,包括"小艺任务空间"、"情绪感知"以及"小艺大脑"等一系列更高阶的体验 [1] - 系统在构建之初就将原生AI能力融入其中,是目前唯一能实现AI能力在多终端、全场景无缝打通的操作系统 [3] - 系统让AI发挥能动性,而非仅作为可调用的工具,旨在消融设备壁垒,使AI成为无处不在的生态级能力 [6] 鸿蒙5终端设备与生态进展 - 从今年三月至今,公司已发布多款鸿蒙5终端产品,包括首次接入"真人感"小艺的阔折叠Pura X、全球首款鸿蒙折叠电脑及新一代三折叠屏手机Mate XTs非凡大师 [4] - 截至目前,鸿蒙5终端设备数量已超过1700万台,超过3万个应用和元服务上架,生态发展进入快车道 [5] - 今年4季度还将有包括旗舰手机在内的更多新品陆续发布 [5] 小艺任务空间的功能与应用 - 小艺任务空间作为小艺的"左脑",负责动脑子、理思路、拆任务,能处理8大类高频场景,如办公写作、出行规划、创意策划等 [9][10] - 在生活场景中,用户只需一句话(如"我想去成都玩三天"或"帮我安排个生日派对"),小艺即可主动拆解并执行完整任务流程,如订机票、查天气、预订景点门票、安排酒店等 [11][14] - 小艺能整合信息并高效完成任务,例如进行市场研究时,可在20分钟内调取数据库、整合5000+网页信息,生成万字报告并制作PPT [10] 小艺情绪感知与多设备协同 - 情绪感知功能通过调动多个设备的状态数据,感知用户的语气、情绪和当下状态,可识别11种情绪状态,并根据不同场景给出情绪回应 [18][20] - 在多设备协同场景下,系统能实现无感交互,例如在早晨开车门时以小艺欢快情绪打招呼,或在跑步时根据运动数据实时交流、提醒节奏 [19] - 小艺大脑作为调度中枢,可实现多设备统一决策和无感协同,例如在开车时用户说"帮我记下",车机小艺应答并调动手机备忘录保存内容 [22][24] 鸿蒙AI生态扶持与开发者支持 - 公司启动"天工计划",投入10亿资金和资源扶持鸿蒙AI生态创新,旨在降低开发者门槛并提升效率 [28] - 小艺智能体开放平台提供4种开发模式(大语言模型模式、工作流模式、A2A模式、多Agent模式)、50多种开发组件能力,并支持自然对话创建智能体 [30] - 平台开放10个AI领域Kit、11类AI控件、240+标准意图,使开发者能像拼积木一样高效构建AI Agent,无需从零搭建逻辑 [30] 鸿蒙系统反馈与进化路径 - 系统已收到超1000万条用户反馈,96%以上的问题实现快速响应与闭环,并启动"鸿蒙心声计划"邀请用户参与反馈 [38][39] - 鸿蒙的进化路径是从"承载AI"到"由AI驱动",从"适配平台"到"共建生态",最终迈向"协同智能体",重新定义操作系统的调度和运行方式 [40] - 公司围绕AI变革制定了明确方向,如智能体从执行工具演进为决策伙伴,交互方式从图形界面转向自然语言及多模态交互 [32][34][36]
无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界
量子位· 2025-09-21 14:36
文章核心观点 - 西湖大学AGI实验室提出的WorldForge框架通过推理时引导策略实现视频生成的高精度时空控制 绕开传统微调或重训模型的高成本路径 为可控世界模型提供新研究方向 [1][8][14] 技术原理与架构 - 采用步内递归修正(IRR)模块 通过预测-校正微循环在去噪过程中逐步消除轨迹偏离 确保生成内容遵循预设运动轨迹 [4][5] - 流门控潜在融合(FLF)模块通过光流得分分离运动与外观特征 将轨迹信号精准注入高运动相关度通道 避免破坏画面质感 [6] - 双路径自校正引导(DSG)模块利用引导路径与非引导路径的输出差异生成校正项 同时保证轨迹精确性与画面质量稳定 [7] 应用场景与性能 - 支持单视图生成3D静态场景 仅需一张照片即可重建三维场景并生成360°环绕视频 [9] - 实现视频电影级重运镜 允许用户自由设计镜头轨迹智能补全新视角场景 效果领先需大量训练的SOTA模型 [11] - 具备视频内容二次创作能力 包括主体替换、物体擦除/添加及虚拟试穿等编辑功能 [12] 行业意义与创新 - 为视频生成领域提供不修改模型权重、即插即用的引导策略 降低技术与资源门槛 [1][14] - 通过推理时引导结构化模型内部世界知识 为可控世界模型构建开辟低训练成本新路径 [8][14]
马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错
量子位· 2025-09-21 10:11
基准测试概述 - 字节跳动Seed团队与哥伦比亚大学商学院联合推出首个完全开源的金融搜索与推理基准测试FinSearchComp [1] - 基准包含635个由金融专家精心设计的问题,覆盖全球和大中华两个市场,并在多个主流模型产品上进行了全面评测 [1] 评测核心结果 - 全球数据集上表现最好的模型Grok 4 (web)准确率为68.9%,但仍落后人类专家6.1个百分点 [2] - 大中华区数据集上豆包(web)领先其他模型,但与人类专家88.3%的准确率相比,差距超过34个百分点 [2] - 结果表明即使最先进的AI系统在处理复杂金融分析任务时仍有很大提升空间 [3] 任务设计框架 - 设计三类递进式难度任务以反映金融分析工作流程的实际复杂性 [9][11] - T1时效性数据获取任务:要求获取每日或日内变化的数据,如最新股价、汇率,强调数据时效性搜索和多信息源判断 [10] - T2简单历史查询任务:需要查找固定时间点的事实,关键挑战在于对齐报告惯例并确保单位和货币一致性 [10] - T3复杂历史调查任务:要求进行多期聚合或综合分析,需要跨越长时间跨度检索数据并进行多步推理 [10] 数据质量保障 - 构建过程得到字节跳动Xpert平台支持,汇聚70位金融专家提供专业支持 [13] - 所有答案均来自高度可靠渠道,包括上市公司官方披露、政府和监管机构网站以及专业金融数据库 [13] - 采用多源交叉验证方法确保数据可靠性,数据集构建过程耗时约240小时专家工时 [13][14] 关键评测发现 - 所有模型表现从T1到T3单调递减,证明基准确实测试越来越复杂的搜索和推理能力 [16] - 配备网络搜索功能的模型在三个任务上分别获得40.8、29.0和8.1个百分点的巨大提升 [16] - 美国模型在全球数据集上领先,中国模型在大中华区数据集上表现更好,体现地域特征 [16] - 金融插件价值显著,在元宝平台使用金融插件的DeepSeek R1比官方网站版本表现提升31.9个百分点 [18] 行业意义与应用前景 - 金融分析涉及大量复杂信息搜索和整合,要求时效性、精确性和跨源信息整合 [8] - 美国约有37万金融专业人士,全球可能超过100万金融分析师每天执行信息检索任务 [19] - 个人分析师每天执行10-30次简单历史查询,每次平均需要5-10分钟,复杂历史调查每次需要15-60分钟 [19] - 约有一半的信息检索活动仍需手动数据收集,AI准确完成这些任务可显著提升整体生产力 [19]