Workflow
开源模型
icon
搜索文档
观察| 100万亿Tokens的:AI正在发生你看不见的巨变
文章核心观点 - 基于OpenRouter平台超过100万亿tokens的真实使用数据,AI行业正在经历一场深刻的范式转变,其核心是从“工具”进化为“伙伴” [1][2][3] - 这场转变由两大技术革命驱动:“推理革命”使AI具备多步骤思考能力,“代理式AI”使AI能够自主规划并执行任务 [11][27] - 真实的用户行为和市场数据揭示了与实验室基准测试不同的竞争格局,开源模型(特别是中国的DeepSeek和Kimi)凭借成本、灵活性等综合优势正在强势崛起 [44][47] - 用户选择模型的标准日益多元化,模型“人设”(个性)和突破性能力对用户留存的影响,可能超过传统的性能基准分数 [88][96][100] - AI的应用场景已进入爆发期,正从创意写作和编程两大引擎,扩展到角色扮演等满足情感需求的领域,并深刻重塑普通人的工作、学习和娱乐方式 [69][71][80][121] 数据来源与重要性 - 报告数据来源于硅谷风投A16Z与OpenRouter联合发布的《State of AI: An Empirical 100 Trillion Token Study》,这是基于真实战场数据的首次大规模研究 [2] - 数据覆盖了OpenRouter平台上过去一年产生的超过100万亿tokens,涉及500万开发者、300多个AI模型及60多家提供商 [2] - OpenRouter被比喻为“AI世界的美团外卖”,连接了几乎所有主流AI模型,其数据的核心价值在于多样性,能够反映用户在公平平台上的真实选择 [5][7][8] - 从2024年初到2025年中,OpenRouter的年处理流量从约10万亿tokens增长至超过100万亿tokens,增幅达10倍,标志着AI应用从“尝鲜期”进入“爆发期” [8] - 作为对比,OpenAI官方API在2024年10月的日均处理量为8.6万亿tokens,而OpenRouter的日处理量已突破1万亿tokens [6] 推理革命 - 核心转变是AI从“接话机器”(一次性输出)进化为“思考机器”(多步骤思考),能够像人类一样分解问题、搜索信息并迭代优化 [13][16] - 标志性事件是OpenAI于2024年12月5日发布的o1推理模型,其特点是会进行内部推理,开启了“代理式推理”的新模式 [17][18] - 市场数据支持这一趋势:用户提示词长度显著增加、对话轮次增多,且专业推理模型的市场份额快速上升 [20][21][22] - 用户正用更复杂的任务“训练”AI,而能够胜任复杂任务的推理模型正在赢得市场 [23] - 这喻示着AI的角色从“计算器”(工具)进化为“工程师”(同事),实现了从工具到同事的跨越 [25][26] 代理式AI - 代理式AI改变了AI的“手脚”,使其从被动、单次、静态的问答,转变为主动、多步、动态的任务执行者 [27][29][30] - 例如,在分析财报时,代理式AI能主动搜索最新信息、下载文件、提取数据并生成分析报告,突破了传统模型数据过时的局限 [31][32][33] - A16Z报告指出,代理式推理是OpenRouter上增长最快的行为模式,表明开发者正在大规模构建能自主完成任务的AI代理应用 [34][35] - 这意味着用户期待从“给我一个答案”变为“帮我完成这件事”,AI的价值从“信息检索”升级到“任务执行” [35][36] - 竞争前沿随之改变,重点转向模型的编排能力、控制力和可靠性,而不仅仅是准确率,这要求AI公司构建全新的“模型调度系统”技术栈 [42][43] 开源模型的崛起与中国力量 - 真实使用数据挑战了“闭源模型碾压开源”的常识,显示开源模型,尤其是推理型开源模型正在快速抢占市场份额 [46][47] - 中国的DeepSeek R1和Kimi K2在报告中表现突出,成为开源逆袭的代表 [47] - DeepSeek R1凭借巨大的成本优势(调用成本可能低至GPT-4的十分之一)、不输闭源模型的推理能力以及开源可自部署的灵活性,获得开发者青睐 [51][52][53][54] - Kimi K2是一个万亿参数级的开源MoE模型,在长文本处理和推理任务上表现优异,发布后短时间内即获得显著市场份额 [56][57] - 开源逆袭的关键在于真实世界的“好用”不等于基准测试的“高分”,用户选择是成本、延迟、定制性、隐私及“人设”匹配度等综合权衡的结果 [59][65] - 这对中国AI产业意味着,在推理能力等新方向上与国际顶尖水平的差距正在缩小,开源路线结合成本优势和特定能力可以形成强大的市场竞争力 [67][75] 真实应用场景与用户行为 - 驱动token使用量的两大核心场景是创意写作和编程 [71] - 在编程场景中,代码生成、解释和debug是高频需求,AI的价值不仅在于“生产力”,更在于“理解力” [73][74] - 在创意写作中,AI主要作为“创意合伙人”与人类共创,而非完全替代 [77][78] - 角色扮演占据了相当大比例的使用量,这揭示了人类与AI交互中存在“情感连接”的维度,满足了陪伴、娱乐等需求 [80][81][82] - 全球使用模式存在地区差异,例如北美多用于专业工作,亚洲多用于学习和创意,欧洲更偏好隐私和开源模型,体现了AI应用的本地化特征 [84][88] 模型“人设”与用户选择 - 用户能感知到不同AI模型的独特“性格”,如GPT-4的博学严谨、Claude的细腻谨慎、Gemini的快速直接、DeepSeek的专注深入,这些构成了模型的“人设” [89][94] - 报告发现,某些在学术基准测试中表现一般的模型,却因“人设”受欢迎而拥有出色的用户留存率 [96][97] - 用户体验到的“突破性能力”(如卓越的代码、长文本、多模态或推理能力)能建立用户忠诚度,促使用户迁移并不再返回 [100][102] - 这对AI公司的启示是:不应只追求基准分数,而需打造差异化“人设”并在细分场景做到极致,同时突破性创新是建立护城河的关键 [103][104][105] 对中国AI产业的启示 - 积极信号:DeepSeek R1和Kimi K2在全球真实市场中站稳脚跟,证明中国开源推理模型已具备全球竞争力 [108][109][110] - 现存挑战:在开发者工具、生态集成及海外品牌认知方面,与国际领先者仍有差距 [112][116] - 重大机遇:“推理革命”和“代理式AI”是新赛道,中国公司在工程能力和丰富应用场景方面具有优势,存在弯道超车的机会窗口 [113][114][116] - 发展建议:聚焦推理和代理能力;采用“开源+商业”双轮驱动;重视开发者体验等软实力;打造差异化“人设”而非简单模仿 [115][117][118][119] 对普通人日常的影响 - 工作方式重构:AI正成为各行业从业者的必备技能,其价值在于将人从重复劳动中解放,聚焦于更高价值的洞察、创新与决策 [122][126] - 学习方式升级:AI能提供个性化、沉浸式的学习辅导,如实时答疑、语言对话、知识讲解,有助于消解教育资源不平等的问题 [127][131] - 娱乐方式扩展:AI创造了如角色扮演、互动小说等“主动共创”的新娱乐形态,超越了传统的被动观看 [132][134][135] - 需警惕的风险:包括对AI的依赖性可能导致独立思考能力退化、数据隐私问题、信息茧房效应以及AI生成内容的真假难辨 [136]
蔡崇信|港大演讲全记录:中国AI必将超越美国,因为有四张底牌
搜狐财经· 2025-12-06 02:41
中国AI技术进展与竞争力 - 深度求索公司于12月1日发布DeepSeek-V3.2系列模型,在公开推理测试中表现达到GPT-5水准,略逊于Gemini-3.0-Pro;其增强版V3.2-Speciale在IMO 2025、CMO 2025等四项国际顶级竞赛中斩获金牌 [1] - 在空间推理基准测试SpatialBench最新榜单中,阿里巴巴的千问视觉理解模型Qwen3-VL和Qwen2.5-VL占据前两名,超越了Gemini 3、GPT-5.1、Claude Sonnet4.5等国际顶尖模型 [1] - 阿里巴巴的通义千问模型在一场为期约两周的加密货币和股票交易竞赛中获胜,测试了约10个不同的中美模型,DeepSeek模型位列第二 [21] 阿里巴巴的发展历程与转型 - 阿里巴巴从1999年人均GDP 800美元的中国起步,如今人均GDP已达13000美元,公司经历了中国制造业崛起与互联网浪潮交汇的双引擎增长 [8] - 公司从最初的英文B2B网站起步,旨在为中小企业创造公平的国际贸易竞争环境,随后演进到消费者商务(淘宝)、支付(支付宝)和物流等领域 [9][11] - 成功的秘诀在于遵循客户需求进行有机发展,而非依赖收购,一切业务都是围绕解决客户痛点而自然发展起来的 [11] - 云计算业务始于16年前,源于管理海量数据时对技术自力更生的需求,旨在避免将利润全部交给第三方技术供应商,后来将技术开放给第三方客户从而进入云计算市场 [12] 中国经济增长与科技政策展望 - 中国“十五五”规划纲要的两个主要要点是:继续成为制造业强国,以及实现技术自立自强 [14][17] - 中国消费占GDP比重不到40%,远低于美国的70%,因此经济增长路径侧重于生产和制造,并将产品出口到世界其他地区 [15] - 中国政府设定了到2030年AI智能体和设备普及率达到90%的目标,这是一种务实、目标导向的政策,旨在通过市场力量实现AI的高普及率 [19] - 中国将维持世界制造业中心地位视为财富创造的基础,当前重点是高科技制造业,如电动汽车、电池、太阳能电池板等领域已是世界领先 [17][18] 中国在AI领域的竞争优势 - **能源优势**:中国国家电网每年投入900亿美元资本支出用于电力传输,美国仅为300亿美元;中国发电装机容量是美国的2.6倍,新增发电容量是美国的9倍,且大部分来自清洁能源;中国每千瓦时电力成本比美国便宜约40% [21][22] - **成本优势**:在中国建造数据中心的成本比美国便宜60% [22] - **人才与工程优势**:中国拥有大量工程师,是每年产生最多STEM学生的国家;全球近一半的AI科学家和研究人员拥有中国大学的学位;GPU的短缺迫使中国公司在系统层面进行创新,形成了“饥饿优势” [23][25] - **语言与文化优势**:全球AI领域许多想法的分享和交流正在使用中文进行,这使得懂中文在AI世界成为一种优势 [25] - **开源战略优势**:中国公司(如阿里巴巴)强调开源大语言模型,这降低了使用成本、保护了数据隐私,并加速了AI在社会中的普及和采用 [26][27] 阿里巴巴的AI与云计算战略 - 公司的AI战略包括同时发展大语言模型和云计算业务,通过云服务为AI提供基础设施并实现变现,同时将模型开源以促进广泛采用 [43] - 云计算被视为一种公用事业,当前最热的领域是AI,支撑着AI模型的训练和推理;未来的重大转变是AI从工具演变为伙伴 [34] - 公司通过云服务(包括存储、数据管理、安全、网络、容器等全套产品)来变现,利用运营杠杆降低服务客户的单位成本 [27][30] 对年轻人的技能与学科建议 - **技能组合**:应学习如何获取知识、培养分析信息的框架、提出正确的问题;学习计算机编程以锻炼逻辑思考过程;学习使用电子表格以理解公式构建与计算逻辑 [31][32] - **学科专业**:建议学习数据科学(统计学)、心理学/生物学(理解人脑工作方式)以及材料科学(对未来半导体等领域创新至关重要) [32][33] 职业发展与行业洞察 - 评估职业决策时应权衡下行风险与上行潜力,寻找不对称的风险回报机会,如同金融看涨期权;关键在于做好准备以抓住来临的机会 [35][36] - AI现象是真实的技术进步,并非泡沫;可能存在金融市场估值泡沫,但如同互联网泡沫破裂后互联网变得更强大一样,AI技术本身及其基础设施投入不会浪费 [36][37] - 管理职业体育团队与科技公司在理念上正趋同,核心都是挑选合适的人才、建立信任,并找到比自己更专业、更聪明的人以推动组织成长 [39][42]
AI泡沫要破?巨佬颠覆认知的观点来了!
格隆汇· 2025-12-04 15:29
文章核心观点 - 阿里巴巴联合创始人蔡崇信提出,人工智能竞赛的胜负关键不在于谁拥有最好的大语言模型,而在于谁能将AI技术最好地应用于各行业和实际生活,即关注应用而非仅模型本身 [1][2][22] 中国AI的竞争优势 - **电力成本优势**:中国电力成本比美国低40%,源于国家电网每年资本支出达900亿美元,而美国仅为300亿美元,这构成了AI应用的基础能源成本优势 [3] - **数据中心建设成本优势**:在中国建造数据中心的成本比美国便宜60% [4][5] - **工程师与人才红利**:全球近一半的AI科学家和研究人员拥有中国大学学位,中文在AI领域的交流中正成为一种优势 [6] - **“饥饿优势”激发创新**:硬件(如顶级GPU)的受限,迫使中国团队在系统与算法层面进行极致优化,从而提升效率,例如爆火的DeepSeek便是被逼出来的成果 [7][8] 开源模型的战略价值 - **开源模式将胜出**:蔡崇信判断,中国公司采用的开源大语言模型方法将击败闭源模型,因其能加速AI的采用与普及,使更广泛的社会受益 [8][10] - **开源的核心优势**:开源模型具备成本低廉(使用几乎不花钱)、数据主权(数据可部署于私有云,不出国门)和隐私可控三大优势,这尤其符合当前复杂地缘政治环境下各国对“主权AI”的需求 [9][12][13][14] AI时代的发展建议与行业展望 - **个人核心技能转变**:在AI时代,提出正确的问题比找到答案更重要,“提示工程”将成为人类的核心竞争力 [15] - **编程学习的意义**:学习编程的目的不是为了操作机器,而是为了训练逻辑思维过程,学习使用如Excel等工具进行复杂公式计算也是一种逻辑训练 [16][17][18] - **推荐的专业方向**:数据科学(管理分析数据)、心理学与生物学(理解人脑工作机制)、材料科学(推动半导体等物理材料创新)是未来值得关注的学习领域 [19] - **AI技术真实性**:AI现象是真实的技术进步,相关基础设施和研发投入不会浪费,当前可能存在的仅是金融市场估值泡沫,而非技术本身泡沫 [20] - **AI的角色演进**:AI的下一个重大转变是从工具转变为人类的伙伴,当人们开始像对待另一个人一样看待AI时,将真正改变世界和行为 [23]
闭源越跑越快之后,DeepSeek V3.2 如何为开源模型杀出一条新路
深思SenseAI· 2025-12-03 17:51
文章核心观点 - 闭源模型在综合能力上持续领先,与开源模型的差距在拉大,尤其在复杂任务上优势明显 [1] - DeepSeek V3.2系列模型通过三项关键技术改进,在效率、后训练算力投入和AI Agent能力上取得突破,实现了在有限预算下接近顶级闭源模型(如GPT-5)的性能,为开源社区提供了新的发展路径 [2][3][6][16] 闭源与开源模型的现状与挑战 - 权威评测指出,在最前沿的综合能力上,闭源模型的性能曲线更陡,开源模型在所有维度上追平变得越来越难 [1] - 闭源模型(如Anthropic、Gemini、OpenAI)在复杂任务上展现出越来越明显的优势,与开源模型的差距在拉大 [1] - 开源模型面临三个关键问题:依赖低效的Vanilla Attention机制限制了长序列场景的计算效率和部署;后训练阶段算力投入不足;在AI Agent场景中,泛化与指令跟随能力显著滞后于闭源系统 [2] DeepSeek V3.2的技术改进与架构创新 - 引入DeepSeek Sparse Attention稀疏注意力机制,旨在显著降低长上下文场景下的计算复杂度,这是相比前代V3.1-Terminus唯一的架构层修改 [2][6] - DSA采用两阶段稀疏化筛选机制:通过“闪电索引”轻量级模块计算索引分数,再根据分数仅对得分最高的Top-k个键值条目进行细粒度计算,将核心注意力复杂度从O(L^2)降低到O(L*k) [7][11] - DSA在多头潜在注意力框架下实例化,采用多查询注意力模式以最大化计算效率 [10] - 2025年9月评估显示,DSA在常规任务上相比密集注意力基线没有性能下降,在AA-LCR长文本推理基准测试中得分比上一代模型高出4分 [11] 后训练策略与算力投入 - 将后训练阶段的算力预算提升至超过预训练成本的10%,通过扩大后训练计算规模来释放更高阶的模型能力 [3][12] - 摒弃传统分阶段微调,采用单阶段混合强化学习方案,将推理、智能体和人类对齐任务合并进行,以解决灾难性遗忘问题 [12][14] - 通过专家蒸馏闭环(先训练专家模型并蒸馏,再通过混合RL优化)和算法底层优化(如推导无偏KL估计器、引入离策略序列掩码)来保证训练稳定性和性能上限 [14] - 构建了DeepSeek V3.2 Speciale版本,在RL阶段移除长度惩罚,允许超长思维链推理,使其在IMO 2025和IOI 2025中斩获金牌,硬实力追平闭源模型Gemini 3.0 Pro [14] 数据流水线与AI Agent能力提升 - 提出新的数据流水线,用于在工具使用场景中培育具有泛化能力的推理 [3] - 推进到大规模的agentic任务合成阶段,构建了超过1,800个不同环境以及85,000个复杂提示,这些大规模合成数据显著提升了模型在agent场景下的泛化能力和指令跟随能力 [3] 对行业与开源生态的意义 - Scaling law的边际收益正在变小,复制从GPT-3.5到GPT-4量级的提升已很难仅靠堆叠数据和算力实现,需要新的科学思路、训练机制和架构范式来打开增长曲线 [16] - 大模型发展被拉回到一个更偏“学术研究驱动”的时代,模型本身不是护城河,能力和落地才是 [16] - DeepSeek为开源社区做出了榜样,展示了如何在有限预算下通过重做架构、训练和重塑Agent体系,走出一条不依赖闭源的道路 [16]
DeepSeek杀出一条血路:国产大模型突围不靠运气
36氪· 2025-12-03 11:21
技术突破与架构创新 - 公司发布DeepSeek-V3.2和Speciale两款模型,推理性能对标GPT-5,在数学、逻辑和多轮工具调用中表现强势,成功刷新国内开源模型在推理能力上的最高纪录[1][2] - 突破核心在于引入稀疏注意力机制(DSA),通过“闪电索引器”快速预判关键token对,将核心注意力机制的计算复杂度从平方级降至近线性,在128K超长上下文中保持稳定计算负担[2][3] - 采用“密集预热—稀疏过渡”的双阶段训练策略,实现架构渐变式演进,在Fiction.liveBench、AA-LCR等长文本任务测试中信息召回、上下文一致性和压缩表达能力得分显著上升[3] Agent能力与战略转向 - 公司将“Agent能力”与“推理能力”并列为核心指标,视Agent为模型能力释放与产业落地的桥梁,而非附属模块[6] - 为打造Agent训练体系,合成了超过1800个智能体环境,设计了约85,000条高复杂度任务提示,通过自研的GRPO策略进行强化学习闭环训练[7][8] - 引入“Thinking in Tool-Use”工具使用范式,将执行链条改为交错逻辑,并设计上下文管理策略,使推理轨迹在工具调用过程中被完整保留,实现“状态延续机制”[4][8] 后训练策略与效率提升 - 采用“后训练三件套”策略:专家蒸馏、多轨强化学习、工具思维机制融合,通过六类专家模型生成高质量训练样本反哺主模型[10][11] - 后训练阶段算力投入占比超过预训练预算的10%,强化学习过程通过任务环境自带反馈机制与rubric自动评分,形成闭环学习路径[11] - 设计冷启动系统提示和上下文状态管理,显著降低token冗余,提升“单位token的智能密度”,实现在资源受限前提下提升模型效能[12] 行业竞争格局与路径选择 - 在规模红利见顶后,行业竞争焦点从“参数多少”回归到“思维组织力”与“能效比”[5] - 公司对Agent的理解从“任务执行插件”上升至“模型操作系统”组成部分,试图主导“交错式思维+工具使用”的统一范式,争夺平台话语权[9] - 与闭源阵营追求“更大、更快、更强”的路径不同,公司代表了一种“更轻、更稳、更聪明”的新路径,以更强的推理组织力和更高效训练范式重构开源模型竞争秩序[13]
开源最强!“拳打GPT 5”,“脚踢Gemini-3.0”,DeepSeek V3.2为何提升这么多?
华尔街见闻· 2025-12-02 12:21
模型性能突破 - DeepSeek-V3.2在推理测试中达到GPT-5水平,仅略低于Gemini-3.0-Pro [1] - DeepSeek-V3.2-Speciale在IMO 2025等四项国际顶级竞赛中斩获金牌 [1] - V3.2在AIME 2025测试中达到93.1%通过率,接近GPT-5的94.6%和Gemini-3.0-Pro的95.0% [20] - V3.2在HMMT 2025测试中得分92.5%,与顶级闭源模型差距进一步缩小 [20] 技术创新亮点 - 采用DeepSeek Sparse Attention稀疏注意力机制,将注意力复杂度从O(L²)降低至O(Lk) [6][7] - 实现"思考+调工具"融合机制,成为首个在"思考模式"下支持工具调用的模型 [2][9] - 通过大规模Agent训练数据合成方法,构造1800多个环境、85000多条复杂指令的强化学习任务 [2][11][12] - 后训练计算预算超过预训练成本的10%,为高级能力释放奠定基础 [15] 技术能力表现 - 在代码智能体任务SWE-Verified中获得73.1%解决率,在Terminal Bench 2.0中达到46.4%准确率 [20] - 在搜索智能体评估BrowseComp中通过上下文管理技术,从51.4%提升至67.6%通过率 [20] - 在工具使用基准测试τ2-Bench中获得80.3%通过率,在MCP-Universe中达到45.9%成功率 [20] - 在代码修复、搜索路径规划、多步骤任务中泛化能力大幅领先过往版本,接近闭源商业模型 [14] 行业影响意义 - 证明开源模型完全有能力成为世界级选手,打破闭源模型的绝对技术垄断 [3][21] - 大模型军备竞赛从"谁参数大"升级为"谁方法强" [22] - 为开发者提供成本更低、可定制性更强的高性能模型选择 [22] - 企业不必再完全依赖海外API,也能构建强大AI系统 [22]
DeepSeek又上新!模型硬刚谷歌 承认开源与闭源差距拉大
第一财经· 2025-12-02 07:13
模型发布概览 - 公司于12月1日晚发布两款新模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,推理能力全球领先 [1] 模型定位与性能对比 - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用智能体任务,在公开推理测试中达到GPT-5水平,略低于谷歌Gemini3 Pro [4] - DeepSeek-V3.2-Speciale是长思考增强版,结合数学定理证明能力,目标是将开源模型推理能力推向极致,在多个推理基准测试中超越谷歌Gemini3 Pro [4] - Speciale模型在美国数学邀请赛得分95.0(15k),哈佛MIT数学竞赛(HMMT Feb 2025)得分97.5(16k),国际数学奥林匹克竞赛(IMOAnswerBench)得分83.3(18k) [5] - 在编程能力上,Speciale在LiveCodeBench得分90.7(13k),CodeForces得分2708(22k),但在理工科博士生测试(GPQA Diamond)中得分82.4,略逊于谷歌模型 [5] - Speciale模型斩获IMO、ICPC World Finals及IOI金牌,ICPC成绩达人类选手第二名水平,IOI成绩达人类选手第十名水平 [5] 技术架构创新 - 公司提出稀疏注意力机制(DSA)以解决标准注意力机制对长序列处理效率的制约,大幅降低计算复杂度 [7] - 经过两个月实验确认稀疏注意力机制有效性,在不牺牲长上下文性能前提下解决关键计算复杂性问题 [7] - 两款新模型均引入稀疏注意力机制,使V3.2成为具有成本效益的智能体场景替代方案 [7] 产品部署现状 - 公司官方网页端、App和API均已更新为正式版DeepSeek-V3.2 [8] - 增强的Speciale版本目前仅以临时API服务形式开放,供社区评测与研究 [8] 行业竞争格局 - 公司承认其模型在世界知识广度、令牌效率及复杂任务解决能力方面仍落后于领先的专有模型如Gemini3 Pro [6] - 尽管开源圈持续进步,但过去几个月中闭源专有模型如谷歌、OpenAI、Anthropic的性能增长速度显著更快 [6] - 闭源模型与开源模型之间的性能差距日益扩大,专有系统在复杂任务中展现出越来越强的优势 [6] - 行业中存在三个关键缺陷:标准注意力机制制约长序列处理效率、后训练阶段计算投入不足、AI智能体泛化能力存在差距 [7]
开源最强!“拳打GPT 5”,“脚踢Gemini-3.0”,DeepSeek V3.2为何提升这么多?
美股IPO· 2025-12-02 06:29
模型性能突破 - V3.2在工具调用能力上达到当前开源模型最高水平,大幅缩小开源模型与闭源模型的差距[1][4] - V3.2在推理测试中达到GPT-5水平,仅略低于Gemini-3.0-Pro[3] - V3.2-Speciale在IMO 2025等四项国际顶级竞赛中斩获金牌[3] 核心技术创新 - 采用DeepSeek Sparse Attention稀疏注意力机制,将注意力复杂度从O(L²)降低至O(Lk)[8][9] - 实现"思考+工具调用"融合机制,首个在思考模式下支持工具调用的模型[7][11] - 思考模式采用先分析、再规划、再调用工具、再验证、再修正的闭环流程[11][12] 训练策略升级 - 通过大规模Agent训练数据合成方法,构造1800多个环境、85000多条复杂指令的强化学习任务[1][4][13] - 后训练计算预算超过预训练成本的10%,资源投入为高级能力释放奠定基础[18] - 采用可扩展的强化学习框架,在GRPO算法基础上引入多项稳定性改进[19] 评测表现数据 - 推理能力:AIME 2025测试通过率93.1%,接近GPT-5的94.6%和Gemini-3.0-Pro的95.0%[20] - 代码智能体:SWE-Verified解决率73.1%,Terminal Bench 2.0准确率46.4%[20] - 搜索智能体:BrowseComp通过率从51.4%提升至67.6%[20] - 工具使用:τ2-Bench通过率80.3%,MCP-Universe成功率45.9%[20] 行业影响 - 证明通过正确架构+数据策略+工具融合设计,开源模型完全有能力成为世界级选手[4] - 大模型赛道从"参数竞赛"走向"能力竞赛",开源模型在关键能力维度逼近顶级闭源模型[3] - 为开发者提供成本更低、可定制性更强的高性能模型选择[23]
DeepSeek 重要发布
上海证券报· 2025-12-01 21:57
模型发布与产品线更新 - 公司于12月1日同时发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - 官方网页端、App和API均已更新为正式版DeepSeek-V3.2 [1] DeepSeek-V3.2模型定位与能力 - 该模型的目标是平衡推理能力与输出长度,适合日常使用 [1] - 适用场景包括问答场景和通用Agent任务场景 [1] DeepSeek-V3.2-Speciale模型定位与能力 - 该模型的目标是将开源模型的推理能力推向极致,探索模型能力的边界 [1] - V3.2-Speciale是DeepSeek-V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力 [1] - 该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力 [1] - 在主流推理基准测试上的性能表现媲美国际头部模型 [1] DeepSeek-V3.2-Speciale模型竞赛成就 - 该模型成功斩获IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及IOI 2025(国际信息学奥林匹克)金牌 [1] - 其中,ICPC成绩达到了人类选手第二名的水平 [1] - IOI成绩达到了人类选手第十名的水平 [1]
DeepSeek又上新!模型硬刚谷歌,承认开源与闭源差距拉大
第一财经· 2025-12-01 21:31
模型发布与核心定位 - 公司于12月1日晚发布两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale,其推理能力全球领先 [1] - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用智能体任务场景,此次为9月底实验版V3.2-Exp的正式版更新 [3] - DeepSeek-V3.2-Speciale定位为将开源模型推理能力推向极致的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,具备出色的指令跟随和逻辑验证能力 [3] 模型性能表现 - 在公开推理测试中,DeepSeek-V3.2达到GPT-5水平,仅略低于谷歌Gemini3 Pro [3] - DeepSeek-V3.2-Speciale在多个推理基准测试中超越谷歌Gemini3 Pro,特别是在数学竞赛中表现优异 [4] - 具体测试成绩显示:在美国数学邀请赛(AIME 2025)中,Gemini3 Pro得分为95.0(15k),DeepSeek-V3.2得分为93.1(1k);在哈佛MIT数学竞赛(HMMT Feb 2025)中,Gemini3 Pro得分为97.5(16k),DeepSeek-V3.2-Speciale得分为92.5(1k) [5] - Speciale模型斩获IMO、ICPC World Finals及IOI金牌,其中ICPC与IOI成绩分别达到人类选手第二名与第十名水平 [5] 技术突破与优化 - 两款模型均引入稀疏注意力机制(DSA),旨在解决标准注意力机制对长序列处理效率的制约,并确认该机制可大幅降低计算复杂度且不牺牲长上下文性能 [7] - 采用新机制后,V3.2在智能体场景中成为具有成本效益的替代方案,不仅缩小了与前沿专有模型的性能差距,成本也显著降低 [8] 行业趋势与挑战 - 当前开源与闭源模型的差距在拉大,闭源专有模型(如谷歌、OpenAI、Anthropic)的性能增长速度显著更快 [6] - 闭源模型与开源模型之间的性能差距并未缩小反而日益扩大,专有系统在复杂任务中展现出越来越强的优势 [6] - 开源模型面临三大关键缺陷:标准注意力架构制约长序列处理效率、后训练阶段计算投入不足、AI智能体泛化能力和指令遵循能力存在差距 [7] 产品部署与市场反响 - 公司官方网页端、App和API均已更新为正式版DeepSeek-V3.2,但Speciale版本目前仅以临时API服务形式开放,供社区评测与研究 [8] - 海外社媒有观点认为此次发布是了不起的成就,匹配GPT-5和Gemini3 Pro的开源模型出现,差距正式消除,证明严谨工程设计可超越单纯参数规模 [8]