Workflow
闭源模型
icon
搜索文档
DeepSeek杀出一条血路:国产大模型突围不靠运气
36氪· 2025-12-03 11:21
技术突破与架构创新 - 公司发布DeepSeek-V3.2和Speciale两款模型,推理性能对标GPT-5,在数学、逻辑和多轮工具调用中表现强势,成功刷新国内开源模型在推理能力上的最高纪录[1][2] - 突破核心在于引入稀疏注意力机制(DSA),通过“闪电索引器”快速预判关键token对,将核心注意力机制的计算复杂度从平方级降至近线性,在128K超长上下文中保持稳定计算负担[2][3] - 采用“密集预热—稀疏过渡”的双阶段训练策略,实现架构渐变式演进,在Fiction.liveBench、AA-LCR等长文本任务测试中信息召回、上下文一致性和压缩表达能力得分显著上升[3] Agent能力与战略转向 - 公司将“Agent能力”与“推理能力”并列为核心指标,视Agent为模型能力释放与产业落地的桥梁,而非附属模块[6] - 为打造Agent训练体系,合成了超过1800个智能体环境,设计了约85,000条高复杂度任务提示,通过自研的GRPO策略进行强化学习闭环训练[7][8] - 引入“Thinking in Tool-Use”工具使用范式,将执行链条改为交错逻辑,并设计上下文管理策略,使推理轨迹在工具调用过程中被完整保留,实现“状态延续机制”[4][8] 后训练策略与效率提升 - 采用“后训练三件套”策略:专家蒸馏、多轨强化学习、工具思维机制融合,通过六类专家模型生成高质量训练样本反哺主模型[10][11] - 后训练阶段算力投入占比超过预训练预算的10%,强化学习过程通过任务环境自带反馈机制与rubric自动评分,形成闭环学习路径[11] - 设计冷启动系统提示和上下文状态管理,显著降低token冗余,提升“单位token的智能密度”,实现在资源受限前提下提升模型效能[12] 行业竞争格局与路径选择 - 在规模红利见顶后,行业竞争焦点从“参数多少”回归到“思维组织力”与“能效比”[5] - 公司对Agent的理解从“任务执行插件”上升至“模型操作系统”组成部分,试图主导“交错式思维+工具使用”的统一范式,争夺平台话语权[9] - 与闭源阵营追求“更大、更快、更强”的路径不同,公司代表了一种“更轻、更稳、更聪明”的新路径,以更强的推理组织力和更高效训练范式重构开源模型竞争秩序[13]
开源最强!“拳打GPT 5”,“脚踢Gemini-3.0”,DeepSeek V3.2为何提升这么多?
华尔街见闻· 2025-12-02 12:21
模型性能突破 - DeepSeek-V3.2在推理测试中达到GPT-5水平,仅略低于Gemini-3.0-Pro [1] - DeepSeek-V3.2-Speciale在IMO 2025等四项国际顶级竞赛中斩获金牌 [1] - V3.2在AIME 2025测试中达到93.1%通过率,接近GPT-5的94.6%和Gemini-3.0-Pro的95.0% [20] - V3.2在HMMT 2025测试中得分92.5%,与顶级闭源模型差距进一步缩小 [20] 技术创新亮点 - 采用DeepSeek Sparse Attention稀疏注意力机制,将注意力复杂度从O(L²)降低至O(Lk) [6][7] - 实现"思考+调工具"融合机制,成为首个在"思考模式"下支持工具调用的模型 [2][9] - 通过大规模Agent训练数据合成方法,构造1800多个环境、85000多条复杂指令的强化学习任务 [2][11][12] - 后训练计算预算超过预训练成本的10%,为高级能力释放奠定基础 [15] 技术能力表现 - 在代码智能体任务SWE-Verified中获得73.1%解决率,在Terminal Bench 2.0中达到46.4%准确率 [20] - 在搜索智能体评估BrowseComp中通过上下文管理技术,从51.4%提升至67.6%通过率 [20] - 在工具使用基准测试τ2-Bench中获得80.3%通过率,在MCP-Universe中达到45.9%成功率 [20] - 在代码修复、搜索路径规划、多步骤任务中泛化能力大幅领先过往版本,接近闭源商业模型 [14] 行业影响意义 - 证明开源模型完全有能力成为世界级选手,打破闭源模型的绝对技术垄断 [3][21] - 大模型军备竞赛从"谁参数大"升级为"谁方法强" [22] - 为开发者提供成本更低、可定制性更强的高性能模型选择 [22] - 企业不必再完全依赖海外API,也能构建强大AI系统 [22]
DeepSeek又上新!模型硬刚谷歌 承认开源与闭源差距拉大
第一财经· 2025-12-02 07:13
模型发布概览 - 公司于12月1日晚发布两款新模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,推理能力全球领先 [1] 模型定位与性能对比 - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用智能体任务,在公开推理测试中达到GPT-5水平,略低于谷歌Gemini3 Pro [4] - DeepSeek-V3.2-Speciale是长思考增强版,结合数学定理证明能力,目标是将开源模型推理能力推向极致,在多个推理基准测试中超越谷歌Gemini3 Pro [4] - Speciale模型在美国数学邀请赛得分95.0(15k),哈佛MIT数学竞赛(HMMT Feb 2025)得分97.5(16k),国际数学奥林匹克竞赛(IMOAnswerBench)得分83.3(18k) [5] - 在编程能力上,Speciale在LiveCodeBench得分90.7(13k),CodeForces得分2708(22k),但在理工科博士生测试(GPQA Diamond)中得分82.4,略逊于谷歌模型 [5] - Speciale模型斩获IMO、ICPC World Finals及IOI金牌,ICPC成绩达人类选手第二名水平,IOI成绩达人类选手第十名水平 [5] 技术架构创新 - 公司提出稀疏注意力机制(DSA)以解决标准注意力机制对长序列处理效率的制约,大幅降低计算复杂度 [7] - 经过两个月实验确认稀疏注意力机制有效性,在不牺牲长上下文性能前提下解决关键计算复杂性问题 [7] - 两款新模型均引入稀疏注意力机制,使V3.2成为具有成本效益的智能体场景替代方案 [7] 产品部署现状 - 公司官方网页端、App和API均已更新为正式版DeepSeek-V3.2 [8] - 增强的Speciale版本目前仅以临时API服务形式开放,供社区评测与研究 [8] 行业竞争格局 - 公司承认其模型在世界知识广度、令牌效率及复杂任务解决能力方面仍落后于领先的专有模型如Gemini3 Pro [6] - 尽管开源圈持续进步,但过去几个月中闭源专有模型如谷歌、OpenAI、Anthropic的性能增长速度显著更快 [6] - 闭源模型与开源模型之间的性能差距日益扩大,专有系统在复杂任务中展现出越来越强的优势 [6] - 行业中存在三个关键缺陷:标准注意力机制制约长序列处理效率、后训练阶段计算投入不足、AI智能体泛化能力存在差距 [7]
开源最强!“拳打GPT 5”,“脚踢Gemini-3.0”,DeepSeek V3.2为何提升这么多?
美股IPO· 2025-12-02 06:29
模型性能突破 - V3.2在工具调用能力上达到当前开源模型最高水平,大幅缩小开源模型与闭源模型的差距[1][4] - V3.2在推理测试中达到GPT-5水平,仅略低于Gemini-3.0-Pro[3] - V3.2-Speciale在IMO 2025等四项国际顶级竞赛中斩获金牌[3] 核心技术创新 - 采用DeepSeek Sparse Attention稀疏注意力机制,将注意力复杂度从O(L²)降低至O(Lk)[8][9] - 实现"思考+工具调用"融合机制,首个在思考模式下支持工具调用的模型[7][11] - 思考模式采用先分析、再规划、再调用工具、再验证、再修正的闭环流程[11][12] 训练策略升级 - 通过大规模Agent训练数据合成方法,构造1800多个环境、85000多条复杂指令的强化学习任务[1][4][13] - 后训练计算预算超过预训练成本的10%,资源投入为高级能力释放奠定基础[18] - 采用可扩展的强化学习框架,在GRPO算法基础上引入多项稳定性改进[19] 评测表现数据 - 推理能力:AIME 2025测试通过率93.1%,接近GPT-5的94.6%和Gemini-3.0-Pro的95.0%[20] - 代码智能体:SWE-Verified解决率73.1%,Terminal Bench 2.0准确率46.4%[20] - 搜索智能体:BrowseComp通过率从51.4%提升至67.6%[20] - 工具使用:τ2-Bench通过率80.3%,MCP-Universe成功率45.9%[20] 行业影响 - 证明通过正确架构+数据策略+工具融合设计,开源模型完全有能力成为世界级选手[4] - 大模型赛道从"参数竞赛"走向"能力竞赛",开源模型在关键能力维度逼近顶级闭源模型[3] - 为开发者提供成本更低、可定制性更强的高性能模型选择[23]
DeepSeek又上新!模型硬刚谷歌,承认开源与闭源差距拉大
第一财经· 2025-12-01 21:31
模型发布与核心定位 - 公司于12月1日晚发布两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale,其推理能力全球领先 [1] - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用智能体任务场景,此次为9月底实验版V3.2-Exp的正式版更新 [3] - DeepSeek-V3.2-Speciale定位为将开源模型推理能力推向极致的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,具备出色的指令跟随和逻辑验证能力 [3] 模型性能表现 - 在公开推理测试中,DeepSeek-V3.2达到GPT-5水平,仅略低于谷歌Gemini3 Pro [3] - DeepSeek-V3.2-Speciale在多个推理基准测试中超越谷歌Gemini3 Pro,特别是在数学竞赛中表现优异 [4] - 具体测试成绩显示:在美国数学邀请赛(AIME 2025)中,Gemini3 Pro得分为95.0(15k),DeepSeek-V3.2得分为93.1(1k);在哈佛MIT数学竞赛(HMMT Feb 2025)中,Gemini3 Pro得分为97.5(16k),DeepSeek-V3.2-Speciale得分为92.5(1k) [5] - Speciale模型斩获IMO、ICPC World Finals及IOI金牌,其中ICPC与IOI成绩分别达到人类选手第二名与第十名水平 [5] 技术突破与优化 - 两款模型均引入稀疏注意力机制(DSA),旨在解决标准注意力机制对长序列处理效率的制约,并确认该机制可大幅降低计算复杂度且不牺牲长上下文性能 [7] - 采用新机制后,V3.2在智能体场景中成为具有成本效益的替代方案,不仅缩小了与前沿专有模型的性能差距,成本也显著降低 [8] 行业趋势与挑战 - 当前开源与闭源模型的差距在拉大,闭源专有模型(如谷歌、OpenAI、Anthropic)的性能增长速度显著更快 [6] - 闭源模型与开源模型之间的性能差距并未缩小反而日益扩大,专有系统在复杂任务中展现出越来越强的优势 [6] - 开源模型面临三大关键缺陷:标准注意力架构制约长序列处理效率、后训练阶段计算投入不足、AI智能体泛化能力和指令遵循能力存在差距 [7] 产品部署与市场反响 - 公司官方网页端、App和API均已更新为正式版DeepSeek-V3.2,但Speciale版本目前仅以临时API服务形式开放,供社区评测与研究 [8] - 海外社媒有观点认为此次发布是了不起的成就,匹配GPT-5和Gemini3 Pro的开源模型出现,差距正式消除,证明严谨工程设计可超越单纯参数规模 [8]
“力量平衡变了,中国AI愈发成为硅谷技术基石”
观察者网· 2025-12-01 08:19
文章核心观点 - 中国开源AI模型(如DeepSeek、阿里巴巴通义千问)凭借低成本、高定制化、强隐私保护及完善的开发者生态等优势,在过去一年中被越来越多美国硅谷AI初创公司采用,部分场景下性能已接近甚至比肩OpenAI、Anthropic等美国闭源旗舰模型,引发了美国业界对其“封闭”路线的质疑 [1] - 美国AI初创企业的估值正创下纪录,但许多公司的技术根基却建立在可免费下载的低成本中国AI模型之上,这给依赖巨额投资的美国闭源AI产业带来了挑战 [1][4] 中国开源AI模型的优势与采用情况 - **性能接近前沿**:中国开源AI模型与前沿水平的差距“触手可及”,新一代模型正推动中国乃至全球人工智能的前沿发展 [1][2] - **成本与速度优势**:在许多情况下,在自有硬件上运行中国模型,比使用OpenAI的GPT-5或谷歌的Gemini等大型模型速度更快、成本更低 [4] - **具体案例**:估值7亿美元的AI搜索公司Exa表示,使用中国模型比GPT-5或Gemini更快、更便宜 [4] 效率工具Dayflow约40%的用户选择使用开源模型,因为为用户使用闭源模型付费每人每年可能带来高达1000美元的成本,开源模型对生存能力至关重要 [6] - **隐私保护优势**:开源模型可在用户个人电脑上本地处理数据,对注重隐私、不愿将数据上传至云端的用户颇具吸引力 [6][7] 技术生态与开发者支持 - **生态系统优势**:中国模型在在线开发者资源中占据主导地位,拥有丰富的培训指南和社区支持,例如Airbnb也“大量”依赖中国模型 [7] - **易于定制与适配**:开发者发现从开源模型入手,用自己的数据对其进行适配,添加特定技能或知识变得更简单高效,这使中国模型成为定制开发的默认起点 [7] - **市场渗透**:在热门编程应用Kilo Code用户最青睐的20款模型中,有7款是中国模型,其中6款为开源模型 [8] 中美AI发展路径对比 - **美国路径**:AI发展由私营部门主导(如OpenAI、Anthropic),奉行闭源模型路线 [8] - **中国路径**:更积极地规划国家AI发展愿景,呼吁加强“开源技术合作”,实验室通常会公开发布其模型 [9] - **发布速度**:中国公司产品推出速度更快,例如阿里巴巴大约每20天就发布一款新模型,而Anthropic的平均发布间隔为47天 [9] 美国业界的反应与竞争 - **性能认可与担忧**:行业专家指出,过去12个月里,力量平衡发生了迅速转变,中国是AI领域真正的创新者 [9][10] 但同时有硅谷人士认为闭源模型在性能、实用性和生态系统上仍有显著优势 [10] - **美国开源模型的觉醒**:为应对挑战,美国开始鼓励开源模型发展,例如白宫发布《人工智能行动计划》呼吁鼓励开源模型发展,OpenAI发布了五年来首款开源模型,艾伦研究所发布了最新开源模型Olmo 3并发起了“ATOM计划” [11][12][13] - **竞争意识**:美国业界认识到已失去在开源模型领域的领先地位,无论是性能还是采用率,并担忧进一步落后 [13]
技术先行:阿里千问APP为何跑出更快的C端加速度?
搜狐财经· 2025-11-25 02:24
文章核心观点 - 中美AI大模型领域正上演“后发赶超”的新叙事,谷歌与阿里巴巴是典型案例 [2][3][4] - 两家公司均采用“全栈AI”布局策略,覆盖从芯片、云计算、大模型到应用端的全产业链,但具体路径存在开源与闭源等关键分野 [4][5][6] - 阿里巴巴的千问APP通过激进的开源策略、依托庞大生态构建商业闭环,走出了一条具有中国特色的C端应用爆发之路 [4][12][22][23] 全栈AI战略共识 - 全栈布局被视为最具反脆弱特性、最能穿越周期的模式,涵盖AI芯片、云计算、大模型、超级应用全链条 [6] - 与纯模型公司相比,全栈模式能规避技术领先地位不确定和变现模式不可持续的风险 [6] - 阿里巴巴计划三年AI投入3800亿,其布局分为底层芯片算力、中间大模型层、前端应用层三层结构 [7] - 在落地节奏上,两家公司均采取“先磨刀,后砍柴”的策略,不急于推出不成熟的C端应用,谋求长期领导地位 [8][10] 阿里巴巴的AI布局与进展 - 底层算力方面,阿里云位居全球第四、亚洲第一,自研芯片性能已可与英伟达H20相媲美 [7] - 大模型层方面,Qwen系列已成为全球性能最强、应用最广泛的开源大模型,全球下载量超6亿次 [7] - 应用层方面,千问APP公测首周下载量突破千万次,速度快于ChatGPT当年耗时三个月的纪录 [4] - 应用形态包括原生AI APP和插件形态的AI应用,用于重构夸克、钉钉、淘宝等存量业务 [7] 开源与闭源的关键路径分野 - 谷歌采取妥协路线,闭源的Gemini与开源的Gemma双轨并行,闭源利于维护技术霸权 [12] - 阿里巴巴坚持激进的Qwen开源路线,优势在于低门槛、高兼容、普惠性,利于构建开发者生态 [12] - 开源模式使阿里实现了构建庞大开发者生态和借助全球反馈快速迭代模型的双重目标 [12][14] - Qwen开源模型下载量已反超Meta旗下的Llama,并获得英伟达CEO黄仁勋等权威人士的公开背书 [13][14] C端应用生态与商业模式差异 - 谷歌AI应用核心是强化“信息获取”优势,其AI Overviews搜索功能月活用户达20亿 [17] - 千问APP作为阿里AI C端入口,可串联电商、支付、出行、外卖等阿里生态内高频刚需场景 [18] - 相比OpenAI需与外部平台合作的外循环模式,阿里的AI内循环生态整合路径更短、效率更高 [18] - AI最广泛的价值在于应用场景,月活TOP 50的AI应用中,In-App形态的插件应用占到31个,遥遥领先 [19] AI终局展望与市场影响 - AI大模型的终局形态是“有用”,关键在于构建能完成用户任务、创造增量价值的“商业闭环” [15][16][19] - 阿里设想大模型为下一代操作系统,未来千问将作为神经网络串联所有业务,形成“AI Agent即服务”的内循环网络 [22] - 全栈闭环模式具备更高价值弹性,能通过赋能存量业务变现,并以业务现金流反哺AI技术投入 [23] - 资本市场对此模式表示认可,阿里市值近一年已翻倍,伯克希尔哈撒韦在Q3首次建仓谷歌母公司,持仓市值达43亿美元 [23]
中美大模型分歧下,企业们也站在选择路口
财富FORTUNE· 2025-11-22 21:09
AI开源与闭源路线对比分析 - 开源路线以更低成本激发市场创造力并动摇技术垄断,但需在技术性能与安全性间平衡且缺乏配套客户支持[2] - 闭源路线可快速获取投资回报率,但随时间推移费用逐渐增加,可能导致企业为降低成本转向开源[2] - 开发AI应用的初创公司更适合开源模型,因可完全掌控技术栈且成本可控,避免依赖巨头模型涨价或变更风险[3] 行业应用与监管考量 - 金融科技等受严格监管领域需解释决策过程,开源模型在透明度方面具有优势[4] - 涉及公司竞争优势和机密的场景下,开源模式可通过亲自部署实现更严格保密[4] - 企业需建立自身数据模型和评估框架,以应对不同模型间提示词不一致或模型升级导致的失效问题[4] 技术发展趋势与竞争要素 - 大模型最终会趋于相似,因基于几乎相同数据集训练,垂直应用差异取决于专有数据[5] - 企业应构建“数据飞轮”形成数据闭环,工程能力、数据与独有知识结合将形成竞争优势[5] - 技术迭代加速后企业自训模型成本可能低于百万美元,基础模型价格下降,应用和数据成为获胜关键[8] 中美AI发展路径差异 - 美国走“赢家通吃”路径,用豪赌式投入押注通用人工智能[6] - 中国开源模式走“协同进化”之路,强调平台共建并在理性投入中寻求可持续增长[6] - 中国模型成本更低且更轻量化,易于进入大众市场,而美国更追求技术“完美”[7]
谷歌前CEO公开发声,英伟达黄仁勋果然没说错,美国不愿看到的局面出现了!
搜狐财经· 2025-11-15 03:45
中美AI产业战略对比 - 美国AI企业普遍采用闭源、收费的商业模式,以维持市场地位和利润空间[3] - 中国AI企业选择开源、免费的路径,通过建立生态来占领市场和定义标准[7][9] - 美国闭源策略导致高昂的使用成本,例如API调用费用可达每月数千美元,限制了全球推广[5][6] 中国开源模型的全球影响力 - 中国开源模型在全球开发者社区中日益受欢迎,性能强大且免费[7] - 阿里通义千问Qwen在Hugging Face的累计下载量已于今年10月超越Meta的Llama,成为全球最受欢迎的开源大模型[9] - 国际企业如日本的众多公司以及美国Windsurf(被OpenAI以30亿美元收购)均采用中国模型如Qwen和智谱GLM进行开发[9] 美国AI产业面临的挑战 - 美国各州出台约50套新AI法规,例如加州的《前沿人工智能透明法案》,要求高算力模型提交透明报告,违规罚款可达全球年收入的1%,增加了运营成本[10] - 高昂的能源成本制约发展,英伟达H100或Blackwell GPU集群单次大模型微调耗电可抵一座中型城市一周用量[12] - 闭源策略和监管内耗使美国企业失去全球开发者支持,竞争优势逐渐消失[12][18] 中国AI产业的优势与进展 - 中国拥有充足的电力供应,多地政府对超大规模数据中心提供补贴,使边际电力成本趋近于零[12] - 中国AI企业展示出高效的开发能力,例如DeepSeek实验室的模型以低成本媲美顶尖性能,Kimi K2 Thinking模型开发成本仅460万美元且跑分超越GPT-5,智谱GLM-4.6在Code Arena榜单与GPT-5并列第一[14] - 从政府补贴到企业投入,形成完整的产业生态和良性循环[15][16] 行业领袖的警告与市场现实 - 谷歌前CEO埃里克·施密特指出“奇怪的悖论”,即美国模型闭源收费而中国模型开源免费,并预测大多数国家可能使用中国AI模型[1] - 英伟达CEO黄仁勋警告中国将赢得AI竞赛,并指出中国已能自主制造大量AI芯片,美国芯片限制政策反而加速了中国自主研发[18] - 美国芯片厂商在华市场份额从95%降至0%,对整个美国AI产业链造成冲击[18]
谷歌前CEO施密特:大多数国家最终可能使用中国AI模型
凤凰网· 2025-11-14 17:05
全球AI模型格局与成本影响 - 谷歌前CEO埃里克·施密特担忧多数国家因成本问题最终将采用中国的AI模型[2] - 美国顶尖AI模型为闭源而中国顶尖模型为开源 造成地缘政治问题[2] - 开源AI模型免费且允许任何人公开使用和共享软件 闭源模型则需付费[2] - 绝大多数资金不充裕的政府和国家将采用中国模型 主因是免费而非性能更优[2] 开源与闭源模型的行业观点 - 开源支持者认为开源能推动技术以民主化方式快速发展 因任何人可修改和分发代码[2] - 闭源模型拥护者认为代码不公开使其安全性更高[2] - 今年以来DeepSeek、阿里通义千问Qwen3等中国模型备受追捧 引发对美国竞争优势的担忧[2] 行业领袖对AI发展的立场 - 英伟达CEO黄仁勋和法国AI创业公司Mistral CEO阿瑟·门施均为开源模型支持者[3] - 黄仁勋在世界政府峰会上呼吁各国致力于建设主权AI 即国家对AI技术、数据及基础设施的控制与治理[3]