Open Source Model
搜索文档
深度| 大模型年终观察,如何定义2025年的"好模型"?
Z Potentials· 2025-12-17 20:00
文章核心观点 - 2025年AI行业正经历从追求“跑分”到建立“信任”的深刻范式转变,行业共识是开源模型正从“可选项”成为“默认使用的必选项”[1] - 衡量模型的标准正从“选秀式逐冠军”转向“基建式找伙伴”,模型的基础能力是入场券,而由评测、部署、交付三个维度构成的“信任”是AI融入业务流程的通行证[2][3] - 行业已出现从“技术玩具”到“生产工具”的拐点,驱动力量从“新奇”变为“信任”,未来竞争核心将是业务可靠性、卓越运营、可控性、安全性与可观测性[12][31] 行业趋势:从尝鲜到留存,生产力拐点已现 - 开源模型调用量在关键发布后,首次实现了“峰值后高位平稳”,而非断崖式下跌,标志着真实使用和留存的开始[5][15] - 开源权重模型的token份额在2025年底稳定突破了平台总量的三分之一[5] - 用于复杂推理、规划和代理任务的“推理类模型”调用量爆炸式增长,其token消耗份额从2024年底几乎可忽略不计飙升至超过50%[8] - API调用的平均任务长度显著上升,从2023年后期不足2000 tokens增长到2025年后期超过5400 tokens,表明真实世界的复杂任务正稳定交给AI完成[8][9][12] 评测体系:从分数游戏到多维共识 - 模型发布初期,赢得关键榜单头筹仍是获取关注的“入场券”[13] - Kimi K2 Thinking是2025年典型代表,在Artificial Analysis的Intelligence Index上获得开源模型最高分,并在LMSYS Chatbot Arena开源模型中排名第一,从而获得全球关注[14][18] - 行业正形成多维评测体系,主要包括两类: - **数据驱动型**:以Artificial Analysis为代表,采用“智能指数+成本指数”双轴框架评估“性价比”,涵盖智能度、成本、可控性、生态适配度[20] - **使用实证型**:以OpenRouter为代表,基于其积累的100T tokens真实调用数据,评测模型在生产中的成功率、序列长度、调用失败率等,峰值后的高位调用量是产品力最直接证明[22] - 资深从业者的实际选择成为新维度,如前OpenAI CTO创办的公司在其产品中集成Kimi K2 Thinking以支持复杂推理[18] 部署能力:产业化与成本透明化 - 可部署性是建立信任的第二地基,企业关注“跑得起、跑得稳、跑得久”[24] - 硬件支持取得突破,NVIDIA数据显示Kimi K2 Thinking、Qwen2等MoE模型在GB200 NVL72架构上实现了10倍推理加速,同时每token成本降低90%,证明其大规模产业化部署潜力[24] - 云端推理平台推动部署成本透明化,如Fireworks、Together、OpenRouter公开每百万tokens的精确报价,使模型调用像云计算资源一样“明码标价”[24] 交付保障:治理、观测与复现 - 交付是确保模型在企业环境中“跑得稳”的最后一公里,关乎可治理、可观测、可复现[25] - **可治理**:2025年Q4,AWS、Azure、Google Cloud三大云厂商几乎同时将Claude、Kimi、Mistral等顶级模型纳入其企业级托管服务,使模型可通过统一API调用并享受平台的安全、权限管理和SLA保证,正式进入企业IT治理框架[26] - **可观测**:行业在工具调用可观测性上取得进展,OpenRouter推出的exacto系统能量化和监控模型在工具调用任务上的表现方差,通过遥测数据确保稳定性和一致性[27] - **可复现**:行业迈出关键一步,例如Hugging Face展示的Kimi K2 Thinking应用示例清晰记录了模型执行多步工具链的全过程trace,使模型能力进入“流程可复现、任务可交付”阶段[30] 未来展望:业务可靠性与卓越运营 - 2026年的关键词是“卓越运营”,未来焦点将是任务完成率、生产稳定性以及与真实工作负载的对齐[31] - 未来竞争的核心不再是智能度,而是可控性、安全性与可观测性[31] - 赢得信任的模型才可能成为真正的生产力,信任的建立是工程化的结果[32]
ChatGPT三周年遭DeepSeek暴击,23页技术报告藏着开源登顶的全部秘密
36氪· 2025-12-02 17:19
模型发布与定位 - 公司于12月1日同时发布DeepSeek-V3.2和DeepSeek-V3.2-Speciale两款模型[2] - 标准版主打性价比与日常使用,推理能力达到GPT-5水平,并首次实现边思考边使用工具[5] - 终极增强版面向AI能力上限探索,性能媲美Gemini-3.0-Pro,在2025年IMO、IOI、ICPC中均获金牌,但服务至2025年12月15日截止[5] 技术架构创新 - 引入稀疏注意力机制,通过闪电索引器只关注重要部分,支持128K上下文长度且处理速度和效率大幅提升[10][12][13] - 后训练阶段投入的计算预算超过预训练成本的10%,并构建了稳定且可扩展的强化学习训练框架[14][15] - 训练流程采用专家蒸馏和混合强化学习训练,避免灾难性遗忘问题,统一提升不同任务领域的性能[16][18] 工具调用与思考融合 - 设计思考上下文管理机制,允许AI在思考过程中保留历史推理内容,实现边思考边调用工具[23][24] - 该机制使模型在复杂任务中可反复查询信息并进行逻辑推理,例如规划满足多重约束的旅行方案[24][25] - 通过冷启动设计,将带推理过程的非智能体数据与无推理过程的智能体任务数据结合,实现能力融合[28] 自动化训练体系 - 搭建大规模智能体任务流水线,创造超过1800个虚拟环境和8万多条任务,实现AI自己训练自己[30][31] - 代码领域直接从GitHub抓取真实Issue和修复补丁,让智能体搭建测试环境确保修bug有效[32] - 通用智能体能自动生成任务、工具和验证逻辑,创造出上千个环境和任务,实现自我进化[32] 性能测试结果 - 在MMLU-Pro测试中达到85.0,GPQA Diamond达到82.4,LiveCodeBench达到83.3,推理能力直逼GPT-5[33] - 在AIME 2025数学竞赛中达到93.1,HMMT Feb 2025达到92.5,数学能力接近顶级模型[34] - Speciale版本在ICPC世界总决赛排名第2,IOI排名第10,达到金牌水平[37][38] 行业竞争地位 - 开源模型在推理能力上追平GPT-5,实现思考与工具调用的完美融合,显著缩小与闭源模型的差距[47][48] - 模型完全开源,任何人都可部署到自己的服务器进行研究或二次开发,推动AI技术普及[49] - 公司证明开源模型不是闭源的廉价替代品,而是可以真正接近甚至超越闭源模型的存在[47]
ChatGPT 三周年遭 DeepSeek 暴击,23 页技术报告藏着开源登顶的全部秘密
36氪· 2025-12-02 08:16
核心观点 - DeepSeek发布了两款开源模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,其推理能力分别直逼GPT-5和Gemini-3.0-Pro,并解决了开源模型长期存在的“深度思考”与“工具调用”难以协同的核心瓶颈 [1][4][5] 模型发布与定位 - 发布了两款模型:主打性价比与日常使用的标准版DeepSeek-V3.2,以及面向AI能力上限探索的终极增强版DeepSeek-V3.2-Speciale [1][5] - 两款模型的权重已在HuggingFace和ModelScope上开源,可供下载和本地部署 [3] - 标准版已升级至官网、APP和API,适用于日常问答、写作和智能体任务;增强版仅提供临时API,服务至2025年12月15日截止 [5] 技术创新与架构突破 - 针对开源模型处理复杂任务的三大瓶颈(架构问题、资源分配、智能体能力)提出了三项关键技术 [4] - 引入稀疏注意力机制,通过“闪电索引器”只关注文本中真正重要的部分,大幅提升了处理长上下文(128K)的速度和效率,且性能不输甚至优于传统注意力机制 [4][7] - 在后训练阶段投入的计算预算超过了预训练成本的10%,并构建了“稳定且可扩展的强化学习训练框架”以保证训练稳定性和可扩展性 [8] - 训练流程采用“专家蒸馏”和“混合强化学习训练”两步法,在数学、编程等六大专业领域训练专家模型生成数据,并使用GRPO算法统一训练推理、智能体和人类偏好对齐任务,避免了“灾难性遗忘” [8][10] 核心能力:思考与工具调用的融合 - 新模型首次实现了“边思考边用工具”,解决了以往模型进入思考模式后无法调用工具的尴尬问题 [5][12] - 专门设计了“思考上下文管理机制”:仅在用户发出新消息时清除历史推理内容,工具调用历史和结果会保留,使得AI可以反复查询、思考、验证,无需从头开始 [13] - 通过“冷启动”设计,利用已有的带推理过程数据和无推理过程的智能体数据,通过提示词让模型在推理中自然整合工具执行 [16] 性能表现与基准测试 - 在多项基准测试中,V3.2的推理能力追平GPT-5,Speciale版本性能逼近甚至超过Gemini-3.0-Pro [11][20] - 具体测试数据:在AIME 2025测试中,V3.2得分为93.1%,Speciale为96.0%;在HMMT Feb 2025测试中,V3.2为92.5%,Speciale为99.2%;在LiveCodeBench测试中,V3.2为83.3%,Speciale为88.7% [22] - 在智能体能力测试上,V3.2在开源模型中达到最高水平,大幅缩小了与闭源模型的差距,在τ²-Bench测试的航空、零售、电信类别分别获得63.8分、81.1分和96.2分 [22] - Speciale版本在未进行专项训练的前提下,在2025年IOI排名第10,ICPC世界总决赛排名第2,并在IMO和CMO达到金牌门槛 [24][25] 训练方法革新:AI自我进化 - 公司搭建了大规模智能体任务流水线,创造了超过1800个虚拟环境和8万多条任务,特点是“难解答,但容易验证”,让AI可以无限制地自我训练 [17] - 流水线包含代码智能体(24667个任务)、搜索智能体(50275个任务)、通用智能体(4417个任务)和代码解释器(5908个任务)等角色,负责挖掘问题、生成答案和验证答案 [18] - 在代码领域,直接从GitHub抓取真实Issue和修复补丁,让智能体搭建测试环境验证修复有效性,使模型获得可实战的编程能力 [18] - 通用智能体可以自动生成任务、工具和验证逻辑,实现了“AI创造数据、验证数据、用数据变强”的自我进化过程 [19] - 实验验证了该方法的有效性:在50个合成智能体任务实例中,仅使用合成任务进行强化学习的V3.2基础模型表现显著提升 [26][27] 当前局限与未来方向 - 与顶级闭源模型(如Gemini-3.0-Pro)相比,V3.2在世界知识覆盖广度上仍显不足,部分原因是训练总浮点运算量更少 [30] - V3.2的Token使用效率低于Gemini-3.0-Pro,往往需要更长的生成路径才能达到相似输出质量,未来需优化推理链的“智能密度” [30] - 在解决复杂任务方面,V3.2仍不及最前沿模型,这促使公司计划进一步优化底层基础模型与后训练方法 [30]
Kimi杨植麟称“训练成本很难量化”,仍将坚持开源策略
第一财经· 2025-11-11 18:35
公司战略与产品进展 - 公司近期发布最新版本开源思考模型Kimi K2 Thinking [1] - 公司CEO回应称模型训练成本460万美元并非官方数字 因大部分投入花在研究与实验上导致成本难以量化 [1] - 针对模型推理长度过长及榜单成绩与实际体验不符的质疑 公司表示现阶段优先考虑绝对性能 token效率与榜单脱节问题将在后续改善 [1] - 公司未来很长一段时间内仍将坚持开源策略 重点推进Kimi K2 Thinking模型的应用与优化 [4] - 公司在优先发展文本模型的前提下兼顾多模态模型推进 尝试通过架构创新 开源策略与成本控制建立差异化优势 [4] 行业竞争格局 - 中国开源大模型在国际市场调用量显著 OpenRouter榜单前二十名中中国开源模型占据五席 包括MiniMax M2 DeepSeek V3 GLM4.6等 [2] - 公司产品因OpenRouter平台接口问题 目前仅能以API形式被使用 [2] - 行业头部模型训练数据量庞大 榜单显示Grok Code Fast 1训练token达1.36T 而Claude Sonnet 4.5为649B tokens [4] 技术资源与基础设施 - 公司团队使用携带InfiniBand技术的H800 GPU进行模型训练 尽管其性能比不上美国高端卡且数量处于劣势 但每张卡均被极致利用 [2]
MiniMax深夜致歉,开源大模型M2登顶引发全球热潮
第一财经· 2025-10-30 15:47
模型发布与市场反响 - MiniMax发布全新模型MiniMax M2并依据MIT协议全面开源其完整权重 [1] - M2模型发布后访问量远超预期,平台一度因访问过载导致服务成功率降至约90%,经扩容后恢复至约99%的稳定水平 [4] - M2已登上OpenRouter全球调用量第5位及国内模型第1位,并位列Hugging Face Trending榜单第2位 [5] 模型性能与技术特点 - M2在权威测评榜单Artificial Analysis中取得全球第五、开源第一的成绩,其智能水平接近GPT-5(high)与Claude Sonnet 4.5等顶级模型 [7] - M2总参数约2300亿,单次激活约100亿参数,采用全注意力+MoE架构,专注于代码生成、工具调用等可执行型Agent任务 [15] - 在模型性能、推理速度与成本的综合平衡上表现突出,在'性能、速度、成本'的不可能三角中找到了平衡点 [10] 核心能力表现 - 在代理能力方面,M2能够出色地规划并执行复杂的工具链,协同调用Shell、浏览器、Python代码执行器等工具,并具备自我纠错与恢复能力 [10] - 在编程能力方面,M2具备强大的端到端开发能力,包括多代码文件处理、执行"编码-运行-调试"的完整循环 [10] - 在深度搜索能力方面,M2在Xbench-DeepSearch基准上全球前二、仅次于GPT5,在金融搜索基准FinSearchComp-global上全球前二、仅次于Grok4 [11] 产品定位与迭代路径 - 相较于前代模型M1(总参数约4560亿,激活约459亿参数)专注于长文本和复杂推理,M2完全面向Agent时代的执行任务 [12][13][14][15] - M2在设计路线上放弃了M1的混合注意力机制,选择了全注意力+MoE路线,以更好地应对Agent场景中多步骤、长链条的复杂推理 [14][15] - 公司当前将M1和M2视为平衡不同场景的两类模型:M1强调"能想很久、能读很长",M2强调"能执行、且便宜" [15] 商业模式与产品生态 - 公司维持全球范围的限时免费开放策略,为开发者提供高性能的Coding与Agent能力 [5] - M2模型的输入侧费用为每百万Token约0.30美元,输出侧为每百万Token约1.20美元,约为Claude 4.5 Sonnet价格的8% [15] - 公司自研的Agent产品已全面切换到M2模型驱动,并推出专业模式(擅长全栈开发/deep research/PPT制作)和高效模式(擅长chat问答/轻量级搜索/轻量级代码)两种模式 [16]
全球开源大模型杭州霸榜被终结,上海Minimax M2发布即爆单,百万Tokens仅需8元人民币
36氪· 2025-10-28 10:12
模型性能与排名 - 在第三方评测机构Artificial Analysis的测试中,Minimax M2以61分获得开源模型第一,总排名第五 [1][7] - 该测试使用了10个热门数据集,包括MMLU Pro、GPQA Diamond、人类最后测试、LiveCodeBench等 [7] - 在AIME25测试中得分为78,在MMLU-Pro测试中得分为82,在GPQA-Diamond测试中得分为78 [8] 核心技术特点 - Minimax M2是一个稀疏度较高的MoE模型,总参数量230B,激活参数量仅有10B [4] - 模型采用了交错的思维格式,使其能够规划和验证跨多个对话的操作步骤,这对Agent推理至关重要 [6] - 模型在预训练阶段未采用滑动窗口注意力或线性注意力,而是使用全注意力机制,以避免性能损失 [40][45] 成本与效率优势 - 模型推理速度是Claude 3.5 Sonnet的两倍,API价格仅为Claude 3.5 Sonnet的8% [3] - 定价为0.3美元/2.1人民币每百万输入Token,1.2美元/8.4人民币每百万输出Token [8] - 在线推理服务的速度可达每秒100 Token [12] 应用与开发生态 - 模型专为智能体和编程而生,表现出对复杂、长链工具调用任务的出色规划和稳定执行能力 [3][6] - 支持Shell、浏览器、Python代码解释器和各种MCP工具的调用 [6] - Minimax已将M2部署到Agent平台限时免费使用,平台上展示了许多Agent的现成作品,如网页应用、游戏和PPT生成等 [23][29][30][32][34] 市场定位与竞争对比 - 公司表示,智能水平、速度和成本在过去被视为“不可能三角”,但随着M2的出世,这个三角被打破 [3] - 在工具使用和深度搜索能力上不逊于海外顶尖模型,编程能力在国内名列前茅 [6] - 相比于Claude Sonnet 4.5、GLM 4.6、Kimi-K2以及DeepSeek V3.2等模型,M2具有极高的Win+Tie比例,同时成本非常低廉 [14]
投资人查马斯:公司已在使用中国开源大模型
环球网· 2025-10-11 19:12
行业趋势:开源与闭源模型路线对比 - 中国开源AI模型(以DeepSeek、Kimi和Qwen为代表)正在挑战美国闭源模型(如OpenAI和Anthropic)的领先地位 [1] - 硅谷知名风险投资公司Social Capital已将大量工作需求转移到中国模型Kimi K2上,因其性能强且成本显著低于美国同类产品 [1] - 美国闭源模型Anthropic被评价为技术确实厉害,但运营成本过高,即“真的太烧钱” [1] 市场影响与行业标杆 - 《All in》播客由查马斯等四位硅谷重量级人物创办,是全球最具影响力的科技与投资类播客之一,被视为全球创业者和投资人的风向标 [3] - 播客主持人查马斯在2020年接连推动维珍银河等明星公司上市,被美国媒体称为“美国SPAC之王” [3]
蚂蚁开源2025全球大模型全景图出炉,AI开发中美路线分化、工具热潮等趋势浮现
搜狐财经· 2025-09-14 22:39
大模型开源开发生态全景 - 报告收录22个技术领域114个最受关注开源项目 分为AI Agent和AI Infra两大技术方向[1] - 62%开源项目诞生于2022年10月之后 平均年龄仅30个月 体现高速迭代特性[1] - 全球36万开发者参与 美国占比24% 中国占比18% 中美合计贡献超四成核心力量[1] 中美开源策略差异 - 中国厂商更倾向开放权重开源模型路线 美国头部厂商多采用闭源模式[1] - 中国在积木共享上的积极性让全球生态更具活力[1] AI编程工具发展 - AI编程工具呈现爆发式增长 主要分为命令行工具和集成开发环境插件两类[1] - 2025年新出现Coding工具平均获得3万以上开发者Star关注[1] - Gemini CLI开源3个月星标数突破6万 成为增长最快项目之一[1] 开发效率提升路径 - 模型厂商从命令行工具切入 注重用户体验团队从集成开发环境入手[2] - 未来程序员将更多重复性工作交给AI工具 聚焦创意设计和复杂问题解决[2] 大模型发展趋势 - 大模型发展呈现中美开源闭源路线分化 MoE架构下参数趋于规模化[4] - 基于强化学习提升Reasoning能力 多模态模型进一步成为主流[4] - 模型评价方式发展出基于主观投票和客观评测的不同模式[4]
阿里“通义千问”成为日本AI开发基础
日经中文网· 2025-05-07 10:45
阿里云通义千问模型在日本市场表现 - 通义千问在日经4月发布的"AI模型评分"榜中位列第6,超过中国DeepSeek模型,在113个模型中表现突出[1][3] - 作为开源模型,通义千问被日本新兴企业广泛采用,包括ABEJA、ELYZA、Lightblue和Axcxept等公司[1][4] - 基于通义千问开发的"ABEJA-Qwen2.5-32B"模型在日本企业中排名最高,总体排名第21位[3] 通义千问技术性能 - "Qwen2.5-Max"模型在逻辑推理和数学方面表现优异,基础语言能力和综合评分位居前列[3] - 开源版本"Qwen2.5-32B"排名第26位,超过谷歌的Gemma-3-27B(第32位)和Meta的Llama-3-70B-Instruct(第57位)[3] - 最新发布的Qwen3模型数据Token数量达36万亿,是Qwen2.5的两倍,支持119种语言和方言[6] 日本市场应用与扩展 - 通义千问因能以较少数据集实现高精度,在日语能力指标上获得高度评价[4] - 阿里云计划在日本提供本地化部署服务,确保数据不转移至海外[5] - 公司目标3年内将在日本使用通义千问的项目增加到1000个以上[6] 全球影响力与行业地位 - 在Hugging Face平台上已有超过10万个通义千问派生模型[5] - 中国开放模型整体性能紧追美国企业如OpenAI,形成持续竞争态势[6] - 深度求索等中国新兴企业的开放模型也在行政、汽车、金融等行业广泛应用[6]