大模型
搜索文档
中国大模型,正在成为全球的“默认选项”
观察者网· 2026-02-14 17:49
中国大模型在海外市场的定位转变 - 中国AI大模型已从“平替”选项转变为凭借绝对性能引发海外开发者群体性追随的行业标杆,开发者会第一时间跟进中国大模型的新版本 [1] - 海外开发者不再满足于单纯调用,而是将中国模型深度集成进核心工具链,并将其设置为默认选项,替换了GPT和Claude等原有选择 [1] 模型性能与能力突破 - MiniMax M2.5在SWE-Bench Verified榜单中获得80.2%的成绩,与Claude Opus4.6(80.8%)仅差0.6个百分点,且超过了GPT-5.2(80.0%) [8] - MiniMax M2.5具备100 TPS的原生推理速度,几乎是其他前沿模型的两倍,跑同一套测试题比上一代M2.1快了37% [8] - 卡内基梅隆大学教授测评后公开表态,M2.5是第一个综合能力超过Claude Sonnet的开源模型 [7] - Kimi K2.5拥有万亿参数,其“Agent Swarm”特性可并行调度最多100个子Agent,在高难度测试(HLE)中表现超过GPT-5.2和Claude Opus4.5 [14] 市场接受度与生态集成 - 开源编程Agent项目OpenCode(拥有10万+星标)的联合创始人宣布将MiniMax M2.5切换为默认模型 [2] - 现象级AI助手OpenClaw(两个月内GitHub获10万+星标)已将MiniMax列为推荐模型提供商并完成原生OAuth集成 [4] - 在跟踪大模型实际调用的OpenRouter平台上,Kimi K2.5的调用量超过了谷歌Gemini 3和Anthropic的Claude模型,持续霸榜榜首 [14] - 智谱GLM-5发布后,在海外主流推理平台上架当天就引发热潮,其匿名测试版本“PonyAlpha”曾在24小时内登顶OpenRouter热度榜 [9][11] 成本优势与商业价值 - MiniMax M2.5与Claude Opus4.6性能相当,但价格低至Opus的1/20 [5] - 完成一个日常编程任务,MiniMax M2.5约耗费0.15美元,而Claude Opus 4.6约需3美元,存在20倍的成本差距 [16] - 硅谷顶级投资人指出,开源模型不仅能削减90%的成本,还能提供AI主权,创造深刻的“Kimi2.5 Moment” [11] - 极致的性价比使大规模AI Agent商业落地从“烧不起”变为“随便跑” [16] 用户狂热与商业化进展 - 中国大模型的火爆催生了海外“反向代购”现象,有“数字倒爷”在TikTok上通过代充会员在短短两三天内狂赚数万美元 [16][17] - 智谱GLM-5发布后因算力供不应求上调Coding Plan订阅费,海外开发者研究“如何翻墙回国充值”以享受更低价格 [17] - Kimi K2.5发布后,其全球付费用户量实现了4倍的爆发式增长 [18] - 中国大模型在海外市场完成了从“叫好”到“叫座”的实质性跨越,商业化前景明确 [18] 资本市场反应与行业影响 - 在密集发布潮后,智谱和MiniMax股价双双飙升,MiniMax市值突破了2000亿港元 [18] - 中国大模型正告别数字游戏,在全球生态中完成“实际部署”和战略卡位,为AI Agent大规模爆发做好了准备 [18]
MiniMax新模型比肩海外头部,国产大模型开启“月更”
南方都市报· 2026-02-14 17:28
公司产品发布与性能 - MiniMax于2月13日发布最新M2.5大模型,该模型提升了智能体任务处理速度,且调用价格远低于同等级产品 [1] - M2.5完成任务的平均耗时从上一版本M2.1的31.3分钟缩短至22.8分钟,速度提升37% [1] - M2.5的任务处理耗时(22.8分钟)与Anthropic同期发布的Claude Opus 4.6模型(22.9分钟)基本持平 [1] - 在编程任务上,M2.5在BridgeBench测试中的得分仅比Opus 4.6低0.4分,但调用价格仅为后者的1/8 [1] - M2.5上线后在AI模型API聚合平台OpenRouter上的日调用量超过1000亿token,跻身平台榜单前十 [2] 产品定价与市场反馈 - M2.5定价极具竞争力,在每秒输出100个token的情况下,连续工作一小时仅需1美元;每秒输出50个token则需0.3美元 [1] - 1万美元的预算可支持4个智能体连续工作一年,公司称M2.5提供了“经济上几乎无限制地构建和运营Agent的可能性” [1] - 硅谷风投Menlo Ventures合伙人评价M2.5“超便宜,非常适合编程” [2] - 云端编程智能体平台OpenHands评价当前API模型市场是“两强争霸”,Opus代表最高能力上限,M2.5则以更低成本提供较高能力 [2] 产品应用场景与能力 - M2.5在需要长时间运行的任务上表现突出,例如从零开始构建应用程序 [2] - 除编程外,M2.5在Word、PPT、Excel金融建模等办公高阶场景的能力也取得显著提升 [2] - 公司前期与金融、法律、社会科学等领域的资深从业者深度合作,将行业隐性知识带入模型训练流程 [2] 技术进展与迭代节奏 - 在过去100多天内,MiniMax保持近乎“每月一更”的节奏,陆续推出了M2、M2.1和M2.5版本 [3] - 从编程基准测试SWE-Bench Verified的成绩看,M2系列模型的性能提升速度比Claude、GPT和Gemini等模型系列更为显著 [3] - 公司将模型能力的持续跃升归因于大规模强化学习,特别是围绕Agent RL(智能体强化学习)框架和算法搭建的完整技术体系 [3] 行业竞争态势 - M2.5的发布是国产大模型公司在春节前夕集中“交卷”的最新案例 [3] - 近期行业动态包括:字节跳动视频生成模型Seedance2.0接入豆包和即梦产品;智谱上线旗舰新模型GLM-5,同样主打编程能力;DeepSeek开始测试最高100万Token的上下文长度 [3] - 国产大模型集体“上新”引爆“AI春节档”,令全球AI竞赛更加白热化 [3]
整整21个月,豆包大模型正式进入2.0时代!
量子位· 2026-02-14 16:13
这是 时隔21个月 以来的最大版本的更新。 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 在 Seedance 2.0 和 Seedream 5.0 Lite ,一波接一波爆火之后,豆包把完全体拿出来了—— 豆包大模型2.0 。 像Seedance 2.0已经成为全民玩转的AI,我们也试着做了一个视频: 短短5秒钟,效果确实是足够逼真。 也难怪老外也开始研究怎么注册中国手机号来体验了…… 再如 Seedream 5.0 Lite ,首次支持联网检索,生成的图片也达到了商业化的水平: 而就在今天,在视觉模型火爆之后,豆包终于把那个最核心的大脑拿出来了—— 豆包大模型2.0 。 整体来看,这次豆包大模型2.0在多模态理解、企业级Agent、推理和代码能力上都有了不少的提升: 更直观的提升,体现在榜单测评中。 例如在MathVista、MathVision、MathKangaroo、MathCanvas等数学推理基准上达到业界最优水平。同时,在 LogicVista、VisuLogic 等视觉解谜与逻辑推理基准上,Seed2.0 Pro得分较Seed1.8显著提升。 更强多模态理解:在多模态感知、高精度文字 ...
(经济观察)物"流"快递,中国人春节旅途轻松了
中国新闻网· 2026-02-14 16:01
行业趋势:春节出行行李寄递需求激增 - 春节期间,旅客出行呈现“轻装简从”趋势,行李提前快递寄回家成为普遍选择[1] - 以行李、年货为代表的个人寄件业务量近期同比增长约190%,与去年农历春节前同期相比增长超30%,且越临近春节需求增长越明显[3] - “团圆”观念下的春节旅游,全家出行催生了减轻行李负担的快递服务市场[4] 基础设施:中国寄递网络日益完善 - “十四五”以来,中国建成了世界上规模最大、受益人数最多的寄递网络[3] - 农村和边境地区邮政通达广度深度提升,营业网点数量较5年前增长近1.5倍,全国边境自然村全部实现通邮[3] - 快递物流触角向更远更深处延伸,释放了更多需求[3] 业务发展:生鲜年货跨区域流通成为亮点 - 节前年货礼品寄递需求旺盛,例如新疆、内蒙古、甘肃的羊肉,吉林查干湖的冷水鱼,以及南方的水果生鲜[3] - 京东物流通过投入全货机运输新疆羊肉,解决了陆运时间长、空运受航班缩减影响的痛点,业务量显著增长,全货机每天满载甚至供不应求[4] - 西北羊肉与海南水果能同时出现在年夜饭餐桌,依赖于冷链保鲜技术、公铁空一体化运输网络以及大模型在需求预测、智能调度等场景的应用[4] 公司布局:快递企业深化文旅场景服务 - 顺丰文旅为春节旅游市场提供便捷物流支撑,其行李寄递服务已在全国20多个核心旅游城市同步推出[4] - 截至2026年1月底,顺丰已进驻超500个交通枢纽、300余家景区,覆盖超2万家酒店,并与30余个文旅厅(局)及多个文旅头部品牌建立合作[4]
豆包大模型2.0发布,Pro版全面对标GPT 5.2
21世纪经济报道· 2026-02-14 15:20
豆包大模型升级至2.0阶段 - 字节跳动旗下豆包大模型于2月14日正式进入2.0阶段[1] 豆包2.0通用模型系列 - 豆包2.0系列围绕大规模生产环境需求进行系统性优化,具备高效推理、多模态理解与复杂指令执行能力[3] - 该系列包含Pro、Lite、Mini三款通用Agent模型及一款Code模型,灵活适配各类业务场景[3] - 豆包2.0 Pro面向深度推理与长链路任务执行场景,全面对标GPT 5.2与Gemini 3 Pro[3] - 豆包2.0 Lite兼顾性能与成本,综合能力超越上一代主力模型豆包1.8[3] - 豆包2.0 Mini面向低时延、高并发与成本敏感场景[3] - Code版专为编程场景打造,与TRAE结合使用效果更佳[3] 模型发布与上线情况 - 豆包2.0 Pro已在豆包App、电脑端和网页版上线,用户选择“专家”模式即可体验[3] - 豆包2.0 Code已接入AI编程产品TRAE[3] - 面向企业和开发者,火山引擎已上线豆包2.0系列模型API服务[3] 豆包视频生成模型Seedance 2.0 - 字节跳动于2月12日宣布正式发布豆包视频生成模型 Seedance 2.0[3] - Seedance 2.0现已全面接入豆包和即梦产品,并上线火山方舟体验中心[3] - 用户可在豆包App对话框选择“Seedance 2.0”入口,输入提示词生成5秒或10秒视频[4] - 该模型支持原声音画同步、多镜头长叙事、多模态可控生成[4] - 目前该模型暂不支持上传真人图片作为主体参考[4] - 公司表示Seedance 2.0仍存在诸多瑕疵,将持续探索大模型与人类反馈的深度对齐[4]
都在等梁文锋:AI战事正酣梁文锋却静悄悄,有时候,越是平静,对手越是害怕
新浪财经· 2026-02-14 15:13
中国AI大模型行业竞争格局 - 互联网巨头正激烈争夺AI大模型的C端流量入口,行业大战已至 [3][4][22][23] - 主要厂商通过巨额现金补贴争夺用户:阿里千问投入30亿元红包,腾讯元宝撒出10亿元,百度文心助手投入5亿元,字节豆包提供最高8888元现金红包 [6][25] - 产品发布密集:字节于2月14日发布豆包大模型2.0,并于2月7日推出刷屏视频模型Seedance 2.0;阿里发布新一代图像生成模型Qwen-Image 2.0;智谱、MiniMax也同期发布新模型 [8][25] - 竞争本质在于解决用户真实需求,以定义未来十年互联网秩序,成为AI时代的超级入口 [19][36] DeepSeek公司动态与战略 - 在行业激战之际,DeepSeek显得异常冷静,仅于2月11日进行了一次低调更新,将上下文窗口长度从128K token大幅提升至1M token [4][8][23][26] - 外界猜测其可能在春节前后发布代号为V4的新一代旗舰模型,剑指Coding AI王座,但公司内部对发布时间保持沉默 [8][26] - 2026年1月,DeepSeek团队密集发布了两篇由创始人梁文锋署名的技术论文(mHC及Engram),市场推测可能与V4核心技术相关 [9][27] - 公司仍在积极招聘,例如2月5日更新了产品经理、客户端研发工程师等多个岗位,显示出持续投入 [9][27] - 公司近期招聘显示其开始重视C端产品,职责包括洞察用户需求、推动产品创新和体验优化、关注用户增长与转化 [16][33] 创始人梁文锋背景与DeepSeek历史 - 创始人梁文锋为85后,来自广东湛江,极少露面,身家上百亿 [4][23] - 其学术背景优异,17岁以高考状元身份考入浙江大学电子信息工程专业,后攻读机器视觉方向研究生 [11][29] - 于2015年与同学创立幻方量化,该公司在2021年跻身千亿量化私募行列,并拥有“万卡级别”的GPU集群,是国内少数GPU过万的企业之一 [13][30] - 幻方量化早期即全面采用AI模型,并于2019年及2021年投入超过10亿元建设“萤火一号”及“萤火二号”深度学习训练平台 [13][30] - 梁文锋在38岁时决定创办DeepSeek,旨在做通用人工智能并引领行业生态,而非简单复刻GPT [14][31] DeepSeek的技术突破与行业影响 - 2025年春节前一周,DeepSeek发布推理大模型R1并开源,其性能比肩世界顶尖水平,但成本仅约几十万美元,颠覆了顶级模型需千万美元投入的行业认知 [4][14][23][31] - 此次发布被称作“DeepSeek时刻”,标志着东方力量征服全球科技圈 [4][15][23][32] - 公司文化强调创新而非跟随,梁文锋曾言“我们大部分公司习惯follow,而不是创新” [9][27] AI应用趋势与用户生态 - AI C端应用需求爆发点将至,竞争进入“后模型”时代 [18][35] - 大厂正通过具体场景培育用户心智:阿里千问通过“点奶茶”让用户感知AI实用性;字节豆包在穿搭指导、宠物摄影、作业辅导等生活场景中渗透,其月活跃用户已突破2亿 [17][34] - DeepSeek的C端产品此前因界面极其简单被用户调侃“好像不需要赚钱”,近期招聘显示公司开始重视C端用户体验与增长 [16][33]
Seedance2.0之后 字节发布豆包大模型2.0
南方都市报· 2026-02-14 15:07
公司产品发布与核心能力 - 字节跳动于2月14日宣布推出豆包大模型2.0系列,该系列针对大规模生产环境进行系统性优化,旨在更好地完成真实世界的复杂任务 [1] - 豆包2.0 Pro旗舰版在数学和推理能力上达到世界顶尖水平,其在国际数学奥林匹克(IMO)、国际数学奥林匹克竞赛(CMO)和国际大学生程序设计竞赛(ICPC)中取得金牌成绩,并超越了Gemini 3 Pro在Putnam基准测试上的表现 [1] - 豆包2.0加强了长尾领域知识覆盖,在SuperGPQA等多项科学领域知识测试中,成绩与Gemini 3 Pro和GPT 5.2相当,在跨学科知识应用上排名前列 [1] - 豆包2.0全面升级多模态理解能力,在视觉推理、空间感知、长上下文理解等权威测试中均取得业界最佳表现 [1] - 豆包2.0增强了对时间序列与运动感知的理解能力,可实现实时视频流分析、环境感知与主动交互,应用于健身指导、穿搭建议、看护陪伴等生活场景 [2] 模型性能与定价策略 - 豆包2.0 Pro在Agent能力评测中达到顶级水平,在HLE-Text(人类的最后考试)上获得54.2的最高分,大幅领先于其他模型 [2] - 豆包2.0 Pro已在豆包App、电脑客户端和网页版上线,用户可通过“专家”模式体验,其API服务也已通过火山引擎上线 [2] - 豆包2.0 Pro按“输入长度”区间定价,32k以内的输入定价为3.2元/百万tokens,输出定价为16元/百万tokens,相比Gemini 3 Pro和GPT 5.2有较大的成本优势 [2] - 豆包2.0 Lite极具性价比,综合性能超越两个月前发布的上一代主力模型豆包1.8,其百万tokens输入价格仅为0.6元 [2]
豆包大模型2.0正式发布
新华网财经· 2026-02-14 15:04
豆包大模型2.0发布 - 豆包大模型正式进入2.0阶段,围绕大规模生产环境下的使用需求做了系统性优化,依托高效推理、多模态理解与复杂指令执行能力,以更好地完成真实世界复杂任务 [1] 豆包2.0系列模型构成与定位 - 豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和一款Code模型,旨在灵活适配各类业务场景 [2] - 豆包2.0 Pro面向深度推理与长链路任务执行场景,全面对标GPT 5.2与Gemini 3 Pro [2] - 豆包2.0 Lite兼顾性能与成本,综合能力超越上一代主力模型豆包1.8 [2] - 豆包2.0 Mini面向低时延、高并发与成本敏感场景 [2] - 豆包2.0 Code版专为编程场景打造,与TRAE结合使用效果更佳 [2]
豆包大模型2.0发布,Pro版全面对标GPT 5.2
21世纪经济报道· 2026-02-14 15:00
豆包大模型升级至2.0阶段 - 字节跳动于2月14日宣布其豆包大模型正式进入2.0阶段 [1] 豆包2.0系列模型特性与定位 - 豆包2.0围绕大规模生产环境使用需求进行系统性优化,具备高效推理、多模态理解与复杂指令执行能力,以更好地完成真实世界复杂任务 [3] - 豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和一款Code模型,旨在灵活适配各类业务场景 [3] - 豆包2.0 Pro面向深度推理与长链路任务执行场景,全面对标GPT 5.2与Gemini 3 Pro [3] - 豆包2.0 Lite兼顾性能与成本,其综合能力超越上一代主力模型豆包1.8 [3] - 豆包2.0 Mini面向低时延、高并发与成本敏感场景 [3] - 豆包2.0 Code专为编程场景打造,与TRAE结合使用效果更佳 [3] 豆包2.0系列模型发布与部署 - 豆包2.0 Pro已在豆包App、电脑端和网页版上线,用户选择“专家”模式即可对话体验 [3] - 豆包2.0 Code已接入AI编程产品TRAE [3] - 面向企业和开发者,火山引擎已上线豆包2.0系列模型API服务 [3] 豆包视频生成模型Seedance 2.0发布 - 字节跳动于2月12日通过官方公众号宣布,豆包视频生成模型Seedance 2.0正式发布 [3] - Seedance 2.0已全面接入豆包和即梦产品,并上线火山方舟体验中心 [3] - 用户可在豆包App对话框选择新增的“Seedance 2.0”入口,输入提示词生成5秒或10秒视频 [4] - Seedance 2.0模型支持原声音画同步、多镜头长叙事、多模态可控生成 [4] - 目前,豆包Seedance 2.0暂不支持上传真人图片作为主体参考 [4] - 公司表示Seedance 2.0仍不完美,生成结果存在诸多瑕疵,将持续探索大模型与人类反馈的深度对齐,以提供更高效、稳定、具想象力的音视频生产工具服务创作者 [4]
春节掀大模型“看病”热,AI化身大众健康“新顾问”
21世纪经济报道· 2026-02-14 14:58
行业趋势与市场表现 - 春节期间,面向消费者(C端)的AI大模型应用掀起热潮,用户使用频繁且场景特定[1] - 千问日活跃用户数已超7000万,基本与豆包持平[1][8] - 元宝日活跃用户数已近2000万[1] - 蚂蚁阿福每天解答用户健康咨询已达1000万次[1] - 苹果App Store中国区免费榜显示,千问、蚂蚁阿福、元宝、豆包曾一度包揽榜单前四名[8] - 大模型这股风正加速吹向下沉市场,在县城等下沉市场的使用已不鲜见[1] 用户应用场景与案例 - 用户将大模型用作“健康顾问”,用于健康咨询、体检报告解读和康复指导[1][5] - 案例显示,大模型能提供甲状腺结节恶变概率低于5%甚至1%的权威信息,缓解用户焦虑[5] - 用户通过大模型辅助梳理健康问题、排查症状,例如识别出过敏原而非普通感冒[1][6] - 用户行为已不局限于咨询,部分人开始根据大模型推荐的药品进行线下咨询和购买[5] - 知名财经博主分享案例,AI健康助手解决了老人长期未能确诊的头痛难题[6] 技术能力与当前局限 - 目前医疗大模型在健康科普、轻症咨询、慢病监测管理、就医导诊、检查报告解读框架、诊后指导等应用已比较扎实[7] - 用大模型“看病”是激进提法,“幻觉”问题是主要限制,不能替代医生的诊断[7] - 技术层面可通过权威素材和“安全围栏”提高输入输出质量,并以人工审查作为补充[7] - 未来若能打通患者照片、视频、病历、检验、影像、病理等全链条数据,可能整合成更个性化的健康“顾问”[12] 合规与监管风险 - 大模型若针对特定人具体症状给出明确药品名称、剂量或疗程,则构成事实上的诊疗行为,存在合规风险[8] - 普适性、知识性的健康科普/建议通常处于“绿灯区域”[8] - 平台若纵容“打擦边球”行为,可能面临行政处罚、民事赔偿,甚至刑事犯罪风险[9] - 医疗健康信息的隐私合规存在风险,包括信息过度收集、用户同意环节不透明、数据去标识化而非真匿名、以及向第三方共享数据等问题[9][10] - 2026年,个人信息综合治理向“严执行”纵深推进,一揽子授权将成为历史[10] - 当前对AI健康咨询的监管存在空白,通用健康大模型成为“灰色地带”,近乎零门槛准入[11] - 律师建议明确责任归属、建立高风险AI强制备案与审查制度、并由监管部门出具负面清单以明确监管协同[11] 商业模式与可持续发展 - 当前各类大模型应用通过红包补贴和广告轰炸争夺用户,底层商业逻辑是互联网流量思维在医疗领域的再次探索[15] - 科技公司也有将AI医疗加入业务组合的资本市场逻辑[15] - 可持续发展的关键在于能否识别未满足的健康需求,并落实到检验、药品、器械的“提供”本身[16] - 增量业务的抓手需要回到药品/器械的“提供”,可能是生产或供应链环节[15] - 利用大模型进行纯粹问诊的盈利模式仍在探索,需要整个生态的摸索进化[16] - 面向政府、支付方、医院、医生、企业、病人和消费者等已出现一些商业化场景,大模型问诊是补充工具[16] - 盈利模型的清晰化是可持续发展方向,需明确产品服务、解决问题、目标客户及定价[16] 产业协同与未来展望 - 政策提出目标,到2027年形成一批临床专病专科垂直大模型,到2030年基层诊疗智能辅助应用基本实现全覆盖[13] - 在政策推动下,基层可能成为AI落地的主战场[13] - C端健康软件与基层医疗协同,可放大优质资源辐射半径,例如“AI预问诊+基层医生复核”、“AI辅助诊断系统+基层机构”等模式[13] - 需做好医生与AI的协同以及线上线下的协同[13] - 有专家担忧过度依赖AI可能弱化年轻医生临床思维的培养[13] - 观察认为,若使用者能将AI的帮助“内化”,整体上可实现螺旋式上升的良性协同[14] - 线上线下的衔接需关注数据互通与互认、患者信息转诊、支付联动和处方流转等[14]