Gemini 3 Pro - 财报，业绩电话会，研报，新闻

Gemini 3 Pro

搜索文档

中国经营报· 2026-02-14 18:22

公司发布与产品升级 - 字节跳动于2月14日正式发布豆包大模型2.0系列该系列针对大规模生产环境使用需求完成系统性优化核心聚焦提升真实世界复杂任务的执行能力 [1] - 此次发布是公司继Seedance 2.0视频模型、Seedream 5.0 Lite图像模型后在大模型领域的又一重要布局 [1] 模型性能与基准测试 - 豆包2.0 Pro旗舰版展现出顶尖的基础能力在IMO、CMO数学竞赛和ICPC编程竞赛中取得金牌在Putnam基准测试上的表现超越Gemini 3 Pro 数学与推理能力跻身世界前列 [1] - 在知识储备层面豆包2.0强化了长尾领域知识覆盖科学领域知识测试成绩与Gemini 3 Pro、GPT 5.2持平跨学科知识应用表现位居行业前列 [1] - 多模态能力全面升级在视觉推理、空间感知、长上下文理解等权威测试中取得业界最佳成绩可高效理解图表、复杂文档、视频等内容 [1] - 模型对时间序列与运动感知的理解能力进一步增强能实现实时视频流分析、环境感知与主动交互可落地于健身指导、看护陪伴等多元生活场景 [1] Agent能力与评测 - 作为大模型行动力的核心豆包2.0 Pro的Agent能力表现亮眼在指令遵循、工具调用等评测中达到顶级水平 [2] - 在HLE-Text评测中豆包2.0 Pro斩获54.2的最高分领先其他模型 [2] 产品上市与定价策略 - 豆包2.0 Pro已在豆包App、电脑客户端及网页版上线用户开启“专家”模式即可体验 [2] - 火山引擎同步上线了豆包2.0系列模型API服务 [2] - 定价方面豆包2.0 Pro版32k以内输入定价为3.2元/百万tokens 输出定价为16元/百万tokens 相较Gemini 3 Pro、GPT 5.2更具性价比 [2] - Lite版百万tokens输入定价仅0.6元其综合性能超越了两个月前发布的豆包1.8 [2]

Seedream 5.0 Lite图像模型

Seedream 5.0 Lite图像模型

Gemini 3 Pro

字节豆包2.0发布：推理成本降一个数量级，正面对标GPT-5和Gemini 3

华尔街见闻· 2026-02-14 17:29

核心观点 - 字节跳动旗下豆包大模型正式进入2.0阶段，推出包含Pro、Lite、Mini及Code模型的系列升级版本，在性能对标GPT-5.2和Gemini 3 Pro等顶尖模型的同时，将推理成本降低约一个数量级，旨在为大规模生产环境下的复杂任务提供更具竞争力的解决方案 [1] - 该系列模型已全面上线，面向C端用户、企业及开发者提供服务，标志着公司在大模型商业化应用上迈出重要一步 [1] 产品发布与性能对标 - 豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和专门的Code模型 [1] - 旗舰版豆包2.0 Pro全面对标GPT-5.2与Gemini 3 Pro，在多数视觉理解基准测试中达到业界最高水平 [1] - 该模型在数学奥赛IMO、CMO和编程竞赛ICPC中获得金牌成绩 [1] - 在科学领域的整体成绩与Gemini 3 Pro和GPT-5.2相当，并在HealthBench上获得第一名 [5] - 在HLE-text（人类的最后考试）上，豆包2.0 Pro取得最高分54.2分 [5] 多模态与视觉能力 - 豆包2.0全面升级多模态能力，在视觉推理、感知能力、空间推理与长上下文理解等任务上表现突出 [2] - 在动态场景理解方面，该模型在TVBench等关键测评中处于领先位置，在EgoTempo基准上甚至超过人类分数 [4] - 在长视频场景中，豆包2.0在大多数评测上超越其他顶尖模型，并在多个流式实时问答视频基准测试中表现优异 [4] - 这使得其能够作为AI助手完成实时视频流分析、环境感知、主动纠错与情感陪伴，实现从被动问答到主动指导的交互升级，可应用于健身、穿搭等陪伴场景 [4] 成本与商业化优势 - 该模型在保持与业界顶尖大模型相当效果的同时，token定价降低了约一个数量级 [7] - 在现实世界复杂任务中，由于大规模推理与长链路生成将消耗大量token，豆包2.0的成本优势将成为关键竞争力 [1] - 基于OpenClaw框架和豆包2.0 Pro模型，公司在飞书上构建了智能客服Agent，能通过调用不同技能完成客户对话，遇到难题时会主动拉群求助真人同事，帮客户预约上门维修人员，并在维修后主动回访和推荐产品 [7] 编程模型与应用 - 豆包2.0 Code基于2.0基座模型针对编程场景进行优化，强化了代码库解读能力和应用生成能力，并增强了模型在Agent工作流中的纠错能力 [8] - 该模型已上线TRAE中国版作为内置模型，支持图片理解和推理 [8] - 开发者使用TRAE配合豆包2.0 Code，仅需1轮提示词就能构建出“TRAE春节小镇·马年庙会”互动项目的基本架构和场景，经过5轮提示词即可完成整个作品 [8] - 该项目包含11位由大语言模型驱动的NPC，能根据人设自然聊天、招呼顾客、现场砍价，AI游客也会自主决定去哪家摊位、买什么、说什么 [8] 产品上线与未来规划 - 豆包2.0 Pro已接入豆包App、电脑端和网页版的“专家”模式，Code版本已集成至AI编程产品TRAE [1] - 火山引擎同步上线面向企业和开发者的API服务 [1] - 公司表示未来将继续面向真实场景迭代模型，探索智能上限 [8]

大模型商业化应用

多模态能力

Artificial Intelligence

Artificial Intelligence

豆包2.0

GPT-5.2

Gemini 3 Pro

AI大战持续升级！Seedance 2.0之后，字节跳动又发布豆包大模型2.0

广州日报· 2026-02-14 17:06

豆包大模型2.0发布与核心能力 - 字节跳动于2月14日宣布推出豆包大模型2.0系列，针对大规模生产环境进行系统性优化，旨在更好地完成真实世界的复杂任务 [1] - 豆包2.0 Pro旗舰版在语言模型基础能力上表现突出，在IMO、CMO数学竞赛和ICPC编程竞赛中取得金牌成绩，并超越了Gemini 3 Pro在Putnam基准测试上的表现，数学和推理能力达到世界顶尖水平 [1] - 模型加强了长尾领域知识覆盖，在SuperGPQA等多项公开测试集上表现突出，科学领域知识测试成绩与Gemini 3 Pro和GPT 5.2相当，在跨学科知识应用上排名前列 [1] 1. 豆包2.0 Pro在HLE-Text评测中获得54.2的最高分，大幅领先于其他模型 [3] - 豆包2.0 Pro已在豆包App、电脑客户端和网页版上线，用户选择「专家」模式即可体验，火山引擎也已上线该系列模型的API服务 [3] 多模态与Agent能力升级 - 豆包2.0全面升级多模态理解能力，在视觉推理、空间感知、长上下文理解等权威测试中均取得业界最佳表现 [3] - 模型增强了对时间序列与运动感知的理解能力，可实现实时视频流分析、环境感知与主动交互，广泛应用于健身指导、穿搭建议、看护陪伴等生活场景 [3] - 在Agent能力方面，豆包2.0 Pro在指令遵循、工具调用和Search Agent等评测中达到顶级水平 [3] 定价策略与成本优势 - 豆包2.0 Pro按“输入长度”区间定价，32k以内的输入定价为3.2元/百万tokens，输出定价为16元/百万tokens，相比Gemini 3 Pro和GPT 5.2有较大的成本优势 [4] - 豆包2.0 Lite极具性价比，综合性能超越上一代主力模型豆包1.8，百万tokens输入价格仅为0.6元 [4] 行业竞争格局与战略意义 - 2026年春节成为AI大厂的核心竞技场，字节、阿里、腾讯、百度豪掷超45亿展开角逐，竞争已从技术参数比拼转向真实场景落地的较量 [5] - 各大厂依托自身生态发力，字节跳动凭借豆包大模型2.0的顶尖推理能力、多模态理解能力和成本优势，持续强化其AI在用户生活场景中的应用能力 [5] - 春节大战的核心是抢占用户心智和AI生态入口，关键在于将硬核技术转化为用户可感知的实用价值，从而在AI全民普及浪潮中占据先机 [5]

Artificial Intelligence

Artificial Intelligence

Seedance2.0之后字节发布豆包大模型2.0

南方都市报· 2026-02-14 15:07

公司产品发布与核心能力 - 字节跳动于2月14日宣布推出豆包大模型2.0系列，该系列针对大规模生产环境进行系统性优化，旨在更好地完成真实世界的复杂任务 [1] - 豆包2.0 Pro旗舰版在数学和推理能力上达到世界顶尖水平，其在国际数学奥林匹克（IMO）、国际数学奥林匹克竞赛（CMO）和国际大学生程序设计竞赛（ICPC）中取得金牌成绩，并超越了Gemini 3 Pro在Putnam基准测试上的表现 [1] - 豆包2.0加强了长尾领域知识覆盖，在SuperGPQA等多项科学领域知识测试中，成绩与Gemini 3 Pro和GPT 5.2相当，在跨学科知识应用上排名前列 [1] - 豆包2.0全面升级多模态理解能力，在视觉推理、空间感知、长上下文理解等权威测试中均取得业界最佳表现 [1] - 豆包2.0增强了对时间序列与运动感知的理解能力，可实现实时视频流分析、环境感知与主动交互，应用于健身指导、穿搭建议、看护陪伴等生活场景 [2] 模型性能与定价策略 - 豆包2.0 Pro在Agent能力评测中达到顶级水平，在HLE-Text（人类的最后考试）上获得54.2的最高分，大幅领先于其他模型 [2] - 豆包2.0 Pro已在豆包App、电脑客户端和网页版上线，用户可通过“专家”模式体验，其API服务也已通过火山引擎上线 [2] - 豆包2.0 Pro按“输入长度”区间定价，32k以内的输入定价为3.2元/百万tokens，输出定价为16元/百万tokens，相比Gemini 3 Pro和GPT 5.2有较大的成本优势 [2] - 豆包2.0 Lite极具性价比，综合性能超越两个月前发布的上一代主力模型豆包1.8，其百万tokens输入价格仅为0.6元 [2]

Seedream 5.0 Lite图像模型

Seedream 5.0 Lite图像模型

Gemini 3 Pro

豆包大模型2.0正式发布

新华网财经· 2026-02-14 15:04

豆包大模型2.0发布 - 豆包大模型正式进入2.0阶段，围绕大规模生产环境下的使用需求做了系统性优化，依托高效推理、多模态理解与复杂指令执行能力，以更好地完成真实世界复杂任务 [1] 豆包2.0系列模型构成与定位 - 豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和一款Code模型，旨在灵活适配各类业务场景 [2] - 豆包2.0 Pro面向深度推理与长链路任务执行场景，全面对标GPT 5.2与Gemini 3 Pro [2] - 豆包2.0 Lite兼顾性能与成本，综合能力超越上一代主力模型豆包1.8 [2] - 豆包2.0 Mini面向低时延、高并发与成本敏感场景 [2] - 豆包2.0 Code版专为编程场景打造，与TRAE结合使用效果更佳 [2]

大模型

Artificial Intelligence

Artificial Intelligence

豆包大模型2.0发布包含三款通用Agent模型和Code模型

凤凰网· 2026-02-14 14:51

豆包大模型2.0产品发布 - 字节跳动宣布发布豆包大模型2.0系列，包含Pro、Lite、Mini三款通用Agent模型和一款Code模型 [1] - 该系列模型围绕大规模生产环境使用需求进行系统性优化，旨在提升多模态理解、复杂指令执行及长程任务处理能力 [1] 产品定位与对标 - 豆包2.0 Pro面向深度推理与长链路任务，对标GPT 5.2与Gemini 3 Pro [1] - 豆包2.0 Lite综合能力超越上一代主力模型豆包1.8 [1] - 豆包2.0 Mini面向低时延、高并发与成本敏感场景 [1] - Code版专为编程场景打造，可与AI编程产品TRAE结合使用 [1] 多模态与长视频理解能力 - 豆包2.0在多模态理解能力上全面升级，在视觉推理、感知、空间推理与长上下文理解等任务中达到SOTA水平 [1] - 在TVBench、EgoTempo等动态场景测评中表现领先，其中EgoTempo得分超过人类基准 [1] - 在长视频理解方面，于多个流式实时问答基准测试中表现优异 [1] 推理与专业领域能力 - 豆包2.0 Pro在SuperGPQA、HealthBench等科学领域评测中分数超过GPT 5.2 [1] - 豆包2.0 Pro在IMO、CMO数学奥赛及ICPC编程竞赛中取得金牌成绩 [1] - 豆包2.0 Pro的推理成本较业界顶尖模型降低约一个数量级 [1] 产品上线与商业化 - 豆包2.0 Pro已在豆包App、电脑端及网页版上线，用户选择「专家」模式即可体验 [2] - Code模型已接入TRAE中国版 [2] - 火山引擎同步上线豆包2.0系列模型API服务，供企业和开发者调用 [2]

大模型

Artificial Intelligence

Artificial Intelligence

字节跳动发布豆包大模型2.0，主打真实世界复杂任务执行力

环球网· 2026-02-14 14:36

公司产品发布 - 字节跳动于2月14日宣布推出豆包大模型2.0系列，旨在针对大规模生产环境进行系统性优化，以更好地完成真实世界的复杂任务 [1] - 豆包2.0系列是继Seedance 2.0视频模型和Seedream 5.0 Lite图像模型之后发布的新产品 [1] 模型核心能力 - 在语言模型基础能力上，豆包2.0 Pro旗舰版在IMO、CMO数学竞赛和ICPC编程竞赛中取得金牌成绩，并超越了Gemini 3 Pro在Putnam基准测试上的表现，数学和推理能力达到世界顶尖水平 [1] - 豆包2.0加强了长尾领域知识覆盖，在SuperGPQA等多项公开测试集上表现突出，其科学领域知识测试成绩与Gemini 3 Pro和GPT 5.2相当，在跨学科知识应用上也排名前列 [1] - 豆包2.0全面升级了多模态理解能力，在视觉推理、空间感知、长上下文理解等权威测试中均取得业界最佳表现 [1] 1. 豆包2.0增强了对时间序列与运动感知的理解能力，可实现实时视频流分析、环境感知与主动交互 [2] 智能体与行动能力 - 在Agent能力方面，豆包2.0 Pro在指令遵循、工具调用和Search Agent等评测中达到顶级水平 [4] - 豆包2.0 Pro在HLE-Text评测中获得54.2的最高分，大幅领先于其他模型 [4] 产品上市与定价策略 - 目前，豆包2.0 Pro已在豆包App、电脑客户端和网页版上线，用户选择「专家」模式即可体验 [4] - 火山引擎也已上线豆包2.0系列模型的API服务 [4] - 豆包2.0 Pro按“输入长度”区间定价，32k以内输入的定价为3.2元/百万tokens，输出定价为16元/百万tokens，相比Gemini 3 Pro和GPT 5.2有较大的成本优势 [4] - 豆包2.0 Lite极具性价比，其综合性能超越两个月前发布的上代主力模型豆包1.8，百万tokens输入价格仅为0.6元 [4]

Seedream 5.0 Lite图像模型

Seedream 5.0 Lite图像模型

Gemini 3 Pro

豆包大模型2.0正式发布

财联社· 2026-02-14 14:28

豆包大模型2.0发布 - 豆包大模型正式进入2.0阶段，围绕大规模生产环境下的使用需求进行了系统性优化 [1] - 新模型依托高效推理、多模态理解与复杂指令执行能力，旨在更好地完成真实世界复杂任务 [1] 模型系列构成 - 豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和一款Code模型，以灵活适配各类业务场景 [2] - 豆包2.0 Pro面向深度推理与长链路任务执行场景，全面对标GPT 5.2与Gemini 3 Pro [2] - 豆包2.0 Lite兼顾性能与成本，其综合能力超越上一代主力模型豆包1.8 [2] - 豆包2.0 Mini面向低时延、高并发与成本敏感的场景 [2] - Code版模型（Doubao-Seed-2.0-Code）专为编程场景打造，与TRAE结合使用效果更佳 [2]

大模型

人工智能

豆包大模型2.0

Code版（Doubao - Seed - 2.0 - Code）

Code版（Doubao - Seed - 2.0 - Code）

豆包2.0 Pro

2.0 Lite

MiniMax发布M2.5模型：1美元运行1小时，价格仅为GPT-5的1/20，性能比肩Claude Opus

硬AI· 2026-02-13 21:25

模型发布与核心突破 - 公司推出最新迭代的M2.5系列模型，在保持行业领先性能的同时，大幅降低了推理成本，旨在解决复杂智能体应用经济上不可行的痛点 [3] - M2.5模型宣称在编程、工具调用及办公场景中已达到或刷新了行业SOTA水平 [3] 成本与价格优势 - M2.5模型在每秒输出50个token的版本下，价格仅为Claude Opus、Gemini 3 Pro以及GPT-5等主流模型的1/10至1/20 [2][3] - 在每秒输出100个token的高速运行环境下，M2.5连续工作一小时的成本仅需1美元，若降至50 token/秒，成本进一步下探至0.3美元 [3] - 1万美元的预算足以支撑4个智能体连续工作一年，极大地降低了构建和运营大规模智能体集群的门槛 [3] - 模型提供100 TPS的推理速度，约为当前主流模型的两倍 [7] 性能表现 - M2.5在核心编程测试中表现强劲，并在多语言任务Multi-SWE-Bench上取得第一，整体水平比肩Claude Opus系列 [2][4] - 在SWE-Bench Verified测试中，M2.5完成任务的速度较上一代M2.1提升了37%，端到端运行时间缩短至22.8分钟，与Claude Opus 4.6持平 [2][4] - 在SWE-Bench Verified评测中，M2.5平均每个任务消耗3.52M token，低于M2.1的3.72M [9] - 在BrowseComp、Wide Search和RISE等多项任务中，M2.5相较于前代节省了约20%的轮次消耗 [16] 编程能力 - M2.5不仅关注代码生成，更强调系统设计能力，演化出了原生的规格说明书行为，能够以架构师视角在编码前主动拆解功能、结构和UI设计 [11] - 该模型在超过10种编程语言和数十万个真实环境中进行了训练 [12] - 测试显示，M2.5能胜任从系统设计、开发到功能迭代及最终代码审查的全流程 [13] - 在编程场景中，M2.5生成的代码已占据公司内部新提交代码的80% [2][4] - 在Droid编程脚手架上的通过率为79.7%，在OpenCode上为76.1%，均优于上一代模型及Claude Opus 4.6 [14] 智能体应用与内部验证 - 公司内部30%的整体任务已由M2.5自主完成，覆盖研发、产品、销售等核心职能 [2][4] - 公司内部已有30%任务由AI自主完成 [2] - 在内部构建的Cowork Agent评测框架中，M2.5在与主流模型的两两对比中取得了59.0%的平均胜率，能够输出符合行业标准的Word研报、PPT及复杂的Excel财务模型 [18] 技术架构 - M2.5性能提升的核心驱动力来自于大规模强化学习，公司采用了名为Forge的原生智能体强化学习框架 [23] - 工程团队优化了异步调度策略和树状合并训练样本策略，实现了约40倍的训练加速，验证了模型能力随算力和任务数增加呈现近线性提升的趋势 [23] 产品部署 - 目前，M2.5已在公司智能体、API及Coding Plan中全量上线，其模型权重也将在HuggingFace开源，支持本地部署 [25]

原生Agent强化学习框架

大规模强化学习（RL）

Artificial Intelligence

Artificial Intelligence

M2.5模型

GPT - 5

Claude Opus

MiniMax发布M2.5模型：1美元运行1小时，价格仅为GPT-5的1/20，性能比肩Claude Opus

华尔街见闻· 2026-02-13 10:15

核心观点 - MiniMax推出M2.5系列模型，在保持行业领先性能的同时，大幅降低推理成本，旨在解决复杂Agent应用经济不可行的痛点，并在编程、工具调用及办公场景中达到或刷新行业SOTA水平 [1] 成本与定价优势 - 在每秒输出50个token的版本下，其价格仅为Claude Opus、Gemini 3 Pro以及GPT-5等主流模型的1/10至1/20 [1] - 在每秒输出100个token的高速运行环境下，M2.5连续工作一小时的成本仅需1美元，若降至50 token/秒，成本进一步下探至0.3美元 [1] - 1万美元的预算足以支撑4个Agent连续工作一年，极大降低了构建和运营大规模Agent集群的门槛 [1] - 模型提供100 TPS的推理速度，约为当前主流模型的两倍 [3] - 在SWE-Bench Verified评测中，M2.5平均每个任务消耗3.52M token，低于M2.1的3.72M [3] 性能表现与基准测试 - 在核心编程测试中表现强劲，并在多语言任务Multi-SWE-Bench上取得第一，整体水平比肩Claude Opus系列 [2] - 在SWE-Bench Verified测试中，完成任务的速度较上一代M2.1提升了37%，端到端运行时间缩短至22.8分钟，与Claude Opus 4.6持平 [2] - 在Droid上的通过率为79.7，在OpenCode上为76.1，均优于上一代模型及Claude Opus 4.6 [5] - 在BrowseComp、Wide Search和RISE等多项任务中，相较于前代节省了约20%的轮次消耗 [8] - 在内部构建的Cowork Agent评测框架中，M2.5在与主流模型的两两对比中取得了59.0%的平均胜率 [10] 编程与系统设计能力 - 模型演化出了原生的Spec行为，能够以架构师视角在编码前主动拆解功能、结构和UI设计 [4] - 该模型在超过10种编程语言和数十万个真实环境中进行了训练 [4] - 能胜任从系统设计、开发到功能迭代及最终代码审查的全流程 [4] - 公司内部30%的整体任务已由M2.5自主完成，覆盖研发、产品、销售等核心职能 [2] - 在编程场景中，M2.5生成的代码已占据新提交代码的80% [2] 办公与专业场景应用 - 通过与金融、法律等领域资深从业者合作，将行业隐性知识融入模型训练 [10] - 能够输出符合行业标准的Word研报、PPT及复杂的Excel财务模型，而非简单的文本生成 [10] 技术架构与训练 - 性能提升的核心驱动力来自于大规模强化学习 [14] - 采用了名为Forge的原生Agent RL框架，通过引入中间层解耦了底层训推引擎与Agent，支持任意脚手架的接入 [14] - 沿用了CISPO算法以保障MoE模型在大规模训练中的稳定性 [14] - 针对Agent长上下文带来的信用分配难题，引入了过程奖励机制 [14] - 工程团队优化了异步调度策略和树状合并训练样本策略，实现了约40倍的训练加速 [14] - 验证了模型能力随算力和任务数增加呈现近线性提升的趋势 [14] 产品发布与部署 - M2.5已在MiniMax Agent、API及Coding Plan中全量上线 [15] - 其模型权重也将在HuggingFace开源，支持本地部署 [15]

大规模强化学习（RL）

Artificial Intelligence

Artificial Intelligence