Gemini 3 Pro
搜索文档
Seedance 2.0之后 字节跳动发布豆包大模型2.0
中国经营报· 2026-02-14 18:22
公司发布与产品升级 - 字节跳动于2月14日正式发布豆包大模型2.0系列 该系列针对大规模生产环境使用需求完成系统性优化 核心聚焦提升真实世界复杂任务的执行能力 [1] - 此次发布是公司继Seedance 2.0视频模型、Seedream 5.0 Lite图像模型后 在大模型领域的又一重要布局 [1] 模型性能与基准测试 - 豆包2.0 Pro旗舰版展现出顶尖的基础能力 在IMO、CMO数学竞赛和ICPC编程竞赛中取得金牌 在Putnam基准测试上的表现超越Gemini 3 Pro 数学与推理能力跻身世界前列 [1] - 在知识储备层面 豆包2.0强化了长尾领域知识覆盖 科学领域知识测试成绩与Gemini 3 Pro、GPT 5.2持平 跨学科知识应用表现位居行业前列 [1] - 多模态能力全面升级 在视觉推理、空间感知、长上下文理解等权威测试中取得业界最佳成绩 可高效理解图表、复杂文档、视频等内容 [1] - 模型对时间序列与运动感知的理解能力进一步增强 能实现实时视频流分析、环境感知与主动交互 可落地于健身指导、看护陪伴等多元生活场景 [1] Agent能力与评测 - 作为大模型行动力的核心 豆包2.0 Pro的Agent能力表现亮眼 在指令遵循、工具调用等评测中达到顶级水平 [2] - 在HLE-Text评测中 豆包2.0 Pro斩获54.2的最高分 领先其他模型 [2] 产品上市与定价策略 - 豆包2.0 Pro已在豆包App、电脑客户端及网页版上线 用户开启“专家”模式即可体验 [2] - 火山引擎同步上线了豆包2.0系列模型API服务 [2] - 定价方面 豆包2.0 Pro版32k以内输入定价为3.2元/百万tokens 输出定价为16元/百万tokens 相较Gemini 3 Pro、GPT 5.2更具性价比 [2] - Lite版百万tokens输入定价仅0.6元 其综合性能超越了两个月前发布的豆包1.8 [2]
字节豆包2.0发布:推理成本降一个数量级,正面对标GPT-5和Gemini 3
华尔街见闻· 2026-02-14 17:29
核心观点 - 字节跳动旗下豆包大模型正式进入2.0阶段,推出包含Pro、Lite、Mini及Code模型的系列升级版本,在性能对标GPT-5.2和Gemini 3 Pro等顶尖模型的同时,将推理成本降低约一个数量级,旨在为大规模生产环境下的复杂任务提供更具竞争力的解决方案 [1] - 该系列模型已全面上线,面向C端用户、企业及开发者提供服务,标志着公司在大模型商业化应用上迈出重要一步 [1] 产品发布与性能对标 - 豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和专门的Code模型 [1] - 旗舰版豆包2.0 Pro全面对标GPT-5.2与Gemini 3 Pro,在多数视觉理解基准测试中达到业界最高水平 [1] - 该模型在数学奥赛IMO、CMO和编程竞赛ICPC中获得金牌成绩 [1] - 在科学领域的整体成绩与Gemini 3 Pro和GPT-5.2相当,并在HealthBench上获得第一名 [5] - 在HLE-text(人类的最后考试)上,豆包2.0 Pro取得最高分54.2分 [5] 多模态与视觉能力 - 豆包2.0全面升级多模态能力,在视觉推理、感知能力、空间推理与长上下文理解等任务上表现突出 [2] - 在动态场景理解方面,该模型在TVBench等关键测评中处于领先位置,在EgoTempo基准上甚至超过人类分数 [4] - 在长视频场景中,豆包2.0在大多数评测上超越其他顶尖模型,并在多个流式实时问答视频基准测试中表现优异 [4] - 这使得其能够作为AI助手完成实时视频流分析、环境感知、主动纠错与情感陪伴,实现从被动问答到主动指导的交互升级,可应用于健身、穿搭等陪伴场景 [4] 成本与商业化优势 - 该模型在保持与业界顶尖大模型相当效果的同时,token定价降低了约一个数量级 [7] - 在现实世界复杂任务中,由于大规模推理与长链路生成将消耗大量token,豆包2.0的成本优势将成为关键竞争力 [1] - 基于OpenClaw框架和豆包2.0 Pro模型,公司在飞书上构建了智能客服Agent,能通过调用不同技能完成客户对话,遇到难题时会主动拉群求助真人同事,帮客户预约上门维修人员,并在维修后主动回访和推荐产品 [7] 编程模型与应用 - 豆包2.0 Code基于2.0基座模型针对编程场景进行优化,强化了代码库解读能力和应用生成能力,并增强了模型在Agent工作流中的纠错能力 [8] - 该模型已上线TRAE中国版作为内置模型,支持图片理解和推理 [8] - 开发者使用TRAE配合豆包2.0 Code,仅需1轮提示词就能构建出“TRAE春节小镇·马年庙会”互动项目的基本架构和场景,经过5轮提示词即可完成整个作品 [8] - 该项目包含11位由大语言模型驱动的NPC,能根据人设自然聊天、招呼顾客、现场砍价,AI游客也会自主决定去哪家摊位、买什么、说什么 [8] 产品上线与未来规划 - 豆包2.0 Pro已接入豆包App、电脑端和网页版的“专家”模式,Code版本已集成至AI编程产品TRAE [1] - 火山引擎同步上线面向企业和开发者的API服务 [1] - 公司表示未来将继续面向真实场景迭代模型,探索智能上限 [8]
AI大战持续升级!Seedance 2.0之后,字节跳动又发布豆包大模型2.0
广州日报· 2026-02-14 17:06
豆包大模型2.0发布与核心能力 - 字节跳动于2月14日宣布推出豆包大模型2.0系列,针对大规模生产环境进行系统性优化,旨在更好地完成真实世界的复杂任务 [1] - 豆包2.0 Pro旗舰版在语言模型基础能力上表现突出,在IMO、CMO数学竞赛和ICPC编程竞赛中取得金牌成绩,并超越了Gemini 3 Pro在Putnam基准测试上的表现,数学和推理能力达到世界顶尖水平 [1] - 模型加强了长尾领域知识覆盖,在SuperGPQA等多项公开测试集上表现突出,科学领域知识测试成绩与Gemini 3 Pro和GPT 5.2相当,在跨学科知识应用上排名前列 [1] 1. 豆包2.0 Pro在HLE-Text评测中获得54.2的最高分,大幅领先于其他模型 [3] - 豆包2.0 Pro已在豆包App、电脑客户端和网页版上线,用户选择「专家」模式即可体验,火山引擎也已上线该系列模型的API服务 [3] 多模态与Agent能力升级 - 豆包2.0全面升级多模态理解能力,在视觉推理、空间感知、长上下文理解等权威测试中均取得业界最佳表现 [3] - 模型增强了对时间序列与运动感知的理解能力,可实现实时视频流分析、环境感知与主动交互,广泛应用于健身指导、穿搭建议、看护陪伴等生活场景 [3] - 在Agent能力方面,豆包2.0 Pro在指令遵循、工具调用和Search Agent等评测中达到顶级水平 [3] 定价策略与成本优势 - 豆包2.0 Pro按“输入长度”区间定价,32k以内的输入定价为3.2元/百万tokens,输出定价为16元/百万tokens,相比Gemini 3 Pro和GPT 5.2有较大的成本优势 [4] - 豆包2.0 Lite极具性价比,综合性能超越上一代主力模型豆包1.8,百万tokens输入价格仅为0.6元 [4] 行业竞争格局与战略意义 - 2026年春节成为AI大厂的核心竞技场,字节、阿里、腾讯、百度豪掷超45亿展开角逐,竞争已从技术参数比拼转向真实场景落地的较量 [5] - 各大厂依托自身生态发力,字节跳动凭借豆包大模型2.0的顶尖推理能力、多模态理解能力和成本优势,持续强化其AI在用户生活场景中的应用能力 [5] - 春节大战的核心是抢占用户心智和AI生态入口,关键在于将硬核技术转化为用户可感知的实用价值,从而在AI全民普及浪潮中占据先机 [5]
Seedance2.0之后 字节发布豆包大模型2.0
南方都市报· 2026-02-14 15:07
公司产品发布与核心能力 - 字节跳动于2月14日宣布推出豆包大模型2.0系列,该系列针对大规模生产环境进行系统性优化,旨在更好地完成真实世界的复杂任务 [1] - 豆包2.0 Pro旗舰版在数学和推理能力上达到世界顶尖水平,其在国际数学奥林匹克(IMO)、国际数学奥林匹克竞赛(CMO)和国际大学生程序设计竞赛(ICPC)中取得金牌成绩,并超越了Gemini 3 Pro在Putnam基准测试上的表现 [1] - 豆包2.0加强了长尾领域知识覆盖,在SuperGPQA等多项科学领域知识测试中,成绩与Gemini 3 Pro和GPT 5.2相当,在跨学科知识应用上排名前列 [1] - 豆包2.0全面升级多模态理解能力,在视觉推理、空间感知、长上下文理解等权威测试中均取得业界最佳表现 [1] - 豆包2.0增强了对时间序列与运动感知的理解能力,可实现实时视频流分析、环境感知与主动交互,应用于健身指导、穿搭建议、看护陪伴等生活场景 [2] 模型性能与定价策略 - 豆包2.0 Pro在Agent能力评测中达到顶级水平,在HLE-Text(人类的最后考试)上获得54.2的最高分,大幅领先于其他模型 [2] - 豆包2.0 Pro已在豆包App、电脑客户端和网页版上线,用户可通过“专家”模式体验,其API服务也已通过火山引擎上线 [2] - 豆包2.0 Pro按“输入长度”区间定价,32k以内的输入定价为3.2元/百万tokens,输出定价为16元/百万tokens,相比Gemini 3 Pro和GPT 5.2有较大的成本优势 [2] - 豆包2.0 Lite极具性价比,综合性能超越两个月前发布的上一代主力模型豆包1.8,其百万tokens输入价格仅为0.6元 [2]
豆包大模型2.0正式发布
新华网财经· 2026-02-14 15:04
豆包大模型2.0发布 - 豆包大模型正式进入2.0阶段,围绕大规模生产环境下的使用需求做了系统性优化,依托高效推理、多模态理解与复杂指令执行能力,以更好地完成真实世界复杂任务 [1] 豆包2.0系列模型构成与定位 - 豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和一款Code模型,旨在灵活适配各类业务场景 [2] - 豆包2.0 Pro面向深度推理与长链路任务执行场景,全面对标GPT 5.2与Gemini 3 Pro [2] - 豆包2.0 Lite兼顾性能与成本,综合能力超越上一代主力模型豆包1.8 [2] - 豆包2.0 Mini面向低时延、高并发与成本敏感场景 [2] - 豆包2.0 Code版专为编程场景打造,与TRAE结合使用效果更佳 [2]
豆包大模型2.0发布 包含三款通用Agent模型和Code模型
凤凰网· 2026-02-14 14:51
豆包大模型2.0产品发布 - 字节跳动宣布发布豆包大模型2.0系列,包含Pro、Lite、Mini三款通用Agent模型和一款Code模型 [1] - 该系列模型围绕大规模生产环境使用需求进行系统性优化,旨在提升多模态理解、复杂指令执行及长程任务处理能力 [1] 产品定位与对标 - 豆包2.0 Pro面向深度推理与长链路任务,对标GPT 5.2与Gemini 3 Pro [1] - 豆包2.0 Lite综合能力超越上一代主力模型豆包1.8 [1] - 豆包2.0 Mini面向低时延、高并发与成本敏感场景 [1] - Code版专为编程场景打造,可与AI编程产品TRAE结合使用 [1] 多模态与长视频理解能力 - 豆包2.0在多模态理解能力上全面升级,在视觉推理、感知、空间推理与长上下文理解等任务中达到SOTA水平 [1] - 在TVBench、EgoTempo等动态场景测评中表现领先,其中EgoTempo得分超过人类基准 [1] - 在长视频理解方面,于多个流式实时问答基准测试中表现优异 [1] 推理与专业领域能力 - 豆包2.0 Pro在SuperGPQA、HealthBench等科学领域评测中分数超过GPT 5.2 [1] - 豆包2.0 Pro在IMO、CMO数学奥赛及ICPC编程竞赛中取得金牌成绩 [1] - 豆包2.0 Pro的推理成本较业界顶尖模型降低约一个数量级 [1] 产品上线与商业化 - 豆包2.0 Pro已在豆包App、电脑端及网页版上线,用户选择「专家」模式即可体验 [2] - Code模型已接入TRAE中国版 [2] - 火山引擎同步上线豆包2.0系列模型API服务,供企业和开发者调用 [2]
字节跳动发布豆包大模型2.0,主打真实世界复杂任务执行力
环球网· 2026-02-14 14:36
公司产品发布 - 字节跳动于2月14日宣布推出豆包大模型2.0系列,旨在针对大规模生产环境进行系统性优化,以更好地完成真实世界的复杂任务 [1] - 豆包2.0系列是继Seedance 2.0视频模型和Seedream 5.0 Lite图像模型之后发布的新产品 [1] 模型核心能力 - 在语言模型基础能力上,豆包2.0 Pro旗舰版在IMO、CMO数学竞赛和ICPC编程竞赛中取得金牌成绩,并超越了Gemini 3 Pro在Putnam基准测试上的表现,数学和推理能力达到世界顶尖水平 [1] - 豆包2.0加强了长尾领域知识覆盖,在SuperGPQA等多项公开测试集上表现突出,其科学领域知识测试成绩与Gemini 3 Pro和GPT 5.2相当,在跨学科知识应用上也排名前列 [1] - 豆包2.0全面升级了多模态理解能力,在视觉推理、空间感知、长上下文理解等权威测试中均取得业界最佳表现 [1] 1. 豆包2.0增强了对时间序列与运动感知的理解能力,可实现实时视频流分析、环境感知与主动交互 [2] 智能体与行动能力 - 在Agent能力方面,豆包2.0 Pro在指令遵循、工具调用和Search Agent等评测中达到顶级水平 [4] - 豆包2.0 Pro在HLE-Text评测中获得54.2的最高分,大幅领先于其他模型 [4] 产品上市与定价策略 - 目前,豆包2.0 Pro已在豆包App、电脑客户端和网页版上线,用户选择「专家」模式即可体验 [4] - 火山引擎也已上线豆包2.0系列模型的API服务 [4] - 豆包2.0 Pro按“输入长度”区间定价,32k以内输入的定价为3.2元/百万tokens,输出定价为16元/百万tokens,相比Gemini 3 Pro和GPT 5.2有较大的成本优势 [4] - 豆包2.0 Lite极具性价比,其综合性能超越两个月前发布的上代主力模型豆包1.8,百万tokens输入价格仅为0.6元 [4]
豆包大模型2.0正式发布
财联社· 2026-02-14 14:28
豆包大模型2.0发布 - 豆包大模型正式进入2.0阶段,围绕大规模生产环境下的使用需求进行了系统性优化 [1] - 新模型依托高效推理、多模态理解与复杂指令执行能力,旨在更好地完成真实世界复杂任务 [1] 模型系列构成 - 豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和一款Code模型,以灵活适配各类业务场景 [2] - 豆包2.0 Pro面向深度推理与长链路任务执行场景,全面对标GPT 5.2与Gemini 3 Pro [2] - 豆包2.0 Lite兼顾性能与成本,其综合能力超越上一代主力模型豆包1.8 [2] - 豆包2.0 Mini面向低时延、高并发与成本敏感的场景 [2] - Code版模型(Doubao-Seed-2.0-Code)专为编程场景打造,与TRAE结合使用效果更佳 [2]
MiniMax发布M2.5模型:1美元运行1小时,价格仅为GPT-5的1/20,性能比肩Claude Opus
硬AI· 2026-02-13 21:25
模型发布与核心突破 - 公司推出最新迭代的M2.5系列模型,在保持行业领先性能的同时,大幅降低了推理成本,旨在解决复杂智能体应用经济上不可行的痛点 [3] - M2.5模型宣称在编程、工具调用及办公场景中已达到或刷新了行业SOTA水平 [3] 成本与价格优势 - M2.5模型在每秒输出50个token的版本下,价格仅为Claude Opus、Gemini 3 Pro以及GPT-5等主流模型的1/10至1/20 [2][3] - 在每秒输出100个token的高速运行环境下,M2.5连续工作一小时的成本仅需1美元,若降至50 token/秒,成本进一步下探至0.3美元 [3] - 1万美元的预算足以支撑4个智能体连续工作一年,极大地降低了构建和运营大规模智能体集群的门槛 [3] - 模型提供100 TPS的推理速度,约为当前主流模型的两倍 [7] 性能表现 - M2.5在核心编程测试中表现强劲,并在多语言任务Multi-SWE-Bench上取得第一,整体水平比肩Claude Opus系列 [2][4] - 在SWE-Bench Verified测试中,M2.5完成任务的速度较上一代M2.1提升了37%,端到端运行时间缩短至22.8分钟,与Claude Opus 4.6持平 [2][4] - 在SWE-Bench Verified评测中,M2.5平均每个任务消耗3.52M token,低于M2.1的3.72M [9] - 在BrowseComp、Wide Search和RISE等多项任务中,M2.5相较于前代节省了约20%的轮次消耗 [16] 编程能力 - M2.5不仅关注代码生成,更强调系统设计能力,演化出了原生的规格说明书行为,能够以架构师视角在编码前主动拆解功能、结构和UI设计 [11] - 该模型在超过10种编程语言和数十万个真实环境中进行了训练 [12] - 测试显示,M2.5能胜任从系统设计、开发到功能迭代及最终代码审查的全流程 [13] - 在编程场景中,M2.5生成的代码已占据公司内部新提交代码的80% [2][4] - 在Droid编程脚手架上的通过率为79.7%,在OpenCode上为76.1%,均优于上一代模型及Claude Opus 4.6 [14] 智能体应用与内部验证 - 公司内部30%的整体任务已由M2.5自主完成,覆盖研发、产品、销售等核心职能 [2][4] - 公司内部已有30%任务由AI自主完成 [2] - 在内部构建的Cowork Agent评测框架中,M2.5在与主流模型的两两对比中取得了59.0%的平均胜率,能够输出符合行业标准的Word研报、PPT及复杂的Excel财务模型 [18] 技术架构 - M2.5性能提升的核心驱动力来自于大规模强化学习,公司采用了名为Forge的原生智能体强化学习框架 [23] - 工程团队优化了异步调度策略和树状合并训练样本策略,实现了约40倍的训练加速,验证了模型能力随算力和任务数增加呈现近线性提升的趋势 [23] 产品部署 - 目前,M2.5已在公司智能体、API及Coding Plan中全量上线,其模型权重也将在HuggingFace开源,支持本地部署 [25]
MiniMax发布M2.5模型:1美元运行1小时,价格仅为GPT-5的1/20,性能比肩Claude Opus
华尔街见闻· 2026-02-13 10:15
核心观点 - MiniMax推出M2.5系列模型,在保持行业领先性能的同时,大幅降低推理成本,旨在解决复杂Agent应用经济不可行的痛点,并在编程、工具调用及办公场景中达到或刷新行业SOTA水平 [1] 成本与定价优势 - 在每秒输出50个token的版本下,其价格仅为Claude Opus、Gemini 3 Pro以及GPT-5等主流模型的1/10至1/20 [1] - 在每秒输出100个token的高速运行环境下,M2.5连续工作一小时的成本仅需1美元,若降至50 token/秒,成本进一步下探至0.3美元 [1] - 1万美元的预算足以支撑4个Agent连续工作一年,极大降低了构建和运营大规模Agent集群的门槛 [1] - 模型提供100 TPS的推理速度,约为当前主流模型的两倍 [3] - 在SWE-Bench Verified评测中,M2.5平均每个任务消耗3.52M token,低于M2.1的3.72M [3] 性能表现与基准测试 - 在核心编程测试中表现强劲,并在多语言任务Multi-SWE-Bench上取得第一,整体水平比肩Claude Opus系列 [2] - 在SWE-Bench Verified测试中,完成任务的速度较上一代M2.1提升了37%,端到端运行时间缩短至22.8分钟,与Claude Opus 4.6持平 [2] - 在Droid上的通过率为79.7,在OpenCode上为76.1,均优于上一代模型及Claude Opus 4.6 [5] - 在BrowseComp、Wide Search和RISE等多项任务中,相较于前代节省了约20%的轮次消耗 [8] - 在内部构建的Cowork Agent评测框架中,M2.5在与主流模型的两两对比中取得了59.0%的平均胜率 [10] 编程与系统设计能力 - 模型演化出了原生的Spec行为,能够以架构师视角在编码前主动拆解功能、结构和UI设计 [4] - 该模型在超过10种编程语言和数十万个真实环境中进行了训练 [4] - 能胜任从系统设计、开发到功能迭代及最终代码审查的全流程 [4] - 公司内部30%的整体任务已由M2.5自主完成,覆盖研发、产品、销售等核心职能 [2] - 在编程场景中,M2.5生成的代码已占据新提交代码的80% [2] 办公与专业场景应用 - 通过与金融、法律等领域资深从业者合作,将行业隐性知识融入模型训练 [10] - 能够输出符合行业标准的Word研报、PPT及复杂的Excel财务模型,而非简单的文本生成 [10] 技术架构与训练 - 性能提升的核心驱动力来自于大规模强化学习 [14] - 采用了名为Forge的原生Agent RL框架,通过引入中间层解耦了底层训推引擎与Agent,支持任意脚手架的接入 [14] - 沿用了CISPO算法以保障MoE模型在大规模训练中的稳定性 [14] - 针对Agent长上下文带来的信用分配难题,引入了过程奖励机制 [14] - 工程团队优化了异步调度策略和树状合并训练样本策略,实现了约40倍的训练加速 [14] - 验证了模型能力随算力和任务数增加呈现近线性提升的趋势 [14] 产品发布与部署 - M2.5已在MiniMax Agent、API及Coding Plan中全量上线 [15] - 其模型权重也将在HuggingFace开源,支持本地部署 [15]