产品发布与定位 - 字节跳动于2月14日正式推出豆包大模型2.0系列,这是自2023年初始测试版上线、2024年正式发布后,近一年半时间内的代际版本更新 [1] - 豆包2.0版本具备全栈模型矩阵、多模态理解、企业级Agent和极致成本四大差异化优势,已跻身全球第一梯队,在多项公开测试集上表现突出,接近Google Gemini3,且具备更高性价比 [1] - 公司官方明确表示,旗舰版豆包2.0 Pro面向深度推理与长链路任务执行场景,全面对标GPT 5.2与Gemini 3 Pro [2] 模型能力与技术参数 - 豆包2.0系列提供Pro、Lite、Mini三款不同尺寸的通用Agent模型,其多模态理解能力全面升级,并强化了LLM与Agent能力,使模型在真实长链路任务中能够稳定推进 [3] - 在语言模型基础能力上,豆包2.0 Pro旗舰版取得IMO、CMO数学竞赛和ICPC编程竞赛金牌成绩,数学和推理能力达到世界顶尖水平 [3] - 在科学领域知识测试中,豆包2.0在SuperGPQA等多项公开测试集上表现突出,成绩与Gemini 3 Pro和GPT 5.2相当,跨学科知识应用排名前列 [3] - 豆包2.0全面升级多模态理解能力,在视觉推理、空间感知、长上下文理解等权威测试中取得业界最佳表现 [3] - 豆包2.0 Pro在视觉推理、空间感知、运动理解、长视频理解等维度的大多数相关基准测试中取得最高分 [7] - 豆包2.0可以处理复杂视觉输入并完成实时交互和应用生成,无论是从图像中提取结构化信息,还是通过视觉输入生成交互式内容,都能高效稳定地完成任务 [7] Agent与任务执行能力 - 豆包2.0 Pro在指令遵循、工具调用和Search Agent等评测中达到顶尖水平,在HLE-Text(人类的最后考试)上获得54.2的最高分,大幅领先于其他模型 [4] - 此次豆包2.0全面升级的核心落点在“真实世界复杂任务的执行力”,旨在让模型从“答题者”进化为“执行者” [6] - 公司强化了模型对时间序列与运动感知的理解能力,例如在健身场景中,接入豆包2.0的智能健身App可实时分析用户动作视频并语音纠正姿势偏移,该能力已延伸至穿搭建议、老人看护等领域 [4] 成本与定价策略 - 豆包2.0 Pro按“输入长度”区间定价,32k以内的输入定价为3.2元/百万tokens,输出定价为16元/百万tokens,相比Gemini 3 Pro和GPT 5.2有较大的成本优势 [4] - 豆包2.0 Lite极具性价比,综合性能超越上一代主力模型豆包1.8,百万tokens输入价格仅为0.6元 [4] - 在提升能力的同时,豆包2.0进一步降低了推理成本,其模型效果与业界顶尖大模型相当,同时token定价降低了约一个数量级 [6] 行业趋势与战略共识 - 豆包2.0与Google Gemini的相似性从“对标”走向“一致”,这本质上是全球顶尖AI实验室在通往通用人工智能路径上达成的战略共识,即AI最终需要为人类完成任务执行,这需要对真实世界物理运行规律的理解 [2] - 豆包2.0与Gemini在基础模型层面均选择深耕多模态,是在进行一场“世界模型”的军备竞赛,目标是让AI成为能看懂、听懂、理解物理世界复杂性的“数字人类” [8]
从Gemini到豆包:全球两大AI巨头为何走上同一条路?