从Gemini到豆包：全球两大AI巨头为何走上同一条路？

产品发布与定位 - 字节跳动于2月14日正式推出豆包大模型2.0系列，这是自2023年初始测试版上线、2024年正式发布后，近一年半时间内的代际版本更新 [1] - 豆包2.0版本具备全栈模型矩阵、多模态理解、企业级Agent和极致成本四大差异化优势，已跻身全球第一梯队，在多项公开测试集上表现突出，接近Google Gemini3，且具备更高性价比 [1] - 公司官方明确表示，旗舰版豆包2.0 Pro面向深度推理与长链路任务执行场景，全面对标GPT 5.2与Gemini 3 Pro [2] 模型能力与技术参数 - 豆包2.0系列提供Pro、Lite、Mini三款不同尺寸的通用Agent模型，其多模态理解能力全面升级，并强化了LLM与Agent能力，使模型在真实长链路任务中能够稳定推进 [3] - 在语言模型基础能力上，豆包2.0 Pro旗舰版取得IMO、CMO数学竞赛和ICPC编程竞赛金牌成绩，数学和推理能力达到世界顶尖水平 [3] - 在科学领域知识测试中，豆包2.0在SuperGPQA等多项公开测试集上表现突出，成绩与Gemini 3 Pro和GPT 5.2相当，跨学科知识应用排名前列 [3] - 豆包2.0全面升级多模态理解能力，在视觉推理、空间感知、长上下文理解等权威测试中取得业界最佳表现 [3] - 豆包2.0 Pro在视觉推理、空间感知、运动理解、长视频理解等维度的大多数相关基准测试中取得最高分 [7] - 豆包2.0可以处理复杂视觉输入并完成实时交互和应用生成，无论是从图像中提取结构化信息，还是通过视觉输入生成交互式内容，都能高效稳定地完成任务 [7] Agent与任务执行能力 - 豆包2.0 Pro在指令遵循、工具调用和Search Agent等评测中达到顶尖水平，在HLE-Text（人类的最后考试）上获得54.2的最高分，大幅领先于其他模型 [4] - 此次豆包2.0全面升级的核心落点在“真实世界复杂任务的执行力”，旨在让模型从“答题者”进化为“执行者” [6] - 公司强化了模型对时间序列与运动感知的理解能力，例如在健身场景中，接入豆包2.0的智能健身App可实时分析用户动作视频并语音纠正姿势偏移，该能力已延伸至穿搭建议、老人看护等领域 [4] 成本与定价策略 - 豆包2.0 Pro按“输入长度”区间定价，32k以内的输入定价为3.2元/百万tokens，输出定价为16元/百万tokens，相比Gemini 3 Pro和GPT 5.2有较大的成本优势 [4] - 豆包2.0 Lite极具性价比，综合性能超越上一代主力模型豆包1.8，百万tokens输入价格仅为0.6元 [4] - 在提升能力的同时，豆包2.0进一步降低了推理成本，其模型效果与业界顶尖大模型相当，同时token定价降低了约一个数量级 [6] 行业趋势与战略共识 - 豆包2.0与Google Gemini的相似性从“对标”走向“一致”，这本质上是全球顶尖AI实验室在通往通用人工智能路径上达成的战略共识，即AI最终需要为人类完成任务执行，这需要对真实世界物理运行规律的理解 [2] - 豆包2.0与Gemini在基础模型层面均选择深耕多模态，是在进行一场“世界模型”的军备竞赛，目标是让AI成为能看懂、听懂、理解物理世界复杂性的“数字人类” [8]