豆包再扔王炸!2.0发布:推理成本降一个数量级,正面对标GPT-5和Gemini 3
华尔街见闻·2026-02-14 18:53

豆包大模型2.0版本发布 - 字节跳动旗下豆包大模型正式进入2.0阶段,推出面向Agent时代的系统性升级版本 [2] - 新版本在保持与GPT-5.2和Gemini 3 Pro相当性能的同时,将推理成本降低约一个数量级 [2] - 该系列模型已全面上线,包括豆包2.0 Pro、Lite、Mini三款通用Agent模型和专门的Code模型 [2] 多模态能力表现 - 豆包2.0全面升级多模态能力,在视觉推理、感知能力、空间推理与长上下文理解等任务上表现突出 [2] - 在动态场景理解方面,该模型在TVBench等关键测评中领先,在EgoTempo基准上甚至超过人类分数 [4] - 在长视频场景中,豆包2.0在大多数评测上超越其他顶尖模型,并在多个流式实时问答视频基准测试中表现优异 [5] - 其能力使其能够作为AI助手完成实时视频流分析、环境感知、主动纠错与情感陪伴,实现从被动问答到主动指导的交互升级 [6] 推理与专业能力 - 豆包2.0 Pro在多数视觉理解基准测试中达到业界最高水平,并在数学奥赛IMO、CMO和编程竞赛ICPC中获得金牌成绩 [2] - 通过加强长尾领域知识,豆包2.0 Pro在SuperGPQA上分数超过GPT-5.2,并在HealthBench上获得第一名,在科学领域的整体成绩与Gemini 3 Pro和GPT-5.2相当 [8] - 在推理和Agent能力评测中,该模型在IMO、CMO数学奥赛和ICPC编程竞赛中获得金牌成绩,也超越了Gemini 3 Pro在Putnam Bench上的表现 [9] - 在HLE-text(人类的最后考试)上,豆包2.0 Pro取得最高分54.2分,在工具调用和指令遵循测试中也有出色表现 [10] 成本与商业化应用 - 该模型在保持与业界顶尖大模型相当效果的同时,token定价降低了约一个数量级,这一成本优势在大规模推理与长链路生成场景中将变得更为关键 [12] - 基于OpenClaw框架和豆包2.0 Pro模型,公司在飞书上构建了智能客服Agent,能通过调用不同技能完成客户对话,遇到难题时会主动拉群求助真人同事,帮客户预约上门维修人员,并在维修后主动回访和推荐产品 [13][14] - 豆包2.0 Pro已面向C端用户在豆包App、电脑端和网页版上线“专家”模式;面向企业和开发者,火山引擎已同步上线豆包2.0系列模型API服务 [18] Code模型与开发效率 - 豆包2.0 Code基于2.0基座模型针对编程场景进行优化,强化了代码库解读能力和应用生成能力,并增强了模型在Agent工作流中的纠错能力 [16] - 该模型已上线TRAE中国版作为内置模型,支持图片理解和推理 [16] - 在实际应用中,开发者使用TRAE配合豆包2.0 Code,仅需1轮提示词就能构建出“TRAE春节小镇·马年庙会”互动项目的基本架构和场景,经过5轮提示词即可完成整个作品 [16] - 该项目包含11位由大语言模型驱动的NPC,能根据人设自然聊天、招呼顾客、现场砍价,AI游客也会自主决定去哪家摊位、买什么、说什么 [17]