豆包大模型 1.8 发布,通用 Agent 模型成为了 AI 行业的新叙事
Founder Park·2025-12-19 15:22

AI行业发展趋势与模型能力评估新范式 - 2025年AI行业的发展主线回归到基础模型本身,衡量模型的新标准不再是榜单分数,而是解决现实世界复杂任务的能力,特别是对Agent的支持能力、Coding能力和工具使用能力 [2] - 行业共识认为,模型未来的发展路径有共识,关键在于谁能找到最高效的实现方式,例如豆包模型在短时间内实现了对Gemini系列的追赶和对标 [10] 多模态与视觉能力成为模型核心 - 模型技术发展已超越纯文本,Thinking(思考)能力和视觉理解能力成为发展重点,视觉能力是Agent理解和执行现实世界复杂任务的关键保障 [7][8] - 豆包1.8模型通过端到端的预训练,将LLM和VLM深度融合,实现了视觉理解能力的显著提升,其技术报告显示在多模态推理基准测试中表现仅次于Gemini 3 Pro [8] - Thinking能力已成为基础模型的标配,豆包模型从1.6版本起就不再提供单独的thinking版本,而是通过API让开发者根据场景自调节思考长度 [10] Agent能力演进与新场景解锁 - 豆包1.8版本重点增强了Agent使用工具的能力,在工具调用、智能体搜索、智能体编程和复杂指令遵循上均有大幅提升 [12][13] - 模型原生视觉能力催生了“OS Agent”这一新场景,使Agent能够“看见”并直接与图形用户界面(GUI)交互,从而能处理无API或API调用受限的系统(如银行ERP、公司内网),实现GUI操作自动化 [14][17][27] - OS Agent带来了新的可能性,例如操作App、企业RPA流程自动化,以及未来的Generative UI(生成式用户界面),即软件可能面向Agent设计交互,或由Agent实时生成临时UI [18][19][20] - 对于长链路Agent任务,“思考模式下的工具调用”变得重要,该功能允许模型在保留推理状态的同时进行多次工具调用,利用历史思考内容给出更准确的回答,这已在Claude Sonnet 4.5和DeepSeek-V3.2中推广使用 [21][23] 基础模型能力“塌缩”与开发者新角色 - 随着基础模型能力增强,许多上层应用能力正“塌缩”回基模本身:视频理解工具被原生多模态能力吞噬;Coding从垂直技能塌缩为模型操作计算机、调用工具的基础语言能力 [26] - 这改变了开发者的角色,其核心任务转变为搭建自己的Context Engineering(上下文工程),利用模型的通用智能去解决因缺乏数据和反馈而无法处理的“最后一公里”问题 [28] - 基础模型的“厚度”最终决定了Agent能力的天花板 [24] 模型评估体系的根本性变革 - 旧的公开评测集(如GSM8K)意义正在消失,行业不再只关心解题分数,更关注模型能否完成现实世界中耗时长的复杂任务(如独立分析Excel表格) [29][30] - 模型能力的真正对比,已不再是看公开榜单的做题能力,而是取决于如何定义新的评估体系(Evaluation) [31] - 豆包1.8团队发布的评估系统代表了新方向,其遵循三大原则:1) 优先考虑用户体验,基于真实用户用例(如查信息、文本编辑、辅导)设计评估;2) 转向真实世界场景,设计具有高经济价值、模仿现实复杂性的任务;3) 在推动智能前沿的同时,确保核心智能不被削弱 [32][35] - 客服场景被举例为一个难度被低估的真实世界评测任务,因其需要大量SOP(标准作业程序)、涉及因素多、验证难且对准确性要求极高,但一旦突破,AI甚至能在客服过程中衍生出销售等新体验 [35][36]