豆包大模型 1.8 发布，通用 Agent 模型成为了 AI 行业的新叙事

AI行业发展趋势与模型能力评估新范式 - 2025年AI行业的发展主线回归到基础模型本身，衡量模型的新标准不再是榜单分数，而是解决现实世界复杂任务的能力，特别是对Agent的支持能力、Coding能力和工具使用能力 [2] - 行业共识认为，模型未来的发展路径有共识，关键在于谁能找到最高效的实现方式，例如豆包模型在短时间内实现了对Gemini系列的追赶和对标 [10] 多模态与视觉能力成为模型核心 - 模型技术发展已超越纯文本，Thinking（思考）能力和视觉理解能力成为发展重点，视觉能力是Agent理解和执行现实世界复杂任务的关键保障 [7][8] - 豆包1.8模型通过端到端的预训练，将LLM和VLM深度融合，实现了视觉理解能力的显著提升，其技术报告显示在多模态推理基准测试中表现仅次于Gemini 3 Pro [8] - Thinking能力已成为基础模型的标配，豆包模型从1.6版本起就不再提供单独的thinking版本，而是通过API让开发者根据场景自调节思考长度 [10] Agent能力演进与新场景解锁 - 豆包1.8版本重点增强了Agent使用工具的能力，在工具调用、智能体搜索、智能体编程和复杂指令遵循上均有大幅提升 [12][13] - 模型原生视觉能力催生了“OS Agent”这一新场景，使Agent能够“看见”并直接与图形用户界面（GUI）交互，从而能处理无API或API调用受限的系统（如银行ERP、公司内网），实现GUI操作自动化 [14][17][27] - OS Agent带来了新的可能性，例如操作App、企业RPA流程自动化，以及未来的Generative UI（生成式用户界面），即软件可能面向Agent设计交互，或由Agent实时生成临时UI [18][19][20] - 对于长链路Agent任务，“思考模式下的工具调用”变得重要，该功能允许模型在保留推理状态的同时进行多次工具调用，利用历史思考内容给出更准确的回答，这已在Claude Sonnet 4.5和DeepSeek-V3.2中推广使用 [21][23] 基础模型能力“塌缩”与开发者新角色 - 随着基础模型能力增强，许多上层应用能力正“塌缩”回基模本身：视频理解工具被原生多模态能力吞噬；Coding从垂直技能塌缩为模型操作计算机、调用工具的基础语言能力 [26] - 这改变了开发者的角色，其核心任务转变为搭建自己的Context Engineering（上下文工程），利用模型的通用智能去解决因缺乏数据和反馈而无法处理的“最后一公里”问题 [28] - 基础模型的“厚度”最终决定了Agent能力的天花板 [24] 模型评估体系的根本性变革 - 旧的公开评测集（如GSM8K）意义正在消失，行业不再只关心解题分数，更关注模型能否完成现实世界中耗时长的复杂任务（如独立分析Excel表格） [29][30] - 模型能力的真正对比，已不再是看公开榜单的做题能力，而是取决于如何定义新的评估体系（Evaluation） [31] - 豆包1.8团队发布的评估系统代表了新方向，其遵循三大原则：1) 优先考虑用户体验，基于真实用户用例（如查信息、文本编辑、辅导）设计评估；2) 转向真实世界场景，设计具有高经济价值、模仿现实复杂性的任务；3) 在推动智能前沿的同时，确保核心智能不被削弱 [32][35] - 客服场景被举例为一个难度被低估的真实世界评测任务，因其需要大量SOP（标准作业程序）、涉及因素多、验证难且对准确性要求极高，但一旦突破，AI甚至能在客服过程中衍生出销售等新体验 [35][36]