国产大模型同日转向:DeepSeek向左,Kimi向右,拼落地的时代开始了?
Seek .Seek .(US:SKLTY) 36氪·2026-01-29 08:29

文章核心观点 - 国内两大AI模型公司DeepSeek与Kimi几乎同时发布重要开源更新,标志着大模型的发展重点从提升参数规模和对话能力,转向重构底层工程化能力,以解决实际应用中的效率与协作问题[6] - 行业共识是AI的升级方向正从“模型有多强”转向“能否真正用起来”,核心在于让AI更深一步嵌入真实工作环境,价值衡量标准变为是否更省成本、更少出错、更值得长期依赖[15][23] DeepSeek-OCR 2的关键升级 - 该模型是对去年震动行业的DeepSeek-OCR的关键升级,核心是重新设计AI“读文档”的方式,通过新的视觉编码机制让大模型学习人类的视觉逻辑[1][8] - 其技术路径从上一代的CLIP架构转向以Qwen2为基础的LM视觉编码器,使模型能像人一样先看版面、抓重点,再理解含义,区分标题、表格及相关信息[8] - 直接价值体现在具体体验提升:处理几十页报告时无需逐字读完;处理复杂表格时减少错位问题;由于输入被高度压缩,相同任务能以更低成本、更短时间完成[10] - 此次升级解决的是一个长期存在的“用起来不顺”的工程化问题,有潜力让AI更适合被放进真实的文档流程,如检索、比对、摘要及结构化信息抽取[10] Kimi K2.5的核心进展 - Kimi K2.5继续推进其超长上下文、多模态与“智能体化”路线,目标是将AI从“答题模式”推向“执行模式”,打造更接近“数字助理”的体验[1][4][12] - 模型宣称是迄今最智能、最全能的模型,同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务[4] - 升级重点在于“长记忆+多模态+智能体”:超长上下文让模型能长期记住对话与中间结论;多模态能力使其能理解图片、界面截图等;智能体能力则让AI能拆解复杂任务并执行,实现了“Agent集群”在不同阶段调用不同能力[12] - 其追求并非单一能力点的极限,而是能否承接更长、更复杂、更接近真实工作的任务链条,让AI真正进入工作流[14] 行业升级趋势与共识 - 近期主流大模型(包括OpenAI GPT-5.2、Anthropic Claude 4.5、Google Gemini 3、字节跳动豆包1.8、阿里巴巴千问Qwen3-Max-Thinking)的升级方向异常一致,重心从“模型有多强”转向“让AI更深一步进入真实的工作环境”[15] - 具体升级围绕几个核心维度打磨:记得住、看得懂、接得住流程、干得完事情[16] - 记忆能力被集体拉高:各模型通过更长的上下文和更稳定的状态保持,让AI能够跟随长任务协作,减少用户重复解释背景的需要,例如GPT-5.2将长上下文产品化,Kimi K2.5将其嵌入智能体流程[17] - 对“看”的能力重新理解:升级重点从“能识图”转向“能不能看懂”,强调理解图像中的结构、版面和信息组织方式,DeepSeek-OCR 2是此方向的激进代表,GPT、Claude、Gemini也都在强化对截图、界面等复杂图像的理解[18][19][21] - AI角色从“顾问”向“执行者”转移:模型设计开始强调拆任务、接工具、跑流程,价值判断标准从“说得对不对”转向“能不能跑完、稳不稳”,“工程化”重要性凸显[22] - 国内外公司均强调产品封装与部署:DeepSeek、Kimi、千问、豆包等国内公司强调模型是否好部署、好接入现有系统;国内外AI都通过产品封装将复杂能力隐藏在界面和服务之下,目标都是让AI从“演示”走向“可用”、“好用”[22]