Seek .-DeepSeek上线两天后再回看：一次“小更新”，一场架构“豪赌”

8月19日晚间，DeepSeek官方悄然上线了全新的V3.1版本。官方公告强调了上下文长度拓展至128k，但随着社区的深入挖掘和实测，这次"小更新"之下其实有着更多模型架构的变革和模型重点能力的微调，在编程能力上的提升也可圈可点，成本优势重回显著。然而，模型融合的技术路线也引发激烈争论，部分用户反馈旧版模型的"顽疾"复现，对这次更新的评价呈现出两极分化的态势。发布两天后，DeepSeek官方在公众号上发布了相关消息。此时，正适合我们回看V3.1，更细致地拆解这次"小更新"。 1 架构之变：V3.1吞掉R1，减轻部署复杂度尽管DeepSeek官方在更新通知中将"上下文长度拓展至128k"作为核心亮点，但此前的V3版本早已支持128K上下文，只是官方API接口此前仅开放至64K。因此，这次更新的真正核心并非上下文长度，而是模型底层的架构演进。根据官方最新发布的公众号内容，确认了V3.1为混合推理架构，即使用一个模型同时支持思考模式与非思考模式。目前在DeepSeek的官方网页和APP上，即使用户开启"深度思考"模式，模型的标识也已从过去的"R1"变为了统一的"V3"。除了架构改变外，V3.1被 ...