ChatGPT 三周年遭 DeepSeek 暴击,23 页技术报告藏着开源登顶的全部秘密
慢、笨、呆?DeepSeek V3.2 上新黑科技 过去几个月,AI 圈出现了一个明显的趋势:闭源模型越跑越快,开源模型却有点跟不上节奏了。DeepSeek 团队分析后发现,开源模型在处理复杂任务时 有三个核心瓶颈:架构问题、资源分配以及智能体能力。 针对这三个问题,DeepSeek 这次拿出了三个大招。 ChatGPT 诞生三周年之际,DeepSeek 送上「庆生礼物」。 就在刚刚,DeepSeek 一口气发布两款模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。这两个模型不仅在推理能力上直逼 GPT-5 和 Gemini-3.0-Pro,更 重要的是,它们解决了一个困扰开源模型很久的问题: 怎么让 AI 既会深度思考,又会熟练使用工具? 新模型省流版如下 两个模型的权重都已经在 HuggingFace 和 ModelScope 上开源,你可以下载到本地部署。 如果你用过一些 AI 模型处理超长文档,可能会发现速度越来越慢,甚至直接卡死。这就是传统注意力机制的锅。 传统注意力机制的逻辑是:每个字都要和之前所有的字计算相关性。文档越长,计算量就越大。就像你在一个有 1000 ...