DeepSeek过于朴素了

文章核心观点 - DeepSeek V4模型的发布并未追求成为外界定义的“行业顶尖”或“榜单领先”模型，而是延续了公司一贯追求“性价比”和“效率”的核心路线 [4][6] - DeepSeek展现出一种“朴素”和“不着急”的特质，其发展节奏不受融资、商业化压力或市场情绪驱动，而是专注于解决底层技术效率问题 [4][8][22] - 尽管与Kimi在代码能力、长上下文等表面能力上存在相似性，但DeepSeek与Kimi等主流AI创业公司选择了截然不同的技术路线和商业逻辑 [9][13][21] - 在国产化替代方面，DeepSeek可能尚未完全切换至国产芯片进行核心训练，但其在工具链层面的改进为未来逐步摆脱对英伟达的强绑定奠定了基础 [24][25][29] - DeepSeek的定位更接近于其母公司幻方量化提升内部研究效率的基础工具，而非一门独立的生意，这决定了其独特的技术发展路径 [19][20] 根据相关目录进行总结 DeepSeek V4模型发布与市场反应 - 2025年4月24日，DeepSeek正式发布V4预览版，资本市场迅速反应，港股大模型板块中智谱与MiniMax股价盘中一度分别跌超10%和12% [4] - 过去一年，国产大模型（如智谱、MiniMax）首次被资本市场定价，市值一度冲破3000亿元，DeepSeek被行业投射为下一次行业变量 [4][5] - V4 Pro在世界知识类基准测试中已跻身全球前列，仅次于Gemini-Pro-3.1，综合性能开始逼近顶级闭源模型 [6] - 新模型V4原生支持1M（百万）上下文，并强化长链路推理能力 [12] DeepSeek的公司定位与技术哲学 - 公司气质“朴素”，不刻意刷榜、不考虑商业化、不优化用户体验，专注于充当“修路人”角色 [4] - 公司发展节奏不受融资、商业化压力和市场情绪推动，有更长的时间尺度去做“难而慢”的事 [8][20] - 核心追求是模型的“性价比”和“计算效率”，而非单纯追求榜单排名或成为大众理解的“行业顶尖” [6][18] - 公司背后的母公司是量化机构幻方量化，其文化天然强调效率、收益率与投入产出比，这深刻影响了DeepSeek关注大模型效率问题的技术路线 [19] DeepSeek与Kimi的技术路线对比 - 表面能力相似：两家公司都重视代码能力（Agentic Coding）、长上下文和复杂任务处理 [11][12][13] - 技术路线本质不同： - Kimi：采用线性注意力路线，核心思路是通过任务拆解、多智能体（Agent）协作来完成复杂任务，追求token被消耗后的产出效率，优化用户体验，接近“可交付的生产力工具” [14][15][17][18] - DeepSeek：采用混合注意力架构（Hybrid Attention），通过CSA和HCA对历史上下文进行分层压缩和选择性读取，追求token本身的计算效率，在系统层做“减法”以提升底层计算效率 [14][15][16][18] - 技术效果差异：面对同一复杂任务，Kimi的路线可能导致消耗更多token，因其涉及任务拆解、多轮调用等后台运算；而DeepSeek通过底层优化，在100万token场景下，V4-Pro的单token推理FLOPs降至上一代模型的27%，KV Cache占用降至10% [14][17] - 商业逻辑差异：Kimi作为标准AI创业公司，需要积极面对商业化、融资和增长；DeepSeek则更像是服务于母公司研究效率的基础工具，商业化压力较小 [20][21] 国产化替代进展 - 外媒曾预告DeepSeek将完全切换至国产模型训练以摆脱对英伟达的依赖，但V4技术报告未证实此消息 [24] - 更现实的路径是：训练环节可能仍依赖英伟达芯片，而推理环节率先进行国产替代。DeepSeek已验证其专家并行方案可在英伟达GPU和华为昇腾NPU上运行，完成了跨平台适配 [25][26][27][28] - 行业人士指出，若彻底切换至国产芯片训练，V4可能不会这么快发布 [29] - 工具链层面出现关键变化：从深度使用绑定英伟达生态的底层PTX语言，转向采用如TileLang这类领域专用语言，这有助于平衡开发效率与运行效率，并为未来适配不同芯片平台、逐步减少对英伟达的强绑定创造条件 [29] DeepSeek V4的技术重点 - 技术核心围绕“效率”提升，包括：采用混合注意力架构、进行KV Cache压缩、降低百万上下文推理成本、优化专家并行、设计跨平台Kernel等 [32] - 这些工程化改进旨在解决大模型当前存在的瓶颈，例如降低单位智能的成本，让相同能力消耗更少算力 [33][34]