Workflow
Engram
icon
搜索文档
DeepSeek更新后被吐槽变冷变傻:比20年前的青春伤感文学还尴尬
每日经济新闻· 2026-02-13 06:23
公司产品更新与测试 - 公司于2月11日对其旗舰模型进行了灰度测试,在网页端和APP端更新版本,支持最高1M(百万)Token的上下文长度 [1] - 此次更新将上下文长度从去年8月发布的DeepSeek V3.1的128K大幅提升至1M,记者实测可一次性处理超过24万个token的《简爱》小说文档 [1] - 有行业人士认为,此版本类似于“极速版”,可能是牺牲质量换取速度,为2026年2月中旬将发布的V4版本做最后的压力测试 [6] 用户反馈与产品体验变化 - 更新后,部分用户反馈模型行为发生变化,例如不再称呼用户设定的昵称而统一称“用户”,思考过程的角色视角和心理描写减少 [4] - 有用户认为模型回复风格变得“说教、居高临下”(被描述为“爹味”),或变得“文绉绉、情绪激动”,类似“青春伤感文学” [4] - 也有用户反馈模型变得“客观和理性”、“更像人了”,更在意提问者的心理状态而非问题本身 [5] 技术架构与研发进展 - 公司模型迭代路径清晰:V系列定位为追求极致综合性能的基础模型,2024年12月推出V3确立基础,随后快速迭代发布强化推理与Agent能力的V3.1,并于2025年12月推出最新正式版V3.2及专注于高难度数学和学术问题的V3.2-Speciale [6] - 公司团队今年初发表两篇论文,公开两项创新架构:mHC(流形约束超连接)用于优化深层Transformer信息流动,提升训练稳定性和扩展性;Engram(条件记忆模块)将静态知识与动态计算解耦,用廉价DRAM存储知识以降低长上下文推理成本 [7] - 据科技媒体The Information爆料,公司计划在今年2月中旬农历新年期间推出新一代旗舰模型DeepSeek V4,将具备更强的写代码能力 [6]
春节见?DeepSeek下一代模型:“高性价比”创新架构,助力中国突破“算力芯片和内存”瓶颈
硬AI· 2026-02-11 16:40
文章核心观点 - 野村证券认为DeepSeek即将发布的新一代大模型V4,预计不会像V3那样颠覆全球AI价值链或引发算力需求恐慌,但其通过mHC和Engram两项底层架构创新,有望进一步降低训练和推理成本,加速中国AI价值链创新周期,并帮助全球大语言模型和AI应用企业加速商业化进程,缓解资本开支压力[2][3][4][5] 创新技术架构带来性能与成本优化 - 算力芯片和内存是中国大模型的瓶颈,V4引入的mHC和Engram技术从算法和工程层面针对这些硬约束进行优化[7] - mHC全称为“流形约束超连接”,旨在解决Transformer模型层数极深时的信息流动瓶颈和训练不稳定问题,通过让神经网络层间“对话”更丰富灵活并设置数学“护栏”,实验证明采用mHC的模型在数学推理等任务上表现更优[8] - Engram是一个“条件记忆”模块,其设计理念是将“记忆”与“计算”解耦,将静态知识存储在可置于廉价DRAM的稀疏内存表中,推理时快速查找,从而释放昂贵的GPU内存专注于动态计算[11] - 两项技术结合对中国AI发展意义重大:用更稳定的训练流程弥补国产芯片不足,用更聪明的内存调度绕过HBM容量和带宽限制[13] - V4最直接的商业影响是进一步降低大模型的训练与推理成本,成本效益的提升将刺激需求,使中国AI硬件公司受益于加速的投资周期[13] 硬件受益于“加速周期” - 全球主要云服务商正全力追逐通用人工智能,资本开支竞赛远未停歇,因此V4预计不会对全球AI基础设施市场造成去年V3发布时级别的冲击[15] - 全球大模型及应用开发商正背负日益沉重的资本开支负担,V4若能在维持高性能的同时显著降低训练与推理成本,将帮助这些玩家更快地将技术转化为收入,缓解盈利压力[15][16] - DeepSeek-V3/R1发布一年后,市场格局从“一家独大”走向“群雄割据”,其“算力管理效率”叠加“性能提升”曾加速中国LLM与应用发展并改变全球与中国竞争格局,推动开源模型更受关注[16][18] - 2024年底,DeepSeek的两个模型曾占据OpenRouter上开源模型Token使用量的一半以上,但到2025年下半年,随着更多玩家加入,其市场份额已显著下降[18] 软件或迎来“增值而非被替代” - 在应用侧,更强大、更高效的V4将催生更强大的AI智能体[20] - 像阿里通义千问App等,已经能够以更自动化的方式执行多步骤任务,意味着AI智能体正从“对话工具”转型为能处理复杂任务的“AI助手”[21] - 这些能执行多任务的智能体需要更频繁地与底层大模型交互,将消耗更多的Token,进而推高算力需求[21] - 模型效能的提升不仅不会“杀死软件”,反而为领先的软件公司创造了价值,需要关注那些能率先利用新一代大模型能力打造出颠覆性AI原生应用或智能体的软件公司,其增长天花板可能因模型能力的飞跃而被再次推高[22]