代码能力 - 财报，业绩电话会，研报，新闻

代码能力

搜索文档

阿尔法工场研究院· 2026-03-17 17:35

DeepSeek V4发布延迟与行业动态 - 文章核心观点：DeepSeek V4发布多次延期，从2026年1月推迟至4月，引发社区对其迭代速度放缓的担忧，而同期OpenAI与Anthropic则进入“月更模式”，行业竞争加剧[5][6][8][14][15][18] - 2025年是DeepSeek的“高光之年”，V3系列、R1推理模型、V3.2等版本平均每1-2个月有一次大更新，在数学和代码基准上多次局部超越闭源模型，API价格极具竞争力，其App累计下载量突破1.1亿次，周活跃用户最高逼近9700万[8][9][10][11] - 然而自2025年12月V3.2发布后，DeepSeek的迭代明显放缓，仅进行了上下文扩展至1M、API微调等小修小补，无新权重或重大功能跃升，GitHub和API更新日志也停滞不前[8][12] DeepSeek迭代放缓的潜在原因 - 技术挑战从“模型发布”升级为“系统工程”，难度陡增：V4的目标是成为Agent时代的主力，需解决模型连续执行任务的能力，其训练重点已转向Tool-Use和Agent，引入了覆盖1800+真实环境、8.5万+复杂指令的Agent训练数据，研发进入更复杂、更重的阶段[21][22][23][25] - 作为全球开源社区的标杆，DeepSeek背负巨大预期，没有犯错空间：任何一次平庸的迭代都可能引发口碑反噬，公司必须确保每次发布都是“杀招”，维持“用1/10成本达到GPT同等性能”的市场效率预期至关重要，因此一个没有明显代际差异的V4不如不发[26][27][28][29][30][31][32] - 面临资源与组织天花板的挑战，并需进行硬件生态重构：大模型竞争已进入工业化比拼阶段，比拼算力供给、数据流水线、工程团队规模等闭环能力，而DeepSeek V4据传将深度适配国产芯片，有望成为首个完全跑在国产算力生态上的大模型，这种底层适配拉长了研发周期[33][34][36][37][38][39][40] 竞争对手的快速迭代与行业格局 - OpenAI与Anthropic进入“月更模式”，持续给市场带来新能力与确定感：2025年4月至2026年3月，OpenAI迭代了4次，Anthropic迭代了2次以上，而DeepSeek大版本更新为0次[15][18] - Anthropic打法高度聚焦，将资源密集砸向Coding、Agent和企业工作流等易形成壁垒的方向，更新节奏清晰[42][43] - OpenAI采用平台化推进节奏，模型、产品和API接口同步更新，小步快跑，使用户体感始终在更新[35][42] - 短期看DeepSeek与头部厂商的差距在拉大，但V3.2在数学/代码基准上仍具竞争力，且V4传闻方向（多模态、长期记忆、代码能力跃升、国产芯片适配）具有足够杀伤力，若兑现则长期仍可一战[42]

Artificial Intelligence

Artificial Intelligence

DeepSeek V4

GPT-5.4发布，最适合OpenClaw的天选模型登场了。

数字生命卡兹克· 2026-03-06 06:38

GPT-5.4模型发布与性能概览 - OpenAI发布了GPT-5.4 Thinking和GPT-5.4 Pro模型，现已集成至ChatGPT、API和Codex平台，该模型融合了公司在推理、编码和智能体工作流方面的最新进展[1] - 在关键基准测试中，GPT-5.4 Thinking在GDPval知识工作任务评估中取得83.0%的得分，优于Claude Opus 4.6的78.0%和GPT-5.3 Codex的70.9%[13][15][16] - 在软件工程能力测试SWE-Bench Pro中，GPT-5.4 Thinking以57.7%的得分与GPT-5.3 Codex的56.8%基本持平[13][17] - 在操作系统使用能力测试OSWorld-Verified中，GPT-5.4 Thinking获得75.0%的得分，超过Claude Opus 4.6的72.7%[13][19] - 在智能体核心能力测试Toolathlon中，GPT-5.4 Thinking以54.6%的得分显著领先于Claude Opus 4.6的44.8%[13][22][23] GPT-5.4的模型能力定位与优势 - GPT-5.4被定位为优秀的智能体基座模型，其能力构成被概括为：GPT-5.3 Codex级别的代码能力、超越GPT-5.2的世界知识、更强的工具使用能力以及极具成本效益的Codex订阅额度[11][24] - 该模型解决了此前GPT-5.3 Codex“不说人话”和世界知识薄弱的痛点，同时保持了顶级的编程能力，使其在需要结合业务理解和代码执行的复杂任务中表现更佳[2][3][11][16] - 模型支持100万token的上下文窗口，较GPT-5.3的40万token有大幅提升，这对维持智能体在长任务中的上下文理解至关重要，尽管超过27万token后计费会翻倍[25] - GPT-5.4是OpenAI首个内置原生计算机使用能力的主线模型，能出色地编写通过Playwright等库操作计算机的代码，并能根据屏幕截图发出指令，实现了代码与视觉能力的结合[27] 技术特性与成本分析 - 新引入了“工具搜索”功能，模型不再一次性接收所有工具定义，而是按需查找并追加，OpenAI内部测试显示该配置在保持相同准确率的同时将总体token使用量减少了47%[30][31][34] - 发布了新的`playwright-interactive`技能，允许Codex以代码和视觉两种方式调试Web和Electron应用[27][28] - API定价方面，GPT-5.4的输入价格为每百万token 2.50美元，输出价格为每百万token 15美元，虽高于GPT-5.2，但显著低于Claude Opus 4.6的5美元/25美元（输入/输出）[38][39] - 对于大多数用户而言，通过20美元的ChatGPT Plus订阅即可使用GPT-5.4，并能利用Codex平台慷慨的额度，这相比必须通过昂贵API调用的Claude模型具有巨大成本优势[11][36][39] 市场影响与生态整合 - GPT-5.4的发布被视为对Claude Opus 4.6在智能体模型领域主导地位的有力挑战，其综合能力与成本优势可能改变开发者的模型选型偏好[2][11][39] - OpenAI对第三方工具调用Codex额度持开放支持态度，这与Anthropic封禁OpenClaw等行为形成对比，有利于其构建更开放的开发者生态[7][9] - 模型已迅速集成至ChatGPT和Codex平台，社区用户正积极推动其在OpenClaw等流行智能体框架上的支持，预计将很快完成适配[40][49][52] - 初步体验显示，GPT-5.4在自然语言表达上更接近“人话”，在任务理解和沟通上有了明显改善，尽管在部分领域（如前端审美、写作风格）与顶尖竞品相比仍有提升空间[42][43][45][47]

Artificial Intelligence

Artificial Intelligence

GPT-5.4

DeepSeek小版本大升级，新R1模型代码能力媲美OpenAI o3

第一财经· 2025-05-29 11:04

模型升级与性能表现 - DeepSeek-R1-0528模型完成小版本试升级并在HuggingFace开源平台发布，但官方未更新模型卡及公告 [1] - 海外开发者测试发现该版本代码能力提升显著，在Live CodeBench平台性能接近OpenAI的o3-high模型 [1] - 在代码测试排名中，DeepSeek-R1-0528以Pass@1 73.1、Easy-Pass@1 98.7、Medium-Pass 85.2位列第四，优于Grok-3-Mini和Claude-3系列模型 [3][4] - 开发者实测显示新模型在32K上下文内的文本召回效果优于旧版R1，但60K上下文表现下降 [7] 开发者反馈与横向对比 - 开发者认为新模型写作任务改进明显，输出更自然且减少"量子力学元素"等异常内容 [7] - AI博主测试显示新模型在橙色小球撞击模拟中，漫反射和撞击效果优于Claude-4-Sonnet [5] - 部分开发者认为个案测试不具代表性，需等待评测榜单和长期口碑验证 [7] - Claude-4系列因测试速率限制未参与榜单排名，但其公认编程能力未被纳入直接比较 [5] 版本迭代策略与行业观察 - 公司延续低调更新风格，类似3月发布的DeepSeek-V3-0324也未高调宣传，该版本曾通过强化学习技术提升推理任务表现 [7] - 业内猜测公司可能仅通过调整训练数据实现能力提升，因此不定义为大版本升级，而其他厂商的版本号迭代或为营销需求 [8] - 开发者期待下一代R2模型能显著提升上下文长度和多模态能力，以满足生产需求 [8]

Seek .(US:SKLTY)

开源

代码能力

Artificial Intelligence

Artificial Intelligence

DeepSeek-R1-0528

DeepSeek-V3-0324

Claude-4-Sonnet