Agent能力
搜索文档
AI成增长引擎!快手去年净利超两百亿,今年重兵投入智能体
南方都市报· 2026-03-26 11:49
核心财务表现 - 2025年第四季度总收入同比增长11.8%至396亿元人民币,经调整净利润同比增长16.2%至55亿元人民币 [2] - 2025年全年总收入同比增长12.5%至1428亿元人民币,经调整净利润同比增长16.5%至206亿元人民币 [2] - 公司董事会建议派发2025年度末期股息每股0.69港元,合计30亿港元 [8] 业务收入与结构 - **线上营销服务(广告)**:2025年第四季度收入达236亿元人民币,同比增长14.5%,占当季总收入的59.7% [3]。2025年全年该业务收入占比为57.1% [3] - **电商业务**:2025年第四季度GMV同比增长12.9%至5218亿元人民币 [3]。包含电商在内的“其他服务”收入占比从2024年的13.9%提升至2025年的15.9% [3] - **直播业务**:2025年全年贡献27.4%的收入,增长明显降速,第四季度收入有略微下滑 [3] AI驱动的商业化与增长 - **AI对广告业务的提升**:生成式推荐大模型和智能出价模型在2025年第四季度带来国内线上营销服务收入约5%的提升 [5]。AIGC营销素材在当季带来约40亿元人民币的线上营销服务消耗 [3][5] - **AI产品商业化进展**:可灵AI在2025年第四季度营收达3.4亿元人民币,2025年12月单月收入突破2000万美元,年化收入运行率(ARR)达2.4亿美元 [2][5]。截至2025年底,可灵AI全球用户突破6000万,累计生成超6亿个视频,为超3万家企业客户和开发者提供API服务 [5] - **AI提升运营效率**:UAX全自动广告投放产品在非电商营销服务的消耗渗透率接近80%,活跃客户渗透率超过90% [3] 用户与运营效率 - **用户增长与价值**:2025年全年日活用户达4.1亿,同比增长2.7% [4]。每位日活用户平均线上营销服务收入达198.6元,同比增长9.5%,增速快于用户增速 [4] - **成本控制**:2025年销售及营销开支从2024年的422亿元人民币下降至411亿元人民币,占总收入比例从32.4%下降至29.6% [4] 未来战略与投入方向 - **AI技术重点**:Agent能力被确定为2026年的重点投入方向之一,旨在实现更完整的全流程自主创作能力 [2][6] - **具体应用场景**:计划在线上营销场景打造覆盖智能选品、创意编辑、投放调价等全流程的AI Agent;在电商场景通过搜推Agent提升搜索体验与订单量 [7] - **算力基础设施投入**:2026年预计集团整体资本开支(Capex)将达到约260亿元人民币,较2025年增加约110亿元,用于支持大模型算力及数据中心建设 [7]
从Gemini到豆包:全球两大AI巨头为何走上同一条路?
第一财经· 2026-02-14 23:19
豆包大模型2.0发布概览 - 字节跳动于2月14日正式推出豆包大模型2.0系列,这是其自2023年初始测试版上线、2024年正式发布后的又一次重大代际更新[1] - 此次2.0版本具备全栈模型矩阵、多模态理解、企业级Agent和极致成本四大差异化优势,已跻身全球第一梯队,成为Agent时代的关键玩家[1] - 在多项公开测试集上表现突出,接近Google Gemini3,并具备更高性价比[1] 模型定位与战略共识 - 旗舰版豆包2.0 Pro定位为“面向深度推理与长链路任务执行场景”,官方明确表示其全面对标GPT 5.2与Gemini 3 Pro[2] - 豆包2.0与Google Gemini的相似性正从“对标”走向“一致”,这反映了全球顶尖AI实验室在通往通用人工智能路径上达成的战略共识,即AI最终需要为人类完成任务执行,这需要对真实世界物理运行规律的理解[2] 模型系列与核心能力升级 - 豆包2.0系列提供Pro、Lite、Mini三款不同尺寸的通用Agent模型,其多模态理解能力实现全面升级,并强化了LLM与Agent能力,使模型能在真实长链路任务中稳定推进[4] - 在语言模型基础能力上,豆包2.0 Pro旗舰版在IMO、CMO数学竞赛和ICPC编程竞赛中取得金牌成绩,数学和推理能力达到世界顶尖水平[4] - 模型加强了长尾领域知识覆盖,在SuperGPQA等多项公开测试集上表现突出,科学领域知识测试成绩与Gemini 3 Pro和GPT 5.2相当,在跨学科知识应用上也排名前列[4] 多模态与Agent能力表现 - 豆包2.0全面升级多模态理解能力,在视觉推理、空间感知、长上下文理解等权威测试中均取得业界最佳表现[5] - 面对动态场景,模型强化了对时间序列与运动感知的理解能力,该能力已应用于智能健身App实时动作纠正、穿搭建议、老人看护等领域[5] - 在Agent能力上,豆包2.0 Pro在指令遵循、工具调用和Search Agent等评测中达到顶尖水平,在HLE-Text上获得54.2的最高分,大幅领先于其他模型[5] 产品上线与定价策略 - 豆包2.0 Pro已在豆包App、电脑客户端和网页版上线,用户选择专家模式即可体验,火山引擎也已上线该系列模型的API服务[6] - 价格方面,豆包2.0 Pro按输入长度区间定价,32k以内的输入定价为3.2元/百万tokens,输出定价为16元/百万tokens,相比Gemini 3 Pro和GPT 5.2有较大的成本优势[6] - 豆包2.0 Lite极具性价比,综合性能超越上一代主力模型豆包1.8,百万tokens输入价格仅为0.6元[6] 核心突破:任务执行与成本优化 - 此次升级的核心落点是“真实世界复杂任务的执行力”,其根基在于多模态理解层的突破,让模型能从“答题者”进化为“执行者”[7] - 公司团队认为,现有LLM Agent在现实任务中碰壁的原因主要在于难以自主构建高效工作流以处理长时间跨度、多阶段的任务,以及专业领域的经验知识位于训练语料的长尾区[7] - 在提升长程任务执行能力的同时,模型还进一步降低了推理成本,其效果与业界顶尖大模型相当,同时token定价降低了约一个数量级,这对于消耗大量token的复杂任务至关重要[7] 多模态能力详解与行业对标 - 豆包2.0 Pro在视觉推理、空间感知、运动理解、长视频理解等维度的大多数相关基准测试中取得最高分[8] - 此前刷屏的AI视频模型Seedance 2.0(具备原声音画同步、多镜头长叙事、多模态可控生成能力)正是其多模态能力支撑的体现之一[8] - 豆包2.0可以处理复杂视觉输入并完成实时交互和应用生成,其升级方向与Google Gemini 3 Pro在视频理解、空间推理上的优势高度一致,均强调“原生多模态”能力,即在底层实现跨模态的深度对齐[8] 行业趋势:世界模型竞赛 - 豆包2.0与Gemini在基础模型层面均选择专注于多模态,本质上是在进行一场“世界模型”的军备竞赛[9] - 行业目标不再满足于让AI成为“语言游戏高手”,而是希望其成为能看懂、听懂、理解物理世界复杂性的“数字人类”,只有真正理解物理世界,AI才能在现实世界中可靠地执行任务[9]
字节越来越像 Google:字节跳动距离 Google 这样的头部公司,大概只差六个月
新浪财经· 2026-02-14 19:08
行业格局与公司定位 - DeepMind CEO Demis Hassabis 曾判断字节跳动在AI模型领域距离Google这样的头部公司只差六个月 [2][60] - 随着Seedance 2.0等产品的发布,市场认为字节跳动与Google的模型差距可能已缩小至一两个月,公司正站在世界第一梯队 [4][62][66] - 字节跳动的模型战略与Google相似,其优势在于模型与应用(如抖音、即梦、豆包)深度协同,形成从场景反馈到模型迭代的闭环系统 [47][48][49][101][102][103] Seedance 2.0(视频生成模型) - 模型在指令遵循能力上表现突出,能够理解并完美执行复杂、冗长的提示词,基本解决了幻觉问题 [12][13][72] - 生成视频的质量(包括运镜、画面、声音、物理逻辑细节)远超预期,让AI视频生成能力“越过了临界点”,达到完全可用的水平 [11][13][16][70][73] - 其表现引发了行业领袖(如导演贾樟柯、游戏制作人冯骥)的强烈关注和积极评价,认为“AI的童年时代结束了” [7][15][65][73] Seedream 5.0 Lite(图像生成模型) - 模型能力主要提升在主体一致性和指令遵循两方面,解决了旧版本生成多张图片时人物神态、细节不一致的“出戏感” [21][78] - 指令遵循能力强大,能够精准完成复杂的图片编辑指令(如修改物体颜色、修复破损部分),满足了用户“改图”这一核心场景需求 [23][25][80][82] 豆包大模型 2.0 - 模型在复杂的深度推理和Agent任务上相比1.8版本有“一个数量级”的明显进步 [26][83] - 具备原生多模态能力,模型本身能一体化理解文本、图片、视频,其视觉理解能力在通用模型中表现优异,优于包括Opus 4.6在内的竞品 [30][31][33][34][86][87][88] - 具备原生Agent能力,能自主规划并执行长链路复杂任务(如研究、写作、编程),在相关评测中取得高分 [35][36][40][41][89][93][94] - 推理成本大幅下降,模型效果与业界顶尖模型基本打平,但Token定价降低了大约一个数量级,使Agent等耗Token大户场景的商业化落地成为可能 [45][46][98][99] 商业模式与战略协同 - 公司构建了“模型能力、应用反馈、云服务变现、反哺算力”的自循环系统 [56][57][110][111] - 火山引擎作为云服务出口,其逻辑与拥有自研模型的Google Cloud相似,公司模型能力越强,火山引擎的云服务就越有竞争力 [54][55][108][109] - 内部海量应用(抖音、即梦、豆包)是模型的“压力测试场”,为模型迭代提供直接的场景反馈和方向指引 [48][49][102][103]
消息称字节跳动豆包大模型2.0初定2月14日发布
搜狐财经· 2026-02-12 17:54
公司产品发布计划 - 字节跳动火山引擎初步确定于2026年2月14日发布豆包大模型的一系列重要升级 [1] - 本次发布涉及豆包大模型2.0、音视频创作模型Seedance 2.0、图像创作模型Seedream 5.0 Preview [1] - 豆包大模型2.0将正式发布,其基础模型能力和企业级Agent能力将有大幅提升 [1] 视频生成模型升级要点 - 豆包视频生成模型Seedance升级后,复杂交互和运动生成可用率达到业界最佳级别 [1] - 模型多模态能力全面,支持音频、视频、图像全模态输入 [1] - 模型可控性强,指令遵循表现好 [1] - 模型深度适配影视、广告及营销场景,输出质量对齐工业交付标准 [1] 图像创作模型升级要点 - 豆包图像创作模型Seedream首次引入实时检索增强能力,可获取最新知识和资讯,精准响应时效性创作需求 [1] - 模型的世界知识与多语种能力增强,内置科技与人文领域丰富的世界知识 [1] - 模型理解与生成表现全面提升,可通过简短、模糊的文本和图像输入理解用户意图,主体一致性和图文对齐表现有进步 [1] 公司产品发展历程与市场地位 - 在2024年12月的FORCE原动力大会上,火山引擎发布了豆包大模型1.8、豆包视频生成模型Seedance 1.5 pro [3] - 经过一年多的持续升级,豆包大模型家族在多模态理解和生成能力、Agent能力上,已位于全球第一梯队 [3] - 截至2025年12月,豆包大模型日均Tokens使用量已突破50万亿,居中国第一、全球第三 [3] - 目前已有超过100家企业在火山引擎上累计Tokens使用量超过一万亿 [3] 前期版本性能特点 - 去年发布的豆包大模型1.8专门面向多模态Agent场景进行了定向优化 [3] - 该版本工具调用能力、复杂指令遵循能力、OS Agent能力大幅增强 [3] - 该版本大幅提升了视觉理解的基础能力,并原生支持智能上下文管理 [3]
从华科大校园到Meta副总裁,肖弘的Manus为啥值钱?
阿尔法工场研究院· 2025-12-31 08:06
文章核心观点 - 文章认为,Meta收购Manus是AI赛道从模型与算力竞赛转向应用层的关键转折点,Manus定义了AI时代或许最重要的Agent产品形态[3] - 此次收购是Meta自成立以来第三大的并购,仅次于WhatsApp和Scale AI[4] - Manus的路径证明,不参与最热闹的模型与算力竞赛,通过工程能力和产品理解,应用层同样可以创造巨大的价值[23] - AI时代的故事正在从“谁更会说”走向“谁更能做”,Manus恰好站在了这个转折点上[25] Manus公司概况与发展历程 - Manus的直接开发主体为蝴蝶效应科技,创始人肖弘为连续创业者,其2015年创立的公司曾服务超200万B端用户并成功退出[6] - 2022年,公司推出AI浏览器插件Monica,面向海外市场,用户规模在2024年突破1000万,成为少数实现盈利的中国AI应用产品之一[6] - Manus是在Monica基础上对“Agent能力”进行系统化升级后的产物,于2025年3月正式发布[7] - 2025年7月,Manus将业务运营基地从中国转移至新加坡、东京及美国加州,并据称已解雇其在北京的大部分员工[11] Manus的产品与技术定位 - Manus的核心定位是“通用型AIAgent”,旨在解决“从理解指令到完成任务交付”的完整闭环,可自动操作电脑完成搜索、编辑等任务[7] - 在技术实现上,Manus不以自研基础模型为核心,而是通过多模型协同与系统级工程能力构建Agent环境,其单个用户的平均token消耗量约为传统聊天机器人的1500倍[9] - Manus的AI助手基于Anthropic的Claude及阿里巴巴的Qwen等现有模型优化训练而成,2025年3月曾与阿里巴巴QwenAI团队建立战略合作,但后续合作未能持续[10] - 在权威的GAIA基准测试中,Manus在多个难度等级上取得了超越OpenAI同类产品的成绩[9] 业务数据与商业化表现 - 从2025年3月上线至12月初,Manus上线8个月累计处理超过147万亿个token,并创建了超过8000万台虚拟计算机,服务全球数百万用户[9] - 作为对比,字节跳动豆包大模型的日均token调用量突破50万亿[9] - Manus上线后很快进入商业化,其2025年内的年化收入已达到1.25亿美元,年度经常性收入突破1亿美元所用时间不到9个月,速度在全球SaaS产品历史中极为罕见[13] 收购方Meta的战略意图 - Meta高层认为未来AI应赋予用户“行动能力”,而Manus在挖掘现有模型潜力、构建强大智能体方面处于全球领先位置[15] - 收购后,Manus将逐步与Meta旗下核心产品深度整合,服务对象从原有用户扩展至Meta平台上的数百万企业和数十亿用户[16] - 收购完成后,蝴蝶效应将在公司、团队和产品层面继续保持独立运营,Manus仍以新加坡为主要运营基地[15] 创始团队与资本背景 - 创始人兼CEO肖弘出生于1992年,毕业于华中科技大学,收购后将出任Meta副总裁[18] - 核心团队还包括联合创始人兼首席科学家季逸超,以及负责产品与市场的合伙人张涛[19][22] - 公司背后汇集了真格基金、Benchmark等多家中美知名投资机构,真格基金对团队进行了长达十年的持续押注[23] - 2025年4月,Manus完成一轮约7500万美元融资,估值接近5亿美元;被收购前,新一轮融资估值已被市场传至20亿美元水平[23]
Omdia发布《2025全球企业级MaaS市场分析》,火山引擎名列全球第三
21世纪经济报道· 2025-12-24 15:24
全球MaaS市场竞争格局 - 截至2025年10月,OpenAI和Google Cloud分别以近70万亿和43万亿的日均Tokens调用量,排名全球MaaS服务市场前两位 [1] - 中国云厂商火山引擎日均Tokens调用量超30万亿,名列全球第三,市场份额达到15% [1] - 三家厂商合计占据全球MaaS市场65%的份额 [1] 市场增长与财务表现 - MaaS服务已成为增长最快、毛利最高的AI云计算产品 [4] - 截至今年12月,火山引擎豆包大模型日均调用量已突破50万亿Tokens,比10月数据增长66.7%,相比去年同期增长超十倍 [4] - 通过技术创新,大模型在提供高性价比服务的同时也有着较好的毛利,其毛利水平远远优于IaaS等传统云产品 [4] 技术演进与应用场景拓展 - 头部模型厂商重点发力多模态和Agent能力,最新旗舰模型GPT-5.2、Gemini 3.0和豆包1.8均为多模态大模型,原生支持图像等视觉理解 [4] - 模型通过强化工具调用和多轮指令遵循等能力,拓展了在具身智能、智能硬件、产品质检、软件服务等应用场景 [4] - 在客服场景中,AI客服已能从拟人对话升级为可推荐购物链接、自主完成工单客诉等一系列Agent任务,带动模型Tokens调用量成倍增长 [4] 细分市场亮点与未来展望 - 图像和视频创作模型(如Nano Banano和豆包Seedream4.0)达到生产级应用水平,大幅降低了短剧、漫剧、PPT制作、海报制作的门槛 [5] - 模型厂商和云厂商正在加速模型迭代并完善AI云基础设施,预计2026年全球MaaS市场增速还将进一步扩大 [5]
从开源最强到挑战全球最强:DeepSeek新模型给出了解法
观察者网· 2025-12-02 19:38
模型发布核心信息 - 12月1日,公司发布两个正式版模型:面向日常使用的DeepSeek-V3.2和面向极致探索的DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2是9月底实验版V3.2-Exp的正式版,平衡推理能力与输出长度,适合问答场景并强化了Agent能力,官方网页端、App和API均已更新 [1][4] - Speciale版本是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,目标是将开源模型推理能力推向极致,目前仅以临时API服务形式开放 [1] 模型性能表现 - 在公开推理测试中,V3.2已达到GPT-5水平,仅略低于Google Gemini 3 Pro,相比Kimi-K2-Thinking输出长度大幅降低,减少计算开销与用户等待时间 [6] - Speciale在多个推理基准测试中超越Gemini 3 Pro,包括美国数学邀请赛(96.0分)、哈佛MIT数学竞赛(99.2分)和IMO(84.5分) [7] - 在编程与理工科博士生测试中,Speciale仍略逊于Google顶级模型,如LiveCodeBench(88.7分)和GPQA Diamond(85.7分)低于Gemini 3 Pro的90.7分和91.9分 [7] 技术架构创新 - 公司设计了DSA(DeepSeek稀疏注意力)机制应对长文本计算量爆炸,该机制像图书管理员通过“闪电索引器”只检索关键信息,大幅降低计算复杂度 [8] - V3.2的核心亮点是“Thinking in Tool-Use”(思考型工具调用),这是AI Agent领域的“Interleaved Thinking”(交错思维链)技术的重要背书 [8][9] - 该技术将冗长、重度依赖工具的任务转化为稳定的“计划→行动→反思”循环,通过复用假设与部分结论减少多轮任务中的“状态漂移”与重复性错误 [9] 战略方向与行业定位 - 公司将“Agent能力”提升到与“推理能力”同等重要的战略位置,试图通过Agent能力将模型从“聊天机器人”进化为真正的“数字劳动力” [13] - 从经济维度看,企业真正愿意付费的是“降本增效的行动”而非“更优美的回答”,Agent使LLM从“对话式AI”进化为“动作式AI”以产生商业闭环 [13] - 公司思路已从工具转变为基础设施提供商,大模型正演变成调度工具的通用操作系统,模型是内核,Agent是用户态程序,插件则是工具 [14] 行业竞争格局 - 过去一年开源大模型生态集体爆发,阿里云Qwen系列、月之暗面Kimi、智谱GLM和MiniMax M系列均取得超越当时顶级闭源模型的成果 [1] - Google Gemini 3.0 Pro的发布重新定义了“全球最强”,其强劲性能让开源和闭源的差距瞬间又变成了一道新的天花板 [2] - 开源模型存在三个关键缺陷:对标准注意力机制的过度依赖、后训练阶段计算投入不足、Agent领域泛化能力和指令遵循能力存在明显差距 [15] 未来发展路径 - 公司计划通过增加预训练计算量填补知识空白,并优化模型推理链的“智能密度”提高效率,让模型学会“少说话、多办事” [16] - 研究员Zhibin Gou表示,训练后的瓶颈需通过优化方法和数据解决,而非仅等待更好的基础模型,持续扩大模型规模、数据量、上下文和强化学习 [17] - 公司用实打实的模型证明Scaling没死只是换了战场,当行业讨论Scaling Law是否撞墙时,公司想证明持续扩展的可能性 [19]
阿里为什么一定要做千问 APP?
36氪· 2025-11-18 18:41
阿里千问App产品发布 - 阿里巴巴的千问App公测版于11月17日正式上线,用户可免费调用与GPT-5性能相当的Qwen3-Max推理模型及Qwen3-千问模型,以解决工作、学习和生活中的问题 [2] 阿里AI战略定位 - 千问App被阿里内部定性为战略级产品,直指“中国的ChatGPT”,标志着公司在AI领域的战略迈出关键一步 [5] - 公司此前已拥有夸克App、通义App等C端AI产品,且通义千问开源模型在全球获得良好口碑,此次推出千问App是重大战略选择而非小范围尝试 [5] 外部环境与竞争态势 - 千问App上线前夕,美国政府放出风声指控阿里可能涉嫌“军方合作”等事项,或上“黑名单”,阿里迅速回应否认指控 [7] - 阿里在此时推出对标ChatGPT的产品并定义其占据生态高位,表现出“承压向前走”的姿态 [7] - 阿里的Qwen大模型和Deepseek在硅谷引发“Qwen Panic”,因模型规格丰富、局部性能超越GPT-5,成为硅谷闭源模型外的可替代选择 [7][8] - Qwen通过开源机制推广“平权”,与硅谷闭源AI的“霸权”模式形成对立,可能破坏美国巨头依靠巨额投入构建的技术壁垒 [8][9] - 千问App通过免费路径推广C端应用,与硅谷AI圈形成截然不同的路径选择 [12] 阿里推出千问App的内在驱动 - AI产品形态已从单纯的大语言模型chatbot发展为以Agent能力为核心的未来趋势,千问App作为用户入口旨在连接模型能力与物流、电商、金融等现实世界履约服务 [13] - 阿里拥有电商、物流、支付等丰富场景优势,千问App可有效打通这些能力,此时布局具有极高战略价值 [13] - 公司需前瞻用户行为变化,避免因竞争对手构建AI入口而导致自身在价值链中被挤压至后端,失去对场景价值链的掌控权 [17] - 推出千问App是阿里将开源模型能力投射到应用端、构建新产品体系和产业链话语权的必然选择 [17]
DeepSeek-V3.1 发布,官方划重点:Agent、Agent、Agent!
Founder Park· 2025-08-21 16:16
核心产品升级 - 推出混合推理架构 单一模型同时支持思考与非思考双模式 用户可通过深度思考按钮自由切换[5][7] - 上下文窗口扩展至128K 显著提升长文本处理能力[7] - 采用思维链压缩技术 思考模式输出token数量减少20%-50% 非思考模式输出长度也显著缩短[12] 智能体性能突破 - 工具使用与智能体任务表现通过后训练优化大幅提升[8] - 编程智能体在SWE-bench评测达66.0分 较V3-0324版本45.4分提升45%[9] - 多语言代码修复能力达54.5分 较前代29.3分提升86%[9] - 终端命令行评测31.3分 较前代13.3分增长135%[9] - 搜索智能体在browsecomp中文测试达49.2分 较前代35.7分提升38%[11] 技术架构创新 - 基础模型在V3版本基础上额外训练840B tokens[15] - 采用UE8M0 FP8 Scale参数精度 分词器与chat template较V3版本有重大变更[15] - 提供Strict Mode Function Calling Beta接口 确保输出严格符合Schema定义[14] - 新增Anthropic API格式兼容 可无缝接入Claude Code等框架[14] 开源生态建设 - 基础模型与后训练模型已在Huggingface和魔搭平台全面开源[15][19] - 开源组织路径分别为HUGGINGFACE.CO/DEEPSEEK-AI和MODELSCOPE.CN/ORGANIZATION/DEEPSEEK-AI[19] 商业化进程 - 新版价格表将于2025年9月6日凌晨生效 同时取消夜间时段优惠[16] - 当前至9月6日前为过渡期 仍按原价格政策计费[16] - API服务资源已完成扩容以支持新定价策略[16]
DeepSeek-V3.1发布:更高效思考、更强Agent能力、更长上下文
生物世界· 2025-08-21 16:00
混合推理架构 - 引入混合推理架构 支持深度思考模式和非思考模式自由切换[2][3] - 深度思考模式适用于数学计算和复杂逻辑分析等深度推理任务 推理效率更高[3] - 非思考模式适用于日常对话和信息查询等轻量级任务 响应更迅速[4] Agent能力提升 - 通过Post-Training优化大幅提升工具使用和智能体任务表现[6] - 编程智能体在代码修复和命令行终端任务中表现优于前代模型 所需轮数更少效率更高[6] - 搜索智能体在多步推理搜索和多学科专家级难题测试中性能大幅领先DeepSeek-R1-0528[7] - SWE-bench指标达到66.0 较DeepSeek-V3-0324的45.4提升45%[7] - Terminal-Bench指标达到31.3 较DeepSeek-V3-0324的13.3提升135%[7] - Browsecomp指标达到30.0 较DeepSeek-R1-0528的8.9提升237%[8] - Browsecomp中文指标达到49.2 较DeepSeek-R1-0528的35.7提升38%[8] 思考效率优化 - 采用思维链压缩训练 输出Token减少20%-50%的情况下任务表现仍与DeepSeek-R1-0528持平[9] - 实现更快的响应速度和更低的API调用成本[9] API升级 - 上下文扩展至128K 处理长文档能力增强[10][12] - 新增strict模式Function Calling 确保函数调用符合Schema定义[12] - 支持Anthropic API格式 可接入Claude Code框架[12] 模型开源与定价 - Base模型和后训练模型已在Hugging Face和魔搭平台开源[11] - 使用UE8M0 FP8 Scale参数精度 分词器和chat template有较大调整[11] - API价格自2025年9月6日起执行新版价格表并取消夜间时段优惠[11]