Agent能力
搜索文档
从开源最强到挑战全球最强:DeepSeek新模型给出了解法
观察者网· 2025-12-02 19:38
模型发布核心信息 - 12月1日,公司发布两个正式版模型:面向日常使用的DeepSeek-V3.2和面向极致探索的DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2是9月底实验版V3.2-Exp的正式版,平衡推理能力与输出长度,适合问答场景并强化了Agent能力,官方网页端、App和API均已更新 [1][4] - Speciale版本是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,目标是将开源模型推理能力推向极致,目前仅以临时API服务形式开放 [1] 模型性能表现 - 在公开推理测试中,V3.2已达到GPT-5水平,仅略低于Google Gemini 3 Pro,相比Kimi-K2-Thinking输出长度大幅降低,减少计算开销与用户等待时间 [6] - Speciale在多个推理基准测试中超越Gemini 3 Pro,包括美国数学邀请赛(96.0分)、哈佛MIT数学竞赛(99.2分)和IMO(84.5分) [7] - 在编程与理工科博士生测试中,Speciale仍略逊于Google顶级模型,如LiveCodeBench(88.7分)和GPQA Diamond(85.7分)低于Gemini 3 Pro的90.7分和91.9分 [7] 技术架构创新 - 公司设计了DSA(DeepSeek稀疏注意力)机制应对长文本计算量爆炸,该机制像图书管理员通过“闪电索引器”只检索关键信息,大幅降低计算复杂度 [8] - V3.2的核心亮点是“Thinking in Tool-Use”(思考型工具调用),这是AI Agent领域的“Interleaved Thinking”(交错思维链)技术的重要背书 [8][9] - 该技术将冗长、重度依赖工具的任务转化为稳定的“计划→行动→反思”循环,通过复用假设与部分结论减少多轮任务中的“状态漂移”与重复性错误 [9] 战略方向与行业定位 - 公司将“Agent能力”提升到与“推理能力”同等重要的战略位置,试图通过Agent能力将模型从“聊天机器人”进化为真正的“数字劳动力” [13] - 从经济维度看,企业真正愿意付费的是“降本增效的行动”而非“更优美的回答”,Agent使LLM从“对话式AI”进化为“动作式AI”以产生商业闭环 [13] - 公司思路已从工具转变为基础设施提供商,大模型正演变成调度工具的通用操作系统,模型是内核,Agent是用户态程序,插件则是工具 [14] 行业竞争格局 - 过去一年开源大模型生态集体爆发,阿里云Qwen系列、月之暗面Kimi、智谱GLM和MiniMax M系列均取得超越当时顶级闭源模型的成果 [1] - Google Gemini 3.0 Pro的发布重新定义了“全球最强”,其强劲性能让开源和闭源的差距瞬间又变成了一道新的天花板 [2] - 开源模型存在三个关键缺陷:对标准注意力机制的过度依赖、后训练阶段计算投入不足、Agent领域泛化能力和指令遵循能力存在明显差距 [15] 未来发展路径 - 公司计划通过增加预训练计算量填补知识空白,并优化模型推理链的“智能密度”提高效率,让模型学会“少说话、多办事” [16] - 研究员Zhibin Gou表示,训练后的瓶颈需通过优化方法和数据解决,而非仅等待更好的基础模型,持续扩大模型规模、数据量、上下文和强化学习 [17] - 公司用实打实的模型证明Scaling没死只是换了战场,当行业讨论Scaling Law是否撞墙时,公司想证明持续扩展的可能性 [19]
阿里为什么一定要做千问 APP?
36氪· 2025-11-18 18:41
阿里千问App产品发布 - 阿里巴巴的千问App公测版于11月17日正式上线,用户可免费调用与GPT-5性能相当的Qwen3-Max推理模型及Qwen3-千问模型,以解决工作、学习和生活中的问题 [2] 阿里AI战略定位 - 千问App被阿里内部定性为战略级产品,直指“中国的ChatGPT”,标志着公司在AI领域的战略迈出关键一步 [5] - 公司此前已拥有夸克App、通义App等C端AI产品,且通义千问开源模型在全球获得良好口碑,此次推出千问App是重大战略选择而非小范围尝试 [5] 外部环境与竞争态势 - 千问App上线前夕,美国政府放出风声指控阿里可能涉嫌“军方合作”等事项,或上“黑名单”,阿里迅速回应否认指控 [7] - 阿里在此时推出对标ChatGPT的产品并定义其占据生态高位,表现出“承压向前走”的姿态 [7] - 阿里的Qwen大模型和Deepseek在硅谷引发“Qwen Panic”,因模型规格丰富、局部性能超越GPT-5,成为硅谷闭源模型外的可替代选择 [7][8] - Qwen通过开源机制推广“平权”,与硅谷闭源AI的“霸权”模式形成对立,可能破坏美国巨头依靠巨额投入构建的技术壁垒 [8][9] - 千问App通过免费路径推广C端应用,与硅谷AI圈形成截然不同的路径选择 [12] 阿里推出千问App的内在驱动 - AI产品形态已从单纯的大语言模型chatbot发展为以Agent能力为核心的未来趋势,千问App作为用户入口旨在连接模型能力与物流、电商、金融等现实世界履约服务 [13] - 阿里拥有电商、物流、支付等丰富场景优势,千问App可有效打通这些能力,此时布局具有极高战略价值 [13] - 公司需前瞻用户行为变化,避免因竞争对手构建AI入口而导致自身在价值链中被挤压至后端,失去对场景价值链的掌控权 [17] - 推出千问App是阿里将开源模型能力投射到应用端、构建新产品体系和产业链话语权的必然选择 [17]
DeepSeek-V3.1 发布,官方划重点:Agent、Agent、Agent!
Founder Park· 2025-08-21 16:16
核心产品升级 - 推出混合推理架构 单一模型同时支持思考与非思考双模式 用户可通过深度思考按钮自由切换[5][7] - 上下文窗口扩展至128K 显著提升长文本处理能力[7] - 采用思维链压缩技术 思考模式输出token数量减少20%-50% 非思考模式输出长度也显著缩短[12] 智能体性能突破 - 工具使用与智能体任务表现通过后训练优化大幅提升[8] - 编程智能体在SWE-bench评测达66.0分 较V3-0324版本45.4分提升45%[9] - 多语言代码修复能力达54.5分 较前代29.3分提升86%[9] - 终端命令行评测31.3分 较前代13.3分增长135%[9] - 搜索智能体在browsecomp中文测试达49.2分 较前代35.7分提升38%[11] 技术架构创新 - 基础模型在V3版本基础上额外训练840B tokens[15] - 采用UE8M0 FP8 Scale参数精度 分词器与chat template较V3版本有重大变更[15] - 提供Strict Mode Function Calling Beta接口 确保输出严格符合Schema定义[14] - 新增Anthropic API格式兼容 可无缝接入Claude Code等框架[14] 开源生态建设 - 基础模型与后训练模型已在Huggingface和魔搭平台全面开源[15][19] - 开源组织路径分别为HUGGINGFACE.CO/DEEPSEEK-AI和MODELSCOPE.CN/ORGANIZATION/DEEPSEEK-AI[19] 商业化进程 - 新版价格表将于2025年9月6日凌晨生效 同时取消夜间时段优惠[16] - 当前至9月6日前为过渡期 仍按原价格政策计费[16] - API服务资源已完成扩容以支持新定价策略[16]
DeepSeek-V3.1发布:更高效思考、更强Agent能力、更长上下文
生物世界· 2025-08-21 16:00
混合推理架构 - 引入混合推理架构 支持深度思考模式和非思考模式自由切换[2][3] - 深度思考模式适用于数学计算和复杂逻辑分析等深度推理任务 推理效率更高[3] - 非思考模式适用于日常对话和信息查询等轻量级任务 响应更迅速[4] Agent能力提升 - 通过Post-Training优化大幅提升工具使用和智能体任务表现[6] - 编程智能体在代码修复和命令行终端任务中表现优于前代模型 所需轮数更少效率更高[6] - 搜索智能体在多步推理搜索和多学科专家级难题测试中性能大幅领先DeepSeek-R1-0528[7] - SWE-bench指标达到66.0 较DeepSeek-V3-0324的45.4提升45%[7] - Terminal-Bench指标达到31.3 较DeepSeek-V3-0324的13.3提升135%[7] - Browsecomp指标达到30.0 较DeepSeek-R1-0528的8.9提升237%[8] - Browsecomp中文指标达到49.2 较DeepSeek-R1-0528的35.7提升38%[8] 思考效率优化 - 采用思维链压缩训练 输出Token减少20%-50%的情况下任务表现仍与DeepSeek-R1-0528持平[9] - 实现更快的响应速度和更低的API调用成本[9] API升级 - 上下文扩展至128K 处理长文档能力增强[10][12] - 新增strict模式Function Calling 确保函数调用符合Schema定义[12] - 支持Anthropic API格式 可接入Claude Code框架[12] 模型开源与定价 - Base模型和后训练模型已在Hugging Face和魔搭平台开源[11] - 使用UE8M0 FP8 Scale参数精度 分词器和chat template有较大调整[11] - API价格自2025年9月6日起执行新版价格表并取消夜间时段优惠[11]
DeepSeek-V3.1正式发布
第一财经· 2025-08-21 15:53
产品升级 - DeepSeek-V3 1正式发布 采用混合推理架构 同时支持思考模式与非思考模式 [3] - 相比DeepSeek-R1-0528 新模型思考效率提升 可在更短时间内给出答案 [3] - 通过Post-Training优化 新模型在工具使用与智能体任务中表现有较大提升 [3] 平台服务更新 - 官方App与网页端模型已同步升级为DeepSeek-V3 1 用户可通过深度思考按钮自由切换思考模式与非思考模式 [3] - API同步升级 deepseek-chat对应非思考模式 deepseek-reasoner对应思考模式 上下文扩展至128K [3] - API Beta接口支持strict模式Function Calling 确保输出Function满足schema定义 [3] - 增加对Anthropic API格式支持 可轻松将DeepSeek-V3 1能力接入Claude Code框架 [4] 价格调整 - 北京时间2025年9月6日凌晨起 执行新版API接口调用价格表 取消夜间时段优惠 [4] - 9月6日前所有API服务仍按原价格政策计费 [6]
官宣!DeepSeek-V3.1 发布,API调用价格低至0.5元/百万Tokens
新浪科技· 2025-08-21 15:05
API价格调整 - 公司将于北京时间2025年9月6日00:00起调整DeepSeek开放平台API接口调用价格 [1] - 输入价格调整为缓存命中0.5元/百万tokens 缓存未命中4元/百万tokens [1] - 输出价格调整为12元/百万tokens [1] 技术升级 - 新版本DeepSeek-V3.1采用混合推理架构 支持思考模式与非思考模式自由切换 [3] - 相比DeepSeek-R1-0528版本 新模型思考效率显著提升 能在更短时间内给出答案 [3] - 通过Post-Training优化 模型在工具使用与智能体任务中的表现获得较大提升 [3] 产品部署 - 官方App与网页端模型已同步升级至DeepSeek-V3.1版本 [3] - 用户可通过"深度思考"按钮实现思考模式与非思考模式的自由切换 [3]
大模型专题:2025年大模型智能体开发平台技术能力测试研究报告
搜狐财经· 2025-08-14 23:48
测试概述 - 测试背景聚焦大模型驱动的智能体在产业智能化转型中的多场景渗透态势,评估其知识增强、流程编排和智能决策能力 [7] - 测试选取阿里云百炼、腾讯云智能体开发平台、扣子及百度智能云千帆四个平台,围绕RAG能力、工作流能力和Agent能力展开 [7] - 测试方法构建标准化框架,涵盖场景构建、数据集设计、智能体配置及问题集设计,确保与实际业务高度贴合 [11][12] RAG能力测试 - 文本问答表现优异,单文档及多文档问答准确率超80%,但拒答与澄清处理差异显著,腾讯云对知识库外问题实现100%拒答 [20][21] - 结构化数据问答中百度智能云千帆表现稳定,多表关联查询准确率较高,阿里云百炼和扣子存在信息遗漏与聚合误差 [23][27] - 图文问答中阿里云百炼、腾讯云及扣子图片识别能力较强(83.3%-91.7%),但配图输出率分化,百度智能云千帆因流程bug识别率低 [30][33] 工作流能力测试 - 订单修改场景端到端准确率61.5%-69.2%,腾讯云意图识别准确率达93.3%,参数提取是主要差异点 [36] - 各平台在意图识别环节准确率达100%,但阿里云百炼和腾讯云参数提取准确率(75%)高于扣子和百度智能云千帆(61.5%) [37] - 工作流配置呈现差异化设计,腾讯云采用全局Agent机制,阿里云百炼和扣子分离对话与任务执行引擎 [40] Agent能力测试 - 单工具调用完成率83%-92%,多工具协同及提示词调用有提升空间,腾讯云因工具生态完整表现均衡 [48][50] - 任务分解能力标准化,如行程规划场景均能识别路径规划+天气查询+联网搜索工具组合需求 [48] - 平台工具生态依赖自身资源,百度整合文库/百科,腾讯打通文档/地图,扣子支持轻量化插件开发 [49] 总结与展望 - 平台基础能力趋同但路径分化,需在场景深度适配、技术链厚度构建、生态广度拓展上持续发力 [1] - 当前技术需优化自然语言到结构化查询的精准映射,增强字段格式兼容性校验 [28] - 工作流系统仍依赖人工干预,需结合业务经验与技术特性进行动态校准 [43]
全球知名Agent应用Perplexity CEO点赞阿里千问
快讯· 2025-07-24 10:56
阿里开源Qwen3-Coder获业界高度评价 - Perplexity CEO公开称赞Qwen3-Coder为"令人惊叹的成绩"并强调"开源赢爆了" [1] - Qwen3-Coder在SWE-Bench Multilingual、Aider-Polyglot、Spider2、Mind2Web等多项Agent能力指标中超越美国Claude4模型 [1] - Qwen3-Coder API定价策略具有显著优势 平均价格仅为Claude的三分之一 [1] Qwen3-Coder技术性能表现 - 该模型在多项国际基准测试中取得最佳性能表现 展现全球顶级Agent能力 [1] - 性能指标覆盖多语言编程(SWE-Bench Multilingual)、多语言协作(Aider-Polyglot)、数据库查询(Spider2)及网页交互(Mind2Web)等场景 [1] 市场竞争优势分析 - 技术性能直接对标并超越行业领先的Claude4模型 [1] - 成本优势显著 API价格体系较竞品降低约66% [1]
阿里开源最强AI编程模型Qwen3-Coder,性能比肩Claude4 | 钛快讯
钛媒体APP· 2025-07-23 08:01
模型发布与性能 - 阿里开源通义千问AI编程大模型Qwen3-Coder,编程能力登顶全球开源模型阵营,超越GPT4-1等闭源模型,比肩Claude4 [1] - Qwen3-Coder采用混合专家MoE架构,总参数480B,激活35B参数,原生支持256K token上下文并可扩展至1M长度 [2] - 模型在代码占比70%的7-5T数据上预训练,通过强化学习提升编程任务及智能体任务能力 [3] 技术指标与评测表现 - Terminal-Bench评测得分37-5,高于Claude Sonnet-4的35-5和GPT4-1的25-3 [2] - SWE-bench Verified评测中,w/ OpenHands 500 turns得分69-6,接近Claude4的70-4 [2] - WebArena评测得分49-9,超越GPT4-1的44-3;Mind2Web评测得分55-8,超越Claude4的47-4 [2] - 在工具调用评测BPCL-v3中得分68-7,超越GPT4-1的62-9 [2] 应用场景与商业化 - 模型擅长多步骤长任务,支持Agent调用工具解决复杂编程问题,适用于网页开发、AI搜索、深度研究等场景 [3] - 可大幅提升编程效率,代码测试、查询生成等工作从数小时降至数分钟,降低普通人编程门槛 [4] - 模型已在魔搭社区、HuggingFace等平台开源,将接入阿里AI编程产品通义灵码,API上线阿里云百炼 [4] - 千问系列编程模型全球下载量突破2000万次,阿里巴巴内部及一汽集团、建设银行等头部企业已接入使用 [4]
AI动态跟踪系列(六):OpenAIo3、豆包新品首发,关注原生Agent与多模态推理
平安证券· 2025-04-17 21:10
报告行业投资评级 - 强于大市(维持) [1] 报告的核心观点 - 近期新模型解题思路在思维链CoT基础上更重视模型原生Agent能力和多模态推理能力,全球大模型领域竞争激烈,看好AI主题投资机会 [3][34] - 当前Agent在企业端落地进度靠前,AI应用关注OA/ERP/编程/办公等领域,Agent拉动推理端及整体算力需求,看好国产AI算力产业链 [3][34] 根据相关目录分别进行总结 OpenAI o3、o4 - mini新增图像深度思考与Agent能力,Codex CLI智能体开源推动AI编程生态开放 - 4月17日OpenAI发布o3和o4 - mini,是其迄今最智能模型,核心突破在于图像深度思考和Agent能力 [3][4] - o3是强大推理模型,在多方面推动前沿发展,在多个基准设新SOTA,困难现实任务重大错误比o1少20% [5] - o4 - mini针对快速、经济高效推理优化,在数学、编码和视觉任务表现好,非STEM任务及数据科学领域优于o3 - mini [5] - 图像推理方面,o3和o4 - mini首次在思维链中用图像思考,实现高级推理与多工具无缝结合,o3提供多模态代理体验 [9] - Agent方面,o3和o4 - mini可访问ChatGPT工具及自定义工具,能推理解决问题并快速生成答案 [10] - o3和o4 - mini性价比高于前身,预计实际使用更智能、便宜 [12] - OpenAI发布轻量级编程智能体Codex CLI,支持零配置启动,运行安全,可让用户从命令行体验多模态推理 [15] 豆包1.5·深度思考模型对标全球推理模型第一梯队,视觉理解模型实现更强视觉定位能力 - 4月17日火山引擎发布豆包1.5·深度思考模型等新品,推理模型性能达或接近全球第一梯队,增加视觉理解能力,APP可“边想边搜” [3][17] - 多模态方面,豆包·文生图模型3.0在权威榜单排全球第一梯队,新版本豆包·视觉理解模型视觉定位和视频理解能力提升 [17][28] - 企业级服务方面,发布OS Agent、GUI Agent大模型(豆包1.5·UI - TARS)和AI云原生·ServingKit推理套件 [17] - 截至2025年3月底,豆包大模型日均tokens调用量超12.7万亿,是2024年12月的3倍、发布时的106倍,2024年火山引擎公有云大模型调用量市场份额46.4%居中国第一 [18] - 豆包1.5·深度思考模型采用MoE架构,总参数200B,激活参数20B,有高并发承载能力和20毫秒极低延迟 [21] - 豆包APP基于该模型定向训练实现“边想边搜”,如推荐露营装备经3轮搜索给出细致推荐 [24] - 该模型具备视觉理解能力,可用于国外餐厅点餐、分析航拍地貌、企业项目管理等 [27] - OS Agent解决方案可让企业和开发者构建轻量级应用,复杂应用可调用豆包1.5·UI - TARS模型,该模型已上线火山方舟平台 [32] - ServingKit推理套件可助企业快速部署模型、优化推理、运维可观测,能提高KV cache命中率和TPS吞吐量,降低GPU消耗 [33] 投资建议 - AI应用方面,AI + 企服建议关注泛微网络、致远互联等;AI + 办公推荐金山办公、福昕软件等,建议关注合合信息 [3][34] - AI算力方面,推荐海光信息、龙芯中科等,建议关注寒武纪、景嘉微等 [3][34]