Workflow
智能体时代
icon
搜索文档
AI时代冲击波:APP退居后台,智能体浮出水面。
21世纪经济报道· 2026-01-16 10:03
阿里巴巴千问App上线与AI办事时代开启 - 2026年1月15日,阿里巴巴宣布千问App上线400多项办事功能,标志着其正式从“聊天对话”迈入“AI办事时代” [1] - 千问App基于Qwen最强模型与阿里最丰富生态,接入了淘宝、支付宝、淘宝闪购、飞猪、高德等业务,在全球首次实现点外卖、购物、订机票、订酒店等AI购物功能 [2] - 此前,字节跳动豆包团队在2025年12月发布了豆包手机助手技术预览版,其AI操作手机功能可根据用户指令在多款应用间自动跳转,完成查票订票、商品下单等任务 [2] 从APP时代到智能体时代的范式跃迁 - 行业专家指出,AI的降临正使APP“退居幕后”,意味着从“以应用为中心”的APP时代,跃迁至“以用户意图为中心”的智能体时代 [1][3] - 用户只需用自然方式表达需求,AI智能体便能自动拆解任务、调度后台资源、完成任务闭环,实现“任务零摩擦”的终极便利 [3] - GTI主席高同庆曾预言,传统APP可能沦为智能体背后的被感知被调度资源,特斯拉CEO马斯克甚至预测未来5-6年传统手机与App将消失 [3] 智能体对数字经济流量与效率的宏观影响 - 北京大学光华管理学院教授翁翕指出,智能体将破解我国数字经济发展所面临的流量瓶颈,通过帮助用户处理事务,能在不增加人口的情况下实现流量翻倍 [4] - 智能体通过对海量后台服务的智能编排和调度,打破了原有APP生态形成的“数据孤岛”和“服务壁垒”,极大优化了社会资源供需匹配效率 [4] - 这不仅提升了单个用户的任务完成效率,更在宏观层面促进了整个社会商业活动的流转速度和资源配置效率 [1][4] 竞争逻辑从产品服务转向“人工智能+”生态 - 自2025年8月《国务院关于深入实施“人工智能+”行动的意见》发布以来,“人工智能+”关注度再攀高峰,行业处于应用落地关键窗口期 [7] - 国家发展改革委解读指出,智能经济时代,竞争逻辑会从“基于产品与服务的市场竞争”转向“基于‘人工智能+’的生态竞争” [1][7] - 企业需要将大语言模型、机器学习算法等AI技术深入嵌入战略、创新、组织架构中,通过部署基于AI的生态战略获取竞争优势 [7] 生态接入、流量入口与商业模式变革 - 专家认为,大多数服务导向型APP将“退居后台”,接入头部AI智能体意味着开辟一个全新的、巨大的流量入口,可大大降低企业的获客成本 [8] - 如果竞争对手选择接入而某些企业筑起高墙,其服务将在AI智能体这个新兴流量入口中变得“不可见”,面临被市场淘汰的风险 [8] - 传统“眼球经济”和卖广告的经营模式受到挑战,因为用户可通过智能体直接调用有效信息 [8] - 当所有服务都“API化”后,服务的组合将变得极其灵活,催生出难以想象的新业态,例如AI智能体可根据用户实时情境动态组合不同提供商的服务,生成“千人千面”的解决方案 [9] - 商业化的范式将从“流量购买”转向“意图购买”,品牌方可直接针对用户的特定意图进行服务竞价,实现前所未有的营销精准度 [9]
智能体时代,大厂向应用层渗透的逻辑与路径
搜狐财经· 2026-01-13 12:14
文章核心观点 智能体时代的到来正在重构云大厂、模型大厂与垂直应用厂商之间传统的生态边界 企业需求从流程管理转向结果交付、基础模型对原始知识的直接利用能力增强、以及人机交互范式从“人找应用”变为“应用找人” 这三重变革共同驱动大厂得以跨越行业知识壁垒 直接切入应用层的核心价值地带 这并非意味着应用厂商的全面失守 通过基于任务复杂度与知识复杂度的象限分析模型 可以清晰界定大厂的延长线与应用厂商的护城河 双方的关系正从分工协作转向复杂的竞合模式 未来需要通过新的利益绑定与能力互补 共同构筑智能体时代的产业新轮廓 [1][2][5][11][14][30] 范式迁移:智能体时代大厂越界应用层的驱动逻辑 - **传统壁垒在于深厚的行业Knowhow** 应用层的核心壁垒由对复杂业务流程的深刻理解和对行业专属知识的深度内化构成 例如ERP中一个简单采购流程可能涉及数百个审批节点和复杂对账逻辑 这些重资产的知识积累是大厂的天然短板 因此在过去形成了合作大于竞争的生态平衡 [3][5] - **驱动逻辑一:企业需求从流程管理转向结果交付** 过去企业需求是业务流程的代码化 应用作为管理工具由功能模块堆叠而成 智能体时代 企业核心需求转向辅助决策和结果交付 应用基于模型能力自然生长出结果 例如人力资源领域从管理招聘流程变为高效筛选人才 AI面试官的出现弱化了中间流程管理环节 使大厂得以绕过应用厂商的流程壁垒 直接截流应用价值 [7][8] - **驱动逻辑二:知识治理的重要性弱化** 基础模型能力持续强化 使其能够直接利用海量的原始非结构化文档 如规章制度、技术手册、合同文本等 通过长文本处理技术在推理阶段实时解析 无需复杂的先期知识治理即可输出准确专业的问答 这大幅降低了大厂涉足特定行业的知识门槛 [9][10] - **驱动逻辑三:入口变化的降维打击** 人机交互范式从“人找应用”重构为“应用找人” 用户从主动操作者回归为意图发令者 交互方式转向对话 对话框成为中心化调度中枢 理解用户意图并调度后台工具 大厂通过构建超级智能体掌握入口控制权 将独立应用变为平台插件 应用厂商从独立服务商降级为平台能力提供者 [11] - **应用厂商的防护区在于定制化服务与低容错场景** 大厂追求极致边际成本递减 难以在细分行业投入大量人力做贴身服务 在极其严肃、不容许概率性偏差的低容错率场景中 大厂完全基于模型的输出也难以达到要求 深度的客户贴身服务和对极低容错业务的兜底能力 构成应用厂商的最后堡垒 [12][13][14] 象限分析:基于任务与知识维度的大厂延长线判定模型 - **判定维度一:任务复杂度** 坐标轴左端是明确的单点决策或执行任务 右端是涉及多方协同的端到端复杂流程 大厂的典型扩张特征是单点任务导向 例如BI工具的核心取数、可视化呈现等单点任务 其价值随模型能力增强而锐减 可能成为大厂模型的标配功能 然而 任务的复杂度一旦上升到由复杂规则驱动的大型企业生产、采购等流程层面 大厂的越界便会遭遇巨大阻力 [16] - **判定维度二:知识复杂度** 坐标轴底部是通用知识 随着上下文窗口无限扩大 模型已实现对企业公开知识库的全量吞噬 例如共享服务中心SSC这类应用价值因此大幅缩水 坐标轴高处是涉及隐性知识与业务机理的专属知识 这些是应用厂商深厚的护城河 [17] - **第三象限“大厂吞噬区”:高风险地带** 此处应用任务复杂度低、知识复杂度低 大厂的模型原生能力可直接覆盖所有核心需求 例如前端代码生成 由于前端语言高度通用且有海量公开库供模型训练 大厂的Coding产品展现出统治级优势 垂直应用厂商在此区域几乎没有还手之力 [20] - **第二象限“融合共生区”:中等风险地带** 此处应用处理简单的单点任务 但背后知识壁垒极高 例如行业专用数据库或供应链风险管理系统 其背后庞大的私有规则库和历史数据是大厂难以触及的 大厂策略往往不是取代 而是将其作为插件接入自身生态系统 形成大厂提供模型底座、应用商提供知识插件的融合模式 例如ICT领域数据库IDC、金融数据终端FactSet已接入AWS的Quick Research [20] - **第四象限“流程重塑区”:蕴含变数的战场** 此处应用涉及复杂流程 但所依赖知识相对通用 大厂可能通过多智能体编排技术 用轻量化的智能体协作逻辑重构原本笨重的软件架构 例如CRM 传统销售流程需依次点击、录入并遵循预设路径 大厂超级智能体可同时启动挖掘线索、生成竞品分析、挖掘标杆案例等多个专项智能体 将人工执行的CRM变为智能体驱动的新应用 [21] - **第一象限“护城河区”:应用厂商最坚实的阵地** 此处应用涉及端到端复杂流程且具备极高专属知识壁垒 如ERP系统或银行核心交易系统 这些系统对数据私有性、系统确定性和事务一致性要求极高 完全无法容忍基于概率的模型随机性 大厂定位将长期维持在基础设施提供者 [22] 生态重塑:应用厂商的生存抉择与大厂的进击边界 - **应用厂商在“大厂吞噬区”的突围之道:向第二象限迁移** 厂商必须从单纯功能提供者转变为行业隐性知识的注入者 例如BI工具需深度整合特定的行业分析逻辑 如将银行分支行长的分析决策逻辑内化 代码生成类应用需转向具有高复杂度的后端业务代码生成 如聚焦嵌入式语言为生产制造企业提供服务 [24] - **应用厂商在“融合共生区”的突围之道:转向插件化生态** 厂商应主动拥抱大厂生态 定位为大厂超级智能体背后的专业插件 如IDC和FactSet成为AWS插件 这种转变可能使商业模式从订阅付费转向按用量或调用次数收费 [25][26] - **应用厂商在“流程重塑区”的突围之道:能力原子化与API-First** 厂商需将复杂业务流程能力进行模块化解构 使其更容易被调度和集成 这使其成为企业基于原子能力重塑应用的首选 也是大厂打造超级智能体时所需的业务组件最佳提供商 需保证自身应用API处于第一顺位 成为流程中不可替代的执行节点 [26] - **应用厂商在“护城河区”的突围之道:加速现有业务AI赋能** 厂商应致力于自研智能体 使自身应用在复杂流程和知识之上 升级为能够预测风险、自动优化的应用 例如ERP厂商通过AI赋能增加供应链解决方案能力 不仅能预测风险更能给出替代方案 [26][27] - **大厂在“大厂吞噬区”的战略:内嵌自研** 对于通用知识库、智能问数、代码助手等 大厂采取将其内嵌至模型或平台的自研策略 使其成为模型的基础能力 [28] - **大厂在“融合共生区”的战略:构建生态** 对于需要漫长行业积累与维护的专属知识领域 大厂表现出战略克制 通过生态伙伴最快速度补齐平台在专业领域的短板 [28] - **大厂在“流程重塑区”的战略:重做应用** 此处是大厂真正的战略主战场 目标是通过智能体重塑某一应用 例如通过全量采集、标注销售线下数据并训练专门销售模型 提供金牌销售应用直接替代销售人员成单 应用厂商已搭建的工具将成为大厂销售应用的组件 [28] - **大厂在“护城河区”的战略:回归基础设施提供者** 鉴于该区域业务逻辑复杂且容错率极低 大厂成功概率低 策略应是通过提供模型、算力、开发者工具等支持 帮助核心应用厂商实现AI转型 [29] - **未来的竞合关系转向复杂共生** 应用厂商与大厂关系从简单分工协作转向复杂竞合 应用厂商必须在知识或任务两者中选择自身竞争壁垒 成为细分领域无可替代的服务提供商 大厂维持生态的开放性与透明度是其能否在应用层站稳脚跟的关键 需要吸引更多具有高价值专属知识、复杂业务流程能力的应用厂商加入 [30]
华为赵蕊:金融AI成功90%取决于工程能力 战略目标需从“可用”转向“好用”
新浪财经· 2025-12-30 09:39
行业趋势:AI在金融业的应用阶段与核心挑战 - AI应用正从核心生产环节的“可用”阶段迈向创造业务价值的“好用”阶段 [3][8] - 其中高达90%的成功取决于工程化能力 [3][8] - 大模型发展正进入“智能体(Agentic)时代”,AI将调用外部工具并自主完成任务,实现业务自闭环 [3][8] 行业影响:AI将引发的结构性变革 - 重塑流量入口:从被动APP点击转向主动识别意图的智能体服务 [3][8] - 重新定义金融产品与服务:实现深度定制化 [3][8] - 以智能体重塑全用户旅程:使金融服务更加普惠 [3][8] - 重构运营对象与形态:智能助理将成为影响客户心智的主渠道 [3][8] - 最终影响人才与组织:迈向“人机共存”的新状态 [3][8] 公司战略:华为的金融AI全栈能力 - 华为金融AI战略旨在支撑行业从“可用”到“好用” [3][8] - 提供从昇腾算力底座、一站式AI开发平台(ModelArts)到智能体开发与运行平台(Versatile Agent)的全栈能力 [3][8] - 辅以人才培养课程 [3][8] 应用场景:与头部金融机构联创的典型案例 - **手机银行APP场景**:采用盘古7B等小参数模型,通过数据合成与精细微调,将精度提升至95%以上,同时优化算力利用并降低成本 [4][9] - 所构建的多级智能体系统支持多轮交互与动态跳转,端到端时延可控制在2秒以内 [4][9] - **智能风控场景**:核心是将风控专家经验转化为“思维链”数据,并选用具有“慢思考”能力的大模型进行强化学习,使模型兼具专家知识与复杂逻辑推理能力 [4][9] - 通过构建从数据合成到模型调优的完整开发流水线与持续运营机制,确保风控模型能实时更新,保持高精准度 [4][9] - **报告生成场景(信贷、投研)**:创新采用“深度研究(Deep Research)”开发范式,智能体可自动进行任务编排,通过与外部数据源和知识库交互、检索、验证与判断,最终生成高质量报告 [4][10] - 该范式有效提升了报告的准确性与生成效率 [4][10] 核心观点:金融业AI应用的关键在于工程化 - 金融业作为强监管、高标准的行业,简单套用通用模型或外挂知识库“不可用”,真正的挑战在于工程化 [5][10] - 以手机银行为例,解决系统性时延、精度、拟人化与成本问题,需具备强大的动态业务编排能力,并完成复杂的模型调优、智能体调优、系统集成及全链路监控体系构建 [5][10] - 华为正将这类工程能力沉淀至平台或转化为专业服务 [5][10] 实施建议:金融机构成功应用AI的要点 - AI应是公司级战略,需一把手牵头 [6][10] - 业务部门必须深度参与,构建“技、业、数”融合团队 [6][10] - 坚持“好用”而非“盆景”式应用,关注日调用量等实际指标 [6][10] - 采用多元化模型与开放架构 [6][10] - 结合专业领域工程经验 [6][10] - 构建企业级AI流水线及符合监管的安全治理体系 [6][10] - 建设高质量数据集 [6][10] - 认识到90%的成功取决于工程能力 [6][10] - 金融机构需以战略决心和定力,在监管指导下构建安全应用环境与适配组织,围绕价值场景释放业务价值 [6][10]
模型免费、推理翻倍:Gemini 3 Flash 深夜炸场,发放智能体时代的「入场券」
36氪· 2025-12-18 09:21
产品发布与定位 - 谷歌正式推出Gemini 3 Flash模型,并已将其设置为Gemini应用中的默认模型,全面取代之前的Gemini 2.5 Flash,全球数亿用户可免费体验其推理能力 [1] - 该模型定位为打破“高智”、“低成本”与“响应快”之间的不可能三角,其价格不到Gemini 3 Pro的四分之一,旨在提供高频、极速的开发工作场景支持 [1][2] - 模型已通过Google AI Studio、Gemini API和Vertex AI同步上线,标志着谷歌在大模型竞技场上拆除了速度与智能的最后屏障 [3] 性能表现与基准测试 - 在评估编码代理能力的权威基准测试SWE-bench Verified中,Gemini 3 Flash得分高达78%,超越了Gemini 2.5系列,并在逻辑深度上反超了Gemini 3 Pro [1] - 在衡量智能体编码与长程工具调用的SWE-bench和Toolathlon测试中,其得分不仅反超了Gemini 3 Pro,甚至在特定维度上压制了GPT与Claude的顶级型号 [3] - 根据第三方分析基准测试,Gemini 3 Flash运行速度达到了Gemini 2.5 Pro的整整3倍,在处理高容量法律合同、提取定义条款等任务时精准迅速 [5] - 在ARC-AGI-2视觉推理谜题上,Gemini 3 Flash实现了相较于Gemini 2.5 Pro近7倍的提升,但在处理极其复杂的架构设计时,与顶级SOTA模型仍存在差距 [4] 定价策略与成本优势 - Gemini 3 Flash的定价为每百万个输入tokens 0.50美元,每百万个输出tokens 3美元,音频输入价格仍为每百万个输入tokens 1美元 [2] - 其输入成本不到Gemini 3 Pro的四分之一,配合大幅度的缓存优惠,为智能体时代提供了更低的准入门槛 [1][5] - 通过极具竞争力的定价和上下文缓存技术,直接将前沿AI的部署门槛降至冰点,使得高性能、低延迟与极低成本可以同时拥有 [6] 技术特点与应用场景 - 模型具备极低的延迟,可以以几乎实时的速度更新应用程序,适合成为大规模复杂流中快速完成推理、纠错以及自我验证的“大脑” [2] - 面向普通用户推出“零门槛语音建站”功能,用户只需语音描述创意,模型即可在几分钟内将想法转化为功能齐全的应用程序 [2] - 在多模态领域展现出显著统治力,能以秒级速度将复杂的非结构化视频数据转化为可执行的商业计划,证明其“感知即推理”能力已趋于成熟 [6] - 在软件工程领域,其响应速度能让AI跟上工程师的直觉,使“编码Agent”变为近乎实时的同步协作;在法律与金融场景下,能在不牺牲速度的前提下实现15%的准确率提升 [9] 生态整合与战略布局 - Gemini 3 Flash已直接送入谷歌搜索体系,成为谷歌搜索AI模式的默认配置,使用户能直接感受到其强大性能 [7] - 谷歌针对用户需求进行了全面的模型产品布局:由Flash承担高频、极速的普惠性智能交互,由Pro承载低频但高价值的逻辑攻坚,未来AI交互将是根据任务复杂度进行的动态算力分配与智能分层 [7][8] - 模型在编码平台(如Cursor和DevIn)、法律金融平台(如Harvey和Box AI)、深度伪造检测平台(如Resemble AI)以及游戏开发领域(如Latitude)均已得到应用,证明了其从原型开发到大规模落地的能力 [9][11] - 结合在美国市场推出的“Thinking with 3 Pro”模式,谷歌旨在对复杂数学编程等重度计算任务进行动态可视化布局与交互式模拟呈现,而不仅仅是常规的AI检索 [8]
城记 | 续写智能体时代的“Deepseek时刻”,长三角AI产业何以爆款频出?
新华财经· 2025-11-27 23:24
人工智能时代趋势与长三角定位 - 2025年人工智能发展迈入“能思考、会行动、可协同”的智能体时代,即“Deepseek时刻”,AI从“工具型产品”向“智能体系统”跨越 [1] - 中国AI正完成从“中国制造”(应用模仿)到“中国创造”(算法原创)的战略转变,从全球AI竞赛的“跟跑者”加速成为关键赛道的“领跑者” [1] - 长三角地区近一个月以来AI成果密集“上新”,加速成为智能体时代的“爆款策源地” [1] 核心技术突破与全模态发展 - 上海AI企业MiniMax发布开源文本大模型M2,以仅100亿的激活参数(总参2300亿)构建轻量级架构,在全球权威测评Artificial Analysis中跻身前五、位列开源模型第一 [2] - Meta在大规模实验中采用了MiniMax原创的CISPO损失函数与FP32 Head技术,标志着中国AI算法首次被硅谷头部企业深度整合 [2] - MiniMax推出技术“全家桶”,构建起“文本+视频+语音+音乐”的全模态产品矩阵,标志着中国AI企业在全模态领域实现全面突破 [2] 垂直领域专业化应用 - 南京南智光电发布国内首个光子专用大模型升级版,系统可一键生成设计方案与核心参数,仿真效率提升30% [3] - 合肥智象未来团队研发的“灵感智能体”将复杂视觉内容创作转化为简洁对话交互,用户在同一界面内即可完成文本生图、指令修图及视频生成全流程操作,并斩获ACM国际多媒体会议最佳演示奖 [3] 场景应用与市场验证 - 杭州蚂蚁“灵光”应用上线后,4天内紧急扩容8轮,下载量迅速突破百万,截至11月24日下载量已突破200万,增速超过ChatGPT、Sora2等全球主流AI产品 [4] - 阿里千问APP开启公测一周后下载量突破千万,其Qwen3模型在全球AI大模型实时投资比赛“Alpha Arena”中斩获冠军 [5] - Qwen与DeepSeek两款中国AI大模型已成为全球唯二实现盈利的产品,而美国四大顶尖模型全部处于亏损状态,其中GPT-5亏损超60% [5] 产业生态与算法集聚 - 苏州工业园区新增4个算法通过国家网信办备案,截至目前已有35个算法通过备案,占苏州市总量的38%、江苏省的14%,均位列省市第一 [5] - 园区初步构建从基础层、技术层到应用层的完整生态,形成以“AI+制造”“AI+科研”“AI+政务”为核心的“3+N”人工智能应用体系,累计已有7款大模型通过国家网信办生成式人工智能服务备案 [5][6] 政策支持与区域协同发展 - 上海人工智能2024年产业规模突破4000亿元,同比增长超7%,预计2025年将突破4500亿元,并形成“西有徐汇模速空间、东有浦东模力社区”的“双AI小镇”发展格局 [7] - 杭州全国规模最大的AI开源社区“魔搭社区”开发者中心正式启用,汇聚超12万个开源模型、服务全球超2000万开发者 [7] - 苏州提出到2026年底实现“企业超3000家、核心产业规模年均增长超20%”的目标,明确打造20个市级AI产业园、350个垂类大模型、200个典型应用场景,同时组建超500亿元AI基金群,推动智算规模达17000PFLOPS [8] - 南京提出到2026年实现“核心产业规模600亿元、统筹智能算力超6000P FLOPS”的目标,计划引培基础大模型1个、打造行业大模型20个以上 [8] - 合肥已建成运行人工智能计算中心,正加快推进首个基于全国产华为昇腾910B芯片的3000P级通用人工智能算力集群建设 [9]
头豹研究院:智能体时代已来,从模型能力到场景价值
头豹研究院· 2025-11-18 22:05
报告行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20][21][22][23][24][25][26][27][28][29][30][31][32][33][34][35][36][37][38][39][42][43] 报告核心观点 - 智能体时代已来临,AI Agent作为大模型核心落地形态,正从模型能力走向场景价值,重塑行业生态 [1] - 到2029年,中国大模型市场规模将超过1,413亿元,智能体市场规模将突破357亿元,年均增速达52.4%,展现出强劲的商业化放量潜力 [8][9] - AI大模型正通过内部流程整合与效率提升、外部产品创新与用户体验优化的双重路径,推动企业价值体系重构 [18][19] AI大模型市场规模及增长预测 - 中国大模型市场规模预计将从2023年的147亿元增长至2029年的1,413亿元 [8][9] - 中国智能体市场规模预计将从2023年的15亿元增长至2029年的357亿元,年均增速高达52.4% [8][9] 大模型市场规模增长驱动因素 - 算力与基础设施创新驱动成本结构优化:AI芯片性能提升及云计算平台成熟使得算力成本显著下降,推动模型训练和部署的经济可行性 [12][13][14] - 数据资源质与量的指数级增长与治理能力提升:多模态数据集成与先进的数据治理技术保障了训练数据质量与合规性 [15] - 行业数字化转型及智能化升级需求持续爆发:金融、医疗、制造等领域对智能认知和自动化决策的需求驱动市场高速扩张 [16] AI大模型赋能企业价值体系重构 - 企业内部赋能价值体现:57%的企业认为AI大模型能提升员工效率,53%的企业认为其能加速决策、减少重复劳动 [19] - 企业外部赋能价值体现:46%的企业认为AI大模型能优化用户体验,34%的企业认为其能创新产品形式和业务价值 [19] AI大模型的商业化发展现状 - 商业化呈现“三层演进”格局:嵌入式应用最为成熟,原生应用探索模式与用户转化,智能硬件仍处高成本与场景验证阶段 [22][23] - 大模型嵌入式应用将AI能力注入现有成熟软件,依托庞大用户基础,商业模式清晰 [23] - 大模型原生应用围绕AI核心能力构建全新服务,但商业模式尚在探索,用户转化与留存是关键 [23] AI大模型产品使用的流量分布 - To C网页端产品流量分布:AI对话助手占比60.2%,AI搜索引擎占比30.4%,AI写作助手占比4.0% [25][26] - To C移动端APP产品流量分布:AI对话助手占比83.8%,AI图像视频生成占比6.7%,AI搜索引擎占比4.1% [25][26] AI Agent智能体产品体系 - 产品体系呈现通用型、业务型与行业型三层结构 [27] - 通用型包括智能体开发平台(如百炼) [27] - 业务型包括代码Agent、办公Agent、客服Agent、营销Agent、知识助手Agent、数据分析Agent [27] - 行业型包括金融Agent、医疗Agent、教育Agent、工业Agent等 [27] AI Agent智能体供给场景分布 - 供给端以通用场景为主,占比68%,因其具备广泛市场需求、技术通用性和成本效益 [28][29] - 从业务场景看,办公场景占比30%,营销场景占比11%,知识助手场景占比10% [29] - 从行业场景看,通用行业占比68%,金融行业占比8%,医疗行业占比6% [29] AI Agent智能体行业需求场景分布 - 行业需求集中于高频交互场景:电商占比30%,金融占比20%,教育占比20% [32] - 先进制造承接数字化转型增长,需求占比20% [32] - 娱乐与医疗依托垂直细分场景释放潜力,需求各占比5% [32]
苹果前CEO发声:OpenAI成苹果AI时代劲敌
搜狐财经· 2025-10-13 12:45
核心观点 - OpenAI已被视为苹果几十年来的首个真正竞争对手,人工智能并非苹果特别突出的优势领域 [1] 人工智能竞争格局 - 苹果在人工智能竞赛中表现不尽如人意,与OpenAI、谷歌、亚马逊和Meta等公司相比显得滞后 [3] - 苹果计划对人工智能助手Siri进行全面升级的项目遭遇延迟,是产品推出方面的一大挫折 [3] 领导层与战略转型 - 外界猜测苹果首席执行官蒂姆·库克可能很快退休 [3] - 无论谁接替库克,都需要带领苹果从应用时代迈向智能体时代 [3] - 在智能体时代,智能体将取代众多应用,自主完成复杂任务,对苹果现有的业务模式产生巨大冲击 [3] 行业模式演变 - 智能体人工智能将助力知识工作者自动完成繁重的工作流程 [3] - 更多科技公司转向基于订阅的商业模式,该模式被认为是根据需求持续付费,比以应用为中心、销售工具和产品的模式更具优势 [3] 关键人物动态 - 苹果前设计主管乔尼·艾维最近出现在OpenAI [4] - OpenAI以超过60亿美元的价格收购了艾维的设备初创公司 [4] - 艾维希望团队研发的设备能解决智能手机和平板电脑引发的问题 [4] - 艾维与OpenAI首席执行官山姆·奥特曼的合作,或许能为大语言模型领域带来新的突破 [4]
理想MindGPT 3.1被大大低估了
理想TOP2· 2025-08-26 23:35
MindGPT 3.1技术能力 - 推理速度达每秒200 tokens 较MindGPT 3.0提升近5倍 显著高于GPT-4o-2024-05-13的每秒79.87 tokens [2][3] - 在工具调用准确率、复杂任务完成率、深度搜索及回复丰富度上较MindGPT 3.0明显提升 [4] - 深度思考模式下在多项基准测试表现优异 包括AIME 2024(0.8625)、AIME 2025(0.7969)、LCB(0.7286)、IFEval(0.8909)、CLUEWSC(0.9539)等 [4] 算法创新与优化 - ASPO算法借鉴DeepSeek R1 GRPO选择性学习核心思想 通过样本难度预估主动管理训练池 保留预测准确率20%-80%样本进行梯度更新 [7][8][9] - AWE算法降低高难度token损失权重 减少梯度更新干扰 类比"难题暂放"学习策略 [9] - 强化学习窗口长度动态调整 性能瓶颈时采用较长窗口 稳定收敛阶段切换至较短窗口 [9] 研发战略与价值观 - 明确反对刻意刷榜行为 基座模型负责人强调更关注用户体验与实际能力而非评测分数 [4][5] - 研发资源聚焦模型推理速度提升与智能体工具调用能力建设 注重长期能力构建 [5] - 每年投入几千万元与北京市自然科学基金委员会办公室、顺义区科学技术委员会发起联合基金 面向高校老师获取未发表研究成果 [10] 产品化与用户价值 - 卡片大师Agent体现理想AI产品化能力 其底层依赖MindGPT 3.1技术支撑 [1] - 广义信息交互需求涵盖游戏等场景 信息生产方为AI而非人类 物理世界组件调度能力优于手机 [7] - 模型能力提升驱动用户价值涌现 AI时代核心主线为"模型即能力" [5][6] 行业认知与创新内化 - 快速学习并内化AI社会优秀核心思想 如DeepSeek R1 GRPO选择性学习机制 并进行原创优化 [1][9] - AI时代技术评估明确 模型能力提升优先于产品化 后者属于辅助催化剂 [6] - 智能体语言模型具备自主思考与工具调用能力 代表行业技术发展方向 [2][4]
迈向智能体时代“第一步” DeepSeek-V3.1 发布
新京报· 2025-08-21 22:09
模型升级与技术架构 - 公司正式发布DeepSeek-V3.1版本 采用同时支持思考模式与非思考模式的混合推理架构 [1] - 相比DeepSeek-R1-0528模型 DeepSeek-V3.1-Think版本能在更短时间内给出答案 [1] - 通过Post-Training优化技术 新模型在工具使用与智能体任务中的表现获得较大提升 [1] 产品部署与功能特性 - 官方App与网页端模型已同步升级为DeepSeek-V3.1版本 [1] - 用户可通过"深度思考"按钮实现思考模式与非思考模式的自由切换 [1] - 公司宣称此次发布是迈向Agent时代的第一步 [1]
DeepSeek-V3.1震撼发布,全球开源编程登顶,R1/V3首度合体,训练量暴增10倍
36氪· 2025-08-21 20:04
模型技术特点 - 采用混合推理模式 一个模型同时支持思考与非思考两种模式并可自主切换[1] - 总参数量达671B 激活参数为37B 支持128K上下文长度[6][14] - 通过两阶段长上下文扩展策略构建 32K扩展阶段训练规模增加10倍达6300亿Token 128K扩展阶段增加3.3倍达2090亿Token[13] - 使用UE8M0 FP8缩放数据格式训练 确保与微尺度数据格式兼容性[14] - 基于DeepSeek-V3.1-Base通过后训练优化完成 而Base版本基于V3模型训练并进行了8400亿token持续预训练[6][12] 性能表现 - 在SWE-bench测试中获得66.0分 远超V3-0324的45.4分和R1-0528的44.6分[3][4] - 在SWE-bench Multilingual测试中获得54.5分 较V3-0324的29.3分提升86%[4] - Terminal-Bench测试得分31.3分 较V3-0324的13.3分提升135%[4] - Humanity's Last Exam测试获得29.8分 较R1的24.8分提升20%[20] - 在MMLU-Redux测试中 思考模式达93.7分 非思考模式达91.8分 均超过V3-0324的90.5分[15] - GPQA-Diamond测试思考模式获80.1分 接近R1-0528的81.0分[15] - AIME 2024数学测试思考模式获93.1分 超过R1-0528的91.4分[16] - LiveCodeBench测试思考模式获74.8分 超过R1-0528的73.3分[19] - Aider-Polyglot编码测试思考模式获76.3%准确率 超过Claude 4 Opus和Gemini 2.5 Pro[16] 效率提升 - 思考模式输出token减少20%-50% 与R1-0528性能持平但效率显著提升[6] - 推理速度较DeepSeek-R1-0528更快[3] - 在第三方Artificial Analysis基准测试中表现仅次于GPT-OSS[23] 应用能力 - 具备强大智能体能力 支持工具使用和多步骤任务处理[3] - 支持多种Code Agent框架 开发者可自主搭建智能体[16] - 支持Search Agent功能 可通过多轮工具调用流程完成复杂搜索任务[19][20] - 在BrowseComp测试中获30.0分 较R1的8.9分提升237%[20] - 在BrowseComp_zh中文搜索测试中获49.2分 较R1的35.7分提升38%[20] 行业地位 - 成为编程开源领域第一 编码实力超越Claude 4 Opus[1][16] - 是公司对OpenAI GPT-OSS的最强回应[8] - 开启智能体新时代 是迈向智能体时代的第一步[1][16]