Workflow
Agentic Model
icon
搜索文档
年末 AI 回顾:从模型到应用,从技术到商战,拽住洪流中的意义之线(上)
新浪财经· 2026-02-12 20:12
模型 - 2025年是Agentic Model能力提升的关键一年,大模型的推理、编程和多模态能力持续进步,为复杂智能体应用奠定了能力基础,2025年普遍被认为是Agent应用元年 [27][64] - 推理模型在2025年崛起,标志性事件是DeepSeek-R1于2025年1月20日发布,其影响力远超同日发布的Kimi K1.5和更早的OpenAI o1,成为全球首个在大参数规模上复现o1的推理模型 [7][59] - DeepSeek-R1的成功得益于三个关键因素:完全开源最强旗舰版本、技术报告极其详细、以及高亮了仅557万美元的最后一次训练成本,极低的成本引发了美国政商界广泛关注 [7][59] - 推理模型的效果提升主要体现为多步推理能力,背后的新技术范式是“测试时计算”的扩展,即将更多算力放在模型推理阶段 [9][61] - 编程能力成为支撑通用智能体的关键,Anthropic在2025年2月发布的Claude Code本质上是一个通用智能体,领先于3月初发布的“世界首个通用Agent”Manus,OpenAI、x.ai和Google等巨头也在2025年相继发布了各自的编程应用 [10][62] - 多模态模型已演进为原生多模态,即用单一模型处理文字、图片、语音等信息,代表模型包括2024年的OpenAI 4o、Gemini 1.5以及2025年的Gemini 3和Kimi 2.5,同时中国公司在视频生成模型领域表现突出 [11][63] - 模型竞争的底层是研发组织方式的竞争,“协同设计”成为巨头关键战略,即从芯片、基础设施、算法到应用的垂直整合与优化,Google、阿里和腾讯均在推进此类整合 [13][14][65][66] - DeepSeek展示了极致的工程优化能力,其开源周披露的推理成本引发行业争议,数据显示在24小时内用1800多张GPU卡支持了6000多亿输入Token和近1700亿输出Token,据此计算的毛利率高达84.5% [15][16][67][68] - 算力发展的趋势从比拼单颗芯片性能转向优化多芯片互联系统,华为的384 Matrix超节点和英伟达的NVL72均体现了这一思路 [22][74] - AI研究界已开始深度思考下一代学习范式,认为当前基于海量数据预训练和后训练的方法将触达瓶颈,新的研究方向包括持续学习、在线学习和世界模型等,旨在实现更接近人类的高效、节能学习方式 [23][24][75][76] 应用 - 2025年是智能体应用大规模爆发的元年,主要分为两条主线:以编程能力为核心的通用智能体,以及深入特定行业的垂直智能体 [29][81] - 通用智能体的核心转变是编程从目的变为手段,代表产品包括Anthropic的Claude Code、Claude Cowork、近期风靡的OpenClaw,以及字节跳动的Trae Solo模式、蚂蚁灵光、马卡龙等,它们旨在满足个人工作与生活的自动化需求 [30][31][82][83] - 智能体生态催生了工具链的繁荣,基础设施层出现细分机会,涵盖语音与多模态交互、记忆管理、评估测评等方向,美国硅谷的软件水平分工为此提供了成熟土壤 [40][41][42][43][92][93][94][95][96] - 智能体数量激增后,分发与交易成为新需求,Youware和MuleRun等公司尝试构建社区化平台或交易市场,但目前正从平台模式转向强化工具属性以降低使用门槛 [34][86] - 通用智能体正向移动端渗透,引发手机厂商、超级App与AI公司之间的三方博弈,例如字节豆包手机预览版的自动回微信、比价点外卖功能曾遭微信、美团等超级App封禁 [35][87] - 不同场景的App受智能体影响程度不同,点外卖、订机票等提效需求强的场景受影响更大,但超级App出于广告收入和数据安全考虑对开放接口持谨慎态度,而抖音、小红书等娱乐内容平台受影响较小 [36][88] - 垂直领域智能体正改变商业模式,从“卖服务”转向“为结果收费”,例如法律领域的艾语智能直接承接金融机构案件并按最终收回款项收费,教育领域的爱为舞则将AI老师嵌入在线大班课商业模式 [38][39][90][91] - Sora App代表了AI在非提效类消费端场景的新尝试,其核心功能Cameo允许用户生成数字角色进行创作或合拍,发布初期热度高但留存挑战大,30天留存率低于8%,远低于TikTok的42%和Instagram的38% [44][45][97][98] - 特定创作者群体正在Sora App上沉淀,例如日本创作者Matsumaru利用该工具探索二次元与视觉特效,粉丝量已突破10万 [46][99] - 传统消费端场景也在被AI重塑,例如聊天应用Intent利用大模型实现“默认全局翻译”,语音输入应用Typeless凭借更精准的识别和语境理解脱颖而出 [48][101] - AI for Science领域存在多种探索路径:一是利用机器学习加速第一性原理计算,如深势科技的DeePMD;二是利用生成式AI解决特定科学问题,如AlphaFold;三是发展能够覆盖完整科研流程的科研智能体,迈向“AI发明家”时代 [49][50][51][102][103][104]
GPT-5不是技术新范式,是OpenAI加速产品化的战略拐点
虎嗅· 2025-08-13 07:54
公司战略定位 - OpenAI正从研究实验室转型为产品平台公司 ChatGPT已成为拥有10亿MAU的大众产品 增速加快且用户粘性增加 显示出产品已实现破圈 [1] - 评价GPT-5应基于OpenAI作为产品公司的视角 而非单纯AGI技术实验室视角 [2] - 采用类似Apple的单一产品线策略 通过路由系统整合多模型能力 有利于成本优化和用户心智占领 对比Google Gemini多产品线策略更具商业优势 [9] GPT-5核心能力特征 - 是精通现有场景的Everything Model 在多数场景下任务完成度提升 解决现实use case卡点 但非次世代Agentic Model [3] - 主要能力提升包括:vibe coding能力大幅提升 reasoning效率与效果较o3明显提升 API支持自定义工具 长上下文/工具使用更稳定 [5] - 明显短板包括:Agentic能力无显著进步 指令跟随不如Claude 情感对话能力较GPT-4o减弱 [5] - 在SWE-Bench基准测试中达到74.9% 略高于Claude Opus 4.1的74.5% 但实际表现更接近Sonnet 3.7水平 [18] 路由系统架构 - GPT-5非单一模型 而是由Router驱动的系统 能按问题复杂度动态选择不同模型的智力水平 [6] - Router为小模型 利用历史用户行为数据训练 随着用户数据积累 模型选择能力将快速优化 [7] - 当前Router未内化到同一模型中 进度低于预期 端到端模型比模块化系统更智能 [8] - 路由系统可能导致对话体验不一致 陪伴型用户面临风格不统一 效率型用户可能因错误路由出现幻觉 [9] 定价与市场竞争 - 旗舰模型GPT-5定价为输入1.25美元/百万token 输出10美元/百万token 与Gemini 2.5 Pro持平 是Sonnet 4价格的一半 Opus 4.1价格的十分之一 [13][14] - 平价模型GPT-5 Mini定价为输入0.25美元/百万token 输出2美元/百万token 较Gemini 2.5 Flash更便宜 [15] - 直接对标Gemini 2.5定价 旨在成为Claude 4 killer 应对Anthropic API收入超过OpenAI的竞争态势 [10] 编程能力定位 - 更适合vibe coding和Pair Programming 在IDE中迭代开发和Debug体验良好 [16][17] - 在Agentic Coding方面不如Claude Code 写代码更谨慎 对长代码/长时间执行任务不够放开 [18] - 通过测试案例显示:GPT-5能完成"地球生态气候系统模拟"任务 但结果较为基础 需用户进一步修改 而Claude Opus 4.1能一次性完成且 gameplay更优 [19][22] - 更适合服务泛大众开发者(citizen developer)的vibe coding需求 而非专业开发者的尖端需求 [23] 推理能力进步 - 普通用户reasoning model使用率从不到1%提升至7% Plus用户从7%提升至24% 传统企业用户仍主要使用4o模型 渗透空间巨大 [25] - 幻觉显著优化:在CharXiv多模态基准测试中 当移除所有图片后 o3在86.7%情况下仍错误回答 而GPT-5仅占9% [28] - 推理效率提升:在优于o3的同时 token成本下降50%-80% API支持low/medium/high三档推理强度 [29] 工具使用创新 - 支持free-form function calling 不再依赖严格JSON schema 可先给出自然语言级工具意图 由小模型解析执行 [33] - 实现parallel tool calling 能智能判断并行或串行执行 有望解锁更长任务链 [35] - 工具使用设计思路接近Claude Code free-form function calling类似于subagent设计 [36] - 工具类型涵盖Internal Retrieval Web Search Code Interpreter和Actions四类 [32]