Workflow
模型即Agent
icon
搜索文档
分化、新范式、Agent 与全球 AI 竞赛,中国模型主力选手们的 2026 预测
Founder Park· 2026-01-13 22:55
文章核心观点 文章总结了AGI-Next 2026活动中的核心洞察,指出华人团队已成为AGI领域的核心玩家,中国开源模型位居全球第一梯队[6]。活动揭示了AI发展的几大关键趋势:模型在To B和To C场景需求下出现显著分化;自主学习成为行业共识的新范式;Scaling(规模扩展)将持续但需关注智能效率;模型即Agent,Agent即产品;中美AI竞赛在算力、市场和文化上存在结构性差异[7]。 模型分化趋势 - 分化体现在两个角度:To C与To B场景之间,以及“垂直整合”与“模型应用分层”两条技术路线之间[8] - To C场景的瓶颈往往不是模型不够强大,而是上下文(Context)和环境(Environment)信息的缺失,例如模型难以准确回答“今天吃什么”这类高度个性化的问题[8] - To C场景的解法在于利用真正的个性化数据(如在合规前提下使用微信聊天记录),这比盲目追求更强的预训练模型能带来更大价值[8] - To B市场内部将出现强模型与弱模型的分化,且差距会越来越大。企业用户愿意为“最强模型”支付溢价,因为即便弱模型更便宜,但其错误难以预测和监控,企业更倾向于选择高准确率的强模型(例如Opus 4.5做10个任务能对8-9个,而弱模型只能对5-6个)[9] - To C场景适合模型与产品进行All-in-one的垂直整合,而To B(生产力应用)因涉及复杂生产环节,为应用公司提供了优化空间,从而出现了模型公司与应用公司之间的分层[9] - 模型分化并非预设路线图,更多是自然演化的结果,源于与客户的高频交流[9] - 模型竞争的时机也影响分化,例如智谱AI在DeepSeek出现后判断“Chatbot取代搜索”的竞争已基本结束,从而选择押注Coding领域[10] 新范式:自主学习与Scaling演进 - Scaling(规模扩展)会继续,但需区分两种方向:一是沿已知路径增加数据和算力;二是探索未知的新范式,让AI系统自主定义奖励函数、交互方法和训练任务[12][13] - Scaling Law的核心是将能源高效转化为智能,是技术、数据与审美(taste)共进的过程,探索前沿智能不会因潜在风险而停止[13] - 自主学习的目标是让模型具备自反思与自学习能力,通过持续的自我评估与批判来优化行为[14] - 新范式是一个正在发生的“渐变”过程,2025年已出现信号,例如Cursor的Auto-complete模型每几小时就用最新用户数据学习,ChatGPT利用用户数据拟合聊天风格,Claude Code编写了自己项目95%的代码[15] - 思考新范式的最大瓶颈是想象力,需要构想出证明其实现的具体任务(如变成赚钱的交易系统或解决科学难题)[15] - 从实际角度,强化学习(RL)的潜力尚未被充分挖掘,下一代范式的两个维度是自主学习以及AI具备更强的主动性(无需人类Prompt,由环境触发)[15] - 主动学习(Active learning)会带来严重的安全挑战,风险在于“做不该做的事”,而非“讲不该讲的话”,因此必须为其注入正确的方向[16] - 持续学习在多Agent串联的长程任务中面临挑战,若单个Agent能力未达100%,后续能力会指数级下降,可能需要探索类似人类睡眠的“清噪”机制[16] - 提出了“智能效率”(Intelligence Efficiency)概念,未来范式应关注投入多少资源能获得多少智能增量,以解决成本瓶颈[16] - 大模型发展可借鉴人脑认知,在多模态、记忆与持续学习、反思与自我认知这几个人类领先的领域寻求突破[17] - 智谱AI参考人类认知提出AI系统三模块:系统一(模式匹配)、系统二(推理)、自学习,分别对应数据与模型规模Scaling、推理能力Scaling、以及环境Scaling(从与外界交互中获得反馈)[17][18] 原生多模态 - 原生多模态模型与人类的“感统”相似,能同时处理视觉、声音、触觉等信息,但当前模型的感统能力尚不充分[19] - 多模态感统是智谱AI今年的重点方向之一,具备此能力后,AI才能在真实环境中执行长链路、长时效任务[19] - 多模态是通向真正智能的天然路径,但存在“多模态能否驱动智能”的争论[19] - 从第一性原理出发,为模型增加视觉、语音等多模态能力是为了提供更多生产力和更好帮助人类,是自然而然的选择[20] - 视频是更广义的表达,理解长视频是一个有意义的探索方向[21] Agent(智能体)的发展 - 编程(Coding)是通往Agent的必经之路,智谱AI的实践表明,仅靠跑分高的模型(如GLM-4.5)写不出“植物大战僵尸”游戏,需引入RLVR和真实编程环境训练(如GLM-4.7)才能解决[22] - 模型即产品,Agent要实现复杂任务对模型要求极高,模型本身就是Agent,Agent就是产品,做基础模型就是在做产品[22] - Agent在To C和To B场景同样存在分化:To C产品的成功指标有时与模型智能不相关甚至相反;To B的Agent则更依赖模型智能提升来解决真实世界任务、创造价值[23][24] - 生产力场景的Agent才刚起步,除了模型进步,环境和部署(deployment)同样关键。即使模型不再变好,将现有模型部署到各公司也能带来10倍甚至100倍的收益,但目前AI对全球GDP的影响还远不到1%[24] - 未来的Agent将向“托管式”发展,用户设定通用目标后,Agent在后台长时间独立运行直至完成任务,这要求模型具备自我进化(Self-evolution)和主动学习能力[25] - 在开发通用Agent时,解决长尾任务更值得关注,用户感知到的AI价值往往源于某个特定长尾任务被解决[25] - 做通用Agent是见仁见智的问题,对于模型公司而言,许多工程问题可能“烧一烧卡”就可解决,因此“模型即产品”对它们而言是机会[25] - Agent发展可从两个维度划分四象限:目标定义(人为/自动)和任务规划(人为/自动)。当前处于初级阶段(两者皆人为定义),未来将发展为由大模型内生定义目标和规划的系统[26] - 决定Agent未来走势的关键问题包括:能否真正解决人类任务并创造价值、成本(Cost)大小、以及应用公司的迭代速度是否能拉开时间窗口[27][28] 全球AI竞赛:中美对比与展望 - 对于中国AI在3-5年内进入全球第一梯队持乐观态度,因为中国在制造业、电动车等领域已证明,一旦某事可行,便能以极高效率复现甚至做到局部更好[29] - 长期挑战在于文化差异(敢突破新范式、敢冒险的人不够多)和两个现实瓶颈:算力(核心在于光刻机是否有突破)以及是否能诞生更成熟的To B市场并在国际竞争[30] - 中美算力差异不仅是绝对量级上的(美国算力比中国大1-2个数量级),更是结构性的:美国将相当一部分算力投入下一代研究,而中国仍在解决任务交付爆发带来的算力瓶颈[30] - 相对冷静的观点认为,中国AI超过美国的概率最乐观情况为20%[30] - “穷则生变”,作为“算力穷人”,中国团队更有紧迫感和动力去思考算法与基础设施(Infra)的联合优化,这可能倒逼创新发生[30] - 面对光刻机瓶颈,需思考是否可能从软硬结合的角度,通过下一代模型结构和芯片实现端到端(End-to-End)的突破[31]
一文读懂谷歌最强大模型Gemini 3:下半年最大惊喜,谷歌王者回归
36氪· 2025-11-19 17:44
文章核心观点 - Gemini 3的发布标志着AI领域取得重大突破,其跃进式的性能提升在多个基准测试中实现对竞争对手的断层式碾压 [4][5][7][10] - 该模型不仅是技术升级,更体现了谷歌以AI重新定义整个生态系统的平台级野心,在模型能力、开发者工具、用户体验等多战线同时发力 [11][12] - Gemini 3证明了Scaling Law依然有效,其通过改进预训练、后训练及采用新架构实现了巨大性能跃升,未看到明显天花板 [55][56][58] Benchmark性能表现 - 在衡量终极思考能力的Humanity‘s Last Exam测试中,Gemini 3 Pro得分达37.5%(无工具)和45.8%(带工具),远超Gemini 2.5 Pro的21.6%和Claude Sonnet 4.5的13.7% [14][16] - ARC-AGI-2测试中取得31.1%的分数,显著高于GPT-5.1的17.6%和Gemini 2.5 Pro的4.9%,展现出接近人类的流体智力 [17] - 数学能力上,在新MathArena Apex测试中获得23.4%的成绩,而Gemini 2.5 Pro仅0.5%,Claude Sonnet 4.5为1.6%,GPT-5.1为1.0% [19] - 多模态理解方面,MMMU-Pro得分81.0%,CharXiv Reasoning达81.4%,ScreenSpot-Pro取得72.7%,是GPT-5.1的二十倍 [21][22] - 编码能力实现翻盘,LiveCodeBench Pro的Elo Rating达2,439分,比第二名高出200多分,在Design Arena五个代码赛区中的四个占据榜首 [25][28] - 长上下文处理能力突出,MRCR v2 benchmark中128k上下文平均得分77.0%,1M上下文逐点得分26.3% [31] - 综合业务运营能力测试Vending-Bench 2中,实现$5,478.16平均净值,远超GPT-5.1的$1,473.43和Gemini 2.5 Pro的$573.64 [32] 前端与用户体验革新 - 推出“生成式UI”功能,能根据用户请求动态生成完全定制的用户界面,彻底改变人机交互范式 [41][42] - 模型具备审美智能,能理解用户偏好并自适应调整设计风格,在多轮对话中学习用户的审美倾向和编码风格 [41][45] - 前端开发角色被重新定义,模型能生成符合现代审美的响应式设计、色彩搭配和动画效果 [46][49] Agent能力整合 - 成为首个在模型界面融合通用Agent能力的产品,能够理解任务、制定计划、使用工具、反思改进 [50][51] - 工具使用能力相比2.5 Pro提升30%,能更准确选择工具并组合多个工具完成复杂任务 [51] - 整合Google生态系统,通过“My Stuff”文件夹设计让用户更容易管理模型创建的内容,应用内可访问超500亿条商品列表 [53] 技术架构与成本效益 - 采用稀疏MoE架构,是基于算法、感知、执行全管线优化的全新架构而非简单微调 [58] - 尽管API定价较高(每百万输入/输出Token为$2/$12),但因token效率更高,实际使用成本增加仅12%左右 [59] - 模型能一次性正确完成任务,总体使用成本可能反而更低,开启了新的性能-成本比逻辑 [60] 行业影响与定位 - 终结了OpenAI长久以来的霸榜神话,首次在语言模型领域以绝对优势占据领袖地位 [35][36] - 标志着从“聊天机器人时代”向“数字同事时代”的转变,human in the loop角色从“修复AI错误”演变为“指挥AI工作” [63] - 实际使用体验获得高度认可,在调试复杂错误、重构文件、解决困难问题等实际应用场景建立新SOTA [39]
“人类最后的考试”,中国模型赢了GPT-5
21世纪经济报道· 2025-11-15 16:01
模型性能表现 - 月之暗面推出Kimi K2 Thinking模型,在多项基准测试中表现超越GPT-5,在HLE测试中获得44.9%的成绩,超过GPT-5的41.7% [2] - 在BrowseComp基准测试中以60.2%的得分领先GPT-5的54.9%,在SEAL-0测试中以56.3%的得分超过GPT-5的51.4% [2] - 模型能够自主实现高达300步的工具调用,无需人类干预,保证任务连续性 [2][3] - 模型采用端到端的智能体强化学习训练,使其在数百个步骤的工具调用过程中每个中间环节都保持良好性能 [4] 技术架构与优化 - 模型基于"模型即Agent"理念训练,原生掌握"边思考、边使用工具"的能力 [2] - 支持"思考-工具-思考-工具"的交错执行模式,在大语言模型中属较新行为 [4] - 采用原生INT4量化技术,对MoE组件应用INT4纯权重量化,使生成速度提升约2倍 [7] - 团队使用配备Infiniband的H800 GPU集群,在算力资源相对有限的条件下通过工程优化极致压榨显卡性能 [5][6] 开源策略与国际影响 - 公司坚持开源策略,让中国AI大模型得到更广泛的国际认可 [7] - 开源模式有助于消除海外用户对"中国LLM"的风险疑虑 [9] - 在OpenRouter近一周模型调用榜单前二十名中,中国模型已占据七席,Kimi K2与Grok4登上增长榜前两名 [9] - Kimi K2的API价格仅为Claude Sonnet的五分之一,展现出显著的性价比竞争力 [7] 市场表现与采用情况 - 当Cursor禁止中国IP调用Claude等模型后,Kimi K2的调用量大幅攀升 [7] - Kimi K2日处理量突破100亿Token,显示出强劲的市场需求 [9] - 从欧洲到北美,从亚洲到非洲,越来越多的开发者正在调试基于Kimi K2 Thinking的应用 [9] 未来发展计划 - 公司已勾勒出下一代K3模型的发展蓝图,计划在K3中引入重大的架构变革 [10] - 实验性架构KDA在所有评估维度上都展现出性能提升,相关想法很可能会在K3中使用 [10] - 公司表示将在OpenAI建成千亿级美元数据中心之前推出K3模型 [10]
杨植麟带 Kimi 团队深夜回应:关于 K2 Thinking 爆火后的一切争议
AI前线· 2025-11-11 14:42
文章核心观点 - 月之暗面公司发布并开源了Kimi K2 Thinking模型,该模型被定位为“模型即Agent”,在多项关键基准测试中表现优异,甚至超越了GPT-5、Claude 4.5等顶级闭源模型[2][10] - 该模型的核心创新在于其“原生智能体”设计,通过KDA注意力机制、原生INT4量化等系统性工程优化,实现了在推理、编码、搜索和写作等任务上的能力跃迁,标志着开源模型首次具备正面对抗闭源巨头的实力[27][28][30][41] 模型性能与基准测试 - 在HLE基准测试中,Kimi K2 Thinking得分44.9,高于GPT-5的41.7和Claude 4.5的32[12] - 在BrowseComp测试中,Kimi K2 Thinking得分60.2,显著高于GPT-5的54.9和Claude 4.5的24.1[12] - 在AIME25数学推理测试中,Kimi K2 Thinking达到99.1%,与GPT-5的99.6%和Claude 4.5的100%几乎持平[12] - 模型支持256k上下文窗口,输入定价为每百万tokens 0.60美元,输出定价为每百万tokens 2.50美元,具备成本优势[12] - 模型可稳定完成200-300次连续工具调用,远超竞争对手的数十次水平[12][29] 技术创新与架构 - 模型引入了关键的KDA注意力机制,采用“增量更新+门控”方式,解决了MoE模型长上下文一致性差和KV缓存大的问题,相关设计思想将延续到下一代K3模型[15][38] - 通过采用原生INT4量化感知训练,模型在几乎不损失精度的前提下,推理速度提升约两倍,显存占用显著下降[35][36] - KDA机制通过增量式计算将KV缓存与显存开销减少约75%,结合MoE架构,共同保障了模型在长推理任务中的稳定表现[38][39] 团队回应与未来规划 - 公司联合创始人杨植麟确认团队正在开发视觉语言模型[18] - 对于网传的460万美元训练成本,公司澄清并非官方数据,强调训练成本难以量化[20] - 团队承认模型在响应速度上相比GPT-5有5-10倍差距,但解释这是为追求思维深度所做的权衡,并正在积极提升token效率[20][21] - 团队认可用户关于模型输出存在“slop问题”的反馈,表示已在减少语言啰嗦重复方面取得进展,并计划在未来版本中提升情绪表达的真实性和开放性[23][25] 应用能力与市场定位 - 模型在SWE-bench Verified编码基准测试中达到71.3%,展现出“智能体级”开发能力,能够完成从需求理解到调试验证的完整闭环[32] - 在智能搜索任务中,模型具备“边搜索边推理”的能力,能够通过多轮“思考-工具调用”循环处理复杂问题[34] - 模型在创意写作和学术研究场景中表现出色,能将零散灵感组织成结构清晰的长篇文本,并保证逻辑一致性[35] - 此次发布被视为公司在行业空窗期的一次“翻身仗”,为开源阵营提供了对抗闭源巨头的底气[27]
Kimi发布全新Agent模式OK Computer
新浪财经· 2025-09-25 16:04
公司产品发布 - 月之暗面Kimi发布全新Agent模式OK Computer并开启灰度测试 [1] - OK Computer延续"模型即Agent"理念,通过端到端训练Kimi K2模型进一步提升智能体及工具调用能力 [1] - 用户下达需求后,Kimi可操作自身的虚拟电脑完成多功能网站开发、海量数据分析、图片视频生成及高品质PPT制作等复杂任务 [1] 公司用户策略 - 曾打赏过Kimi的用户将获得首批体验资格 [1]
单任务成本约0.2美元 智谱要用云端Agent抢市场
第一财经· 2025-08-20 22:45
产品升级与功能拓展 - 智谱于8月20日将Agent产品AutoGLM升级至2.0版本 新增云端执行模式 与阿里云及腾讯云合作 不占用用户本地设备资源 [2] - 新版本支持操作美团、京东、小红书、抖音等数十个高频应用 较初期版本仅支持微信点赞、淘宝购物等功能显著扩展 [2] - 云端模式解决本地化运行限制(如3月版本需通过GUI界面操作) 确保任务持续执行且不影响用户其他设备使用 [2][3] 技术路线演进 - 公司采用"模型即Agent"技术路径 通过端到端强化学习直接赋予模型Agent能力 而非依赖人类专家轨迹学习 [3] - 实现Deep Research与Browser-use Agent技术融合 使Agent能处理大量数据并充分挖掘生产资料价值 与ChatGPT Agent技术方向一致 [3] - 技术迭代驱动从本地化运行(如小红书14天养号任务)向云端虚拟机架构迁移 解决设备依赖与任务中断问题 [2][3] 成本结构与商业化 - AutoGLM单任务成本约0.2美元(含模型与虚拟机) 预计随规模化和商业化推进进一步压缩 [5] - C端产品目前免费 B端采用定制化报价模式 未披露标准调用价格 [5] - 国内Agent单任务定价区间为0.008-0.04元人民币(中金数据) 海外商业化定价多为0.5-2美元/任务 [5] 行业市场动态 - 海外B端Agent市场处于结构性拐点 生态布局与技术演进同步催化市场空间打开 [5] - 2025年以来国内用户对AI应用认知度提升(受DeepSeek等推动) Agent市场需求端瓶颈逐步疏通 [5]
AI Agent是2025年最大风口还是泡沫?
36氪· 2025-07-25 17:56
模型即Agent技术趋势 - OpenAI发布ChatGPT Agent,验证"模型即Agent"方向,大模型公司如xAI、月之暗面、阿里云等纷纷跟进[1][6][7] - "模型即Agent"指大模型直接作为Agent核心驱动引擎,实现从理解需求到执行任务的全流程闭环,区别于传统多模型缝合模式[2][7] - Claude 4系列曾是编程和Agent能力标杆,但xAI推出Grok 4直接对标其Opus版本,国内月之暗面Kimi K2、阿里Qwen3-Coder也强化Agent能力[3][6][7] 行业竞争格局变化 - 2025年市场格局剧变,DeepSeek以低成本开源模型入场,"六小虎"中仅智谱AI和阶跃星辰保持融资,零一万物转向行业落地,百川智能聚焦AI医疗[11][12] - Agent领域现两极分化:C端多智能体协作模式(如Manus)当前更普遍,但"模型即Agent"被视为决定能力上限的关键路径[9][13] - 行业共识认为通用Agent仍处早期阶段,Gartner预测2027年底超40%项目将被取消,垂直Agent解决特定痛点更具生存潜力[10][13] 技术应用与挑战 - Agent能力突破体现在:OpenAI实现操作路径可视化,月之暗面Kimi K2集成自主决策,阿里Qwen3-Coder支持多步骤长任务[2][7] - 技术瓶颈包括:大模型稳定性影响B端应用精度,需工程化介入,Multi-Agent协作被视为更大机会但需平衡技术成本[15][18] - 行业认知转变:从"工具思维"转向"协作伙伴思维",主动思考的"发散优先"模式可能重新定义AI价值[8][13]