Workflow
Scaling
icon
搜索文档
深度解读 AGI-Next 2026:分化、新范式、Agent 与全球 AI 竞赛的 40 条重要判断
海外独角兽· 2026-01-13 20:33
文章核心观点 - 华人已成为AGI领域的重要力量,中国开源模型是全球Tier 1,预计到2026年地位将更加牢固[1] - 大模型行业正经历显著分化,主要体现在To B与To C场景、以及垂直整合与分层路线上[3] - 自主学习是行业共识性极强的新范式,预计2026年将成为主要投入方向[1] - Scaling(规模扩展)将继续,是技术、数据与品味共进的结果,探索前沿智能不会停止[1] - 模型即Agent,Agent即产品,两者趋于一体化[1] - 中美AI竞赛存在结构性差异,美国算力比中国多1-2个数量级,且更多投入下一代技术探索[1] 模型分化趋势 - 分化趋势显性,原因多元,包括To B和To C场景需求差异、对竞争格局的思考以及不同AI实验室的战略选择[1] - To B领域会出现强模型与弱模型的分化,且会越来越大[1] - To C场景的任务瓶颈往往不是模型不够大,而是上下文(Context)和环境(Environment)的缺失[1] - 在To C逻辑下,大多数用户大多数时候不需要很强的智能,模型智能提升的体验不强烈[3] - To C问题的解法在于真正的个性化数据,例如在合规前提下利用微信聊天记录等上下文,比追求更强预训练模型带来更大价值[3] - 在To B市场,用户(企业)愿意为“最强模型”付出溢价,因此强模型与弱模型的分化会越来越明显[3] - 例如,Opus 4.5这类强模型做10个任务能对8-9个,而弱模型只能对5-6个,即使后者更便宜,但企业因监控错误成本高而更倾向于选择强模型[4] - To C场景中,模型做All-in-one的垂直整合成立,模型与产品可强耦合迭代;而To B(生产力应用)因涉及多生产环节,给了应用公司优化空间,出现了模型公司与应用之间的分层[4] - 模型分化并非预设路线图,更多是自然演化的结果,通常源于与客户的高频交流[4] - 分化与模型竞争的时机相关,例如智谱AI押注Coding是基于对当时模型竞争格局(如DeepSeek出现后Chatbot取代搜索之战基本结束)的判断[5] 新范式:自主学习 - Scaling会继续,但需区分两种方向:Scaling已知路径(增加数据和算力)和Scaling未知路径(寻找新范式,让AI系统自己定义奖励函数、交互方法等)[5] - 当下AI社区对新范式尚无统一定义,自主学习、主动学习、持续学习等概念本质都预期模型能在人类不介入下提升智能[6] - Scaling Law被总结为一种将能源转化为智能的视角,核心在于高效逼近智能上限,是技术、数据与审美的共进[6] - 自主学习的目标是让模型具备自反思与自学习能力,通过持续的自我评估与批判来优化行为路径[6] - 新范式的发生是一个正在发生的“渐变”过程,2025年已出现信号,例如Cursor的Auto-complete模型每几小时用最新用户数据学习,ChatGPT利用用户数据拟合聊天风格,Claude Code写了自身项目95%的代码[6] - 新范式的最大瓶颈是想象力,即需要构想出证明范式实现的具体任务(如赚钱的交易系统或解决未解科学问题)[7] - 从更实际角度看,强化学习(RL)的潜力尚未被充分挖掘;下一代范式存在两个维度:自主学习和AI具备更强的主动性(未来模型可能不再需要人类提示,而是环境本身就能提示它)[7] - 主动学习会带来严重的安全挑战,风险不在于“讲不该讲的话”,而在于“做不该做的事”,因此必须为其注入正确的方向[7] - 自主学习能体现到个性化上,但衡量其是否“变好”会变得困难,因为当AI覆盖生活方方面面后,评估指标变得极其模糊[7] - 对于多Agent串联的长程任务,一旦Agent能力未达100%,后续能力往往呈指数级下降;人类通过睡眠“清理噪音”,AI可能需要探索类似的清噪与新计算模式[8] - 提出了“智能效率”(Intelligence Efficiency)概念,即关注投入多少资源能获得多少智能增量,这是解决成本瓶颈的关键[8] - 大模型发展路径借鉴人脑认知学习过程,而在多模态、记忆与持续学习、反思与自我认知这几类能力上,人类显著领先于当前模型,这些可能是新的突破方向[8] - 智谱AI在2020年参考人类认知规划了AI系统结构图,包含三个模块:系统一(模式匹配与知识提取)、系统二(知识融合与推理机制)、自主学习,分别对应数据与模型规模的Scaling-up、推理的Scaling、以及环境Scaling(让模型从与外界交互中获得反馈)[9][10] 原生多模态 - 原生多模态模型和人的“感统”相似,能汇集视觉、声音、触觉等信息,但当前模型的感统能力并不充分[11] - 多模态感统是智谱AI今年的重点方向之一,具备此能力后,AI才能在真实工作环境中执行长链路、长时效任务[11] - 多模态同样是Qwen持续要做的事情,认为真正智能的东西天然应该是多模态的,但存在多模态能否驱动智能的争论[11] - 从第一性原理出发,为模型提供更多生产力、更好帮助人类,做视觉、语音等多模态能力是自然而然的选择[11] - 视频是更广义的表达,图片可理解为单帧视频,理解很长视频是很有意思的事情[11] Agent发展 - Coding是通往Agent的必经之路,例如智谱AI的实践中,GLM-4.5虽跑分高但写不出“植物大战僵尸”游戏,通过引入RLVR和大量真实编程环境训练,GLM-4.7才解决了该问题[11] - 模型即产品,Agent要实现复杂任务对模型要求相当高,模型就是Agent本身,Agent就是产品本身,做基础模型也就是在做产品[12] - 模型To B和To C的分化同样体现在Agent上:To C产品的指标有时与模型智能不相关甚至相反;To B的Agent甚至不需要做太多创新,模型智能提升、解决真实世界任务能力提高就能创造更多价值[12] - 生产力场景的Agent才刚开始,除了模型进步,环境和部署同样重要,是Agent创造价值的关键:即使模型不再变好,只要把现有模型部署到各公司,也能带来10倍甚至100倍的收益,但今天AI对GDP的影响还远不到1%[13] - 教育非常重要,会使用AI工具的人正在替代那些不会使用工具的人[13] - 未来的Agent将变成“托管式”,用户设定通用目标后,Agent在后台长时间独立运行直至完成任务[13] - Agent要做到这一点离不开前面提到的自我进化以及主动学习,在此逻辑下,“模型即Agent,Agent即产品”[13] - 做通用Agent过程中,长尾任务更值得关注,用户感受到AI的价值与魅力往往因为某个长尾任务被解决,今天的所谓AGI本质上也在解决长尾问题[13] - 做通用Agent是见仁见智的问题,如果作为“套壳”方没有比模型公司做得更好的信息,那么通用Agent就是“模型即产品”的机会,因为对模型公司来说,很多工程问题可能只是“烧一烧卡”就可解决[14] - Agent发展可划分为四个象限,从两个维度看:目标定义(人为/自动)和任务规划(人为/自动);今天处于初级状态(目标与规划皆由人定义),未来会出现大模型观察人的工作并使用人的流程数据,最终目标与规划皆可由大模型定义,Agent应是大模型内生的原生系统[14] - 决定Agent未来走势的几个重要问题:是否能真正解决人类任务并创造价值及价值大小;Agent成本有多大(成本过高是问题,若调用API就能解决,模型厂商意识到价值大时就会自然做进去,这是基座模型与应用之间的矛盾);应用公司的迭代速度(若Agent团队有能力拉开半年时间窗口满足用户需求,就有机会持续往前走)[14][15] 全球AI竞赛 - 对于中国AI在3-5年内进入全球第一梯队持乐观态度,因为中国最大的优势在于一旦证明某件事可行,就有能力以极高效率复现、甚至做到局部更好[17] - 但长期视角中更核心的问题在于“敢突破新范式、敢冒险的人不够多”的文化差异,此外还需面对两个现实瓶颈:算力瓶颈(核心在于光刻机是否有突破)和是否能诞生更成熟的To B市场并在国际市场竞争(应更关注“正确的事”和用户体验,而非过分刷榜)[17][18] - 另一种观点认为,中国AI超过美国的概率最乐观情况为20%[18] - 中美AI之间算力差异不只是绝对量级上的,还是结构性的:美国算力比中国大1-2个数量级,但最关键的差异在于,美国有相当一部分算力投入到了下一代的研究中,而中国今天还在解决任务交付爆发带来的算力瓶颈[1][18] - 但从历史经验看,“穷则生变”,作为“算力穷人”,中国团队更有紧迫感和动力去思考算法与基础设施的联合优化,这个出发点可以倒逼创新发生[18] - 面对光刻机的现实瓶颈,有可能在下一代的模型结构和芯片上从软硬结合的角度端到端地实现突破[18]
张钹、杨强与唐杰、杨植麟、林俊旸、姚顺雨(最新3万字发言实录)
新浪财经· 2026-01-12 12:37
文章核心观点 - 多位中国顶尖AI公司创始人、技术负责人及院士在AGI-Next前沿峰会上,就AGI发展路径、模型扩展极限、智能体落地及中国AI的长期机会等议题展开深度交流,核心共识在于大模型发展正从“对话”范式转向“做事”范式,智能体是明确的前进方向,同时需在模型架构、训练范式及多模态等基础能力上寻求突破 [3][4][19][20] 行业技术发展路径与范式转变 - **从Chat到Agent的范式转变**:以DeepSeek的出现为标志,纯粹的“对话”范式竞争基本结束,行业焦点转向让AI完成具体任务的智能体范式 [4][19][20] - **Scaling Law的持续与反思**:模型扩展仍是提升智能的有效路径,但可能是一种“偷懒”方式,未来探索方向是让模型具备自主扩展能力,并需结合技术、数据与审美共同演进 [4][42][50] - **能力演进轨迹**:大模型能力从2020年前后的简单问答,发展到2021-2022年的数学计算与基础推理,再到2023-2024年可处理研究生层级问题与真实世界编程任务,智能水平持续快速提升 [9][11] - **强化学习与可验证环境**:RLVR通过引入可验证环境使模型能自主探索并获得反馈,是重要进展,但当前挑战在于可验证场景逐渐耗尽,需向半自动或不可验证任务空间拓展 [17] 模型能力进展与挑战 - **代码能力飞跃**:模型从2021年写十个程序才能跑通一个,发展到如今在复杂任务中可一次性跑通,能实质性地辅助高级工程师 [18] - **核心评测表现**:在HLE等极高难度智能评测基准上取得进展,例如有模型在HLE上达到45%的准确率,超过OpenAI [17][63] - **能力整合与回灌挑战**:在SWE-bench等真实世界评测中取得好成绩,但如何将专项能力可靠地整合回主模型,避免用户真实体验与Benchmark成绩脱节,仍是巨大挑战 [24] - **通用能力与专用能力的平衡**:在较小规模模型上引入大量Agent数据能显著增强Agent能力,但会导致部分通用语言和推理能力下降,未来需解决在强化Agent能力的同时避免损害通用能力的问题 [27] 智能体发展的关键问题与探索 - **智能体任务复杂度**:基础能力是编程,但任务可延伸至几十步、上百步的完全异步超长链路任务,这带来了全新的技术挑战 [25] - **环境交互的混合方案**:在现实环境中,需采用API调用与模拟GUI操作相结合的混合方案,以采集数据并训练模型适应能力 [26] - **训练风险与校正**:在数据不足的冷启动场景下,强化学习易陷入局部最优,需在训练中周期性插入SFT进行方向校正和多样性恢复 [27] - **开源生态影响力**:中国在开源大模型领域影响力显著,在Artificial Analysis榜单前五名中,蓝色模型几乎全部来自中国 [28] 未来AGI的突破方向与思考 - **三大关键突破方向**:1) 建立类似人类感统机制的原生多模态能力;2) 构建从个体到文明级的记忆与持续学习框架;3) 发展更深层次的反思与自我认知能力 [33][34][35] - **参考人类认知的三类Scaling**:1) Scaling数据与模型规模以提升智能上限;2) Scaling推理,用更多计算与搜索找更优解;3) Scaling自学习环境,让模型从与外界交互中获得反馈 [40][41] - **模型架构创新需求**:Transformer的O(N²)计算复杂度制约长上下文效率,需探索线性复杂度等新型模型架构,以实现更高效的知识压缩与承载 [42][64] - **自主学习的多层定义**:从实现F-X到X映射的自监督多任务学习,到引入数据学会推理,再到具备自反思与自学习能力,最终可能发展出自我认知乃至意识 [44][45][46][47] 主要公司的技术实践与战略 - **智谱AI**:发展路径聚焦强化模型的Thinking能力并结合Coding与Agent场景,通过整合Coding、Agentic和Reasoning能力,并利用RLVR在可验证环境中优化,使模型在真实编程任务中稳定性提升 [21][22][23] - **月之暗面**:技术核心围绕提升Token效率与长上下文能力,采用Muon二阶优化器使Token效率提升2倍,并研发kimi Linear线性注意力架构,在长程任务效果上超越全注意力机制且速度更快 [54][55][64][66] - **阿里千问**:致力于打造通用智能体,在2025年重点提升模型的Reasoning能力、长上下文支持及多模态能力,其VL模型在保持语言智力不下降的同时,图像生成质量接近真人,并积极布局语音交互与编辑功能 [73][80][83][89][95][96] - **腾讯**:观察到toC与toB市场明显分化,以及垂直整合与模型应用分层两种模式的分化,认为在toB场景,最强的模型与稍弱的模型价值分化会越来越明显 [110][111] 市场分化与行业生态观察 - **toC与toB市场分化**:toC应用类似搜索引擎加强版,用户对智能提升感知不强;toB场景中,智能直接等同于生产力,用户愿意为最强模型支付高溢价,市场分化明显 [110] - **垂直整合与分层模式分化**:在toC场景,模型与产品强耦合的垂直整合模式成立;但在toB生产力场景,强大的基座模型与多样化的应用层产品开始分层,专业化趋势显现 [111][112] - **中美市场差异**:美国市场Coding消耗量巨大,而中国市场相对较小,显示两地市场机会与认知存在差异 [114] - **学术界与工业界的角色**:工业界在前沿狂奔,学术界需在模型进入稳态后跟上,研究如智能上限、资源分配、幻觉与资源的平衡等理论问题,孕育新的计算模式 [115][116][117]
唐杰、杨植麟、林俊旸、姚顺雨:他们眼中的 AGI 三个转折点
虎嗅APP· 2026-01-11 17:52
文章核心观点 文章基于AGI-Next前沿峰会上多位中国AI领域核心人物的讨论,总结出当前中国大模型产业发展的三大核心趋势:单纯依赖扩大模型规模(Scaling)的范式面临效率瓶颈,行业正在寻求下一代范式;Token效率正成为决定大模型能力上限和国内竞争格局的关键因素;中美大模型因市场环境、Lab文化等差异,正走向不同的演进路径[10][11]。 趋势一:Scaling之外,新的范式正在成为新命题 - 行业对单纯依赖扩大算力、数据和参数规模的Scaling路径产生反思,认为其边际收益正在收窄,智能提升的增量持续变小,而成本呈指数级增长,效率已成为瓶颈[7][14] - 清华大学教授唐杰指出,继续Scaling的价值受到质疑,这成为一种“相对偷懒的方式”,核心目标应转向用更少的投入换取更高质量的智能增量[7][14][15] - 行业共识是下一代范式将围绕“自主学习”,但该概念目前仍是一组尚未被充分展开的问题集合,真正的瓶颈在于数据来源和任务定义[16] - 腾讯首席AI科学家姚顺雨观察到,自主学习已以温和方式发生(如ChatGPT拟合人类表达),但受限于预训练能力与通用底座,更大的突破可能要到2026年才会出现迹象[17] - 新范式的挑战不仅在于技术,还在于想象力和验证方法,同时商业化进程可能影响创新基因,这使得新范式在全球范围内都尚未清晰落地[17][18] 趋势二:Token效率愈加成为国内大模型能力的决定性因素 - Token效率已从训练效率问题,上升为直接决定模型智能上限和能走多远的结构性约束[8][20][22] - 月之暗面创始人杨植麟指出,预训练阶段的Token总量是常量,一旦消耗完,模型智能上限即被锁死,因此关键在于每个Token能换来多少有效智能[8][21][22] - 在长上下文(上千至数十万Token)和Agent任务成为主流后,Token的位置损耗显著,其利用效率直接决定了模型处理复杂推理和搜索任务的潜力[22][24] - 月之暗面在过去一年将核心工作集中于提升Token效率,在其K2模型中通过新优化器与架构设计,实现了用一半数据达到相同效果,获得了等价于一次Scaling的收益[23] - Token效率与长上下文能力是需要同时优化的乘积变量,共同构成Agent能力放大的基础,这正在重塑国内大模型的技术路线选择[24][25] 趋势三:中美大模型正在走向不同的演进路径 - 中美大模型的差距并非简单的“能力高低”,而是市场环境、应用场景和Lab文化差异导致的两条分叉演进路径[26][27][29] - 美国市场的大模型发展明显向生产力与企业级场景集中(如Coding与Agent),模型能力直接重塑工作方式并与个体生产力强绑定,因此市场对模型能力的价格容忍度更高,模型被视为可直接定价的“生产资料”[27] - 相比之下,中国企业对成本高度敏感,且toB场景碎片化,需求更侧重于稳定性、可控性与交付效率,而非单点“最强智能”,模型更像是一种被嵌入既有系统的基础能力,难以独立获得高溢价[27][28] - 底层Lab文化存在差异:美国鼓励长期投入高风险、高不确定性的前沿问题研究;而中国的研究环境更强调效率、反馈周期以及与业务目标的紧密对接,更倾向于做“安全的事情”[29] - 这种文化差异导致美国更关注“什么是正确的事情”和自身体验,而中国则相对更看重“刷榜或数字”,最终使得中美大模型的演进路径分化,差距越来越少被理解为“领先或落后”,而是不同现实条件下的不同路线选择[29]
AI圈四杰齐聚中关村,都聊了啥?
首席商业评论· 2026-01-11 12:57
文章核心观点 - 清华大学主办的AGI-Next前沿峰会汇集了中国AI领域的核心人物,包括智谱AI唐杰、Kimi杨植麟、阿里林俊旸和腾讯姚顺雨,共同探讨了通用人工智能(AGI)的当前进展与未来范式转变 [2][4][6] - 行业共识认为,以Chat为代表的对话模型时代已基本结束,AI发展的下一步核心是“从对话走向做事”,即让AI具备执行具体任务的能力,特别是通过智能体(Agent)和编码(Coding)来提升生产力 [6][12] - 中国在开源大模型领域已形成显著影响力,但在整体AI赛道上实现反超仍面临巨大挑战,需要持续在技术创新、新范式探索上投入 [6][19] 大模型发展轨迹与能力演进 - 大模型智能水平发展轨迹类似人类成长:2020年前后解决简单问答,2021-2022年进入数学计算和基础推理,2023-2024年走向复杂推理并能处理研究生层级问题,在真实世界编程任务中表现出可用性 [9] - 模型能力正从知识记忆走向复杂推理,并开始通过人类终极测试(HLE)等极高难度基准的检验,2025年模型整体能力仍在快速提升 [9][10][11] - 代码能力是典型进步领域:从2021年模型写十个程序才能跑通一个,发展到如今在复杂任务中往往可以一次性跑通,能实质性地辅助高级工程师 [12] 下一代范式:从Chat到Agent - DeepSeek的出现标志着Chat这一代问题基本被解决,优化空间正在迅速收敛,行业需要思考新范式 [12] - 新范式的核心是让AI完成具体事情,主要思路有两条:一是强化思考(Thinking)能力,结合编码与智能体;二是让模型更深度地与环境交互 [12] - 智谱AI优先选择了强化思考能力并引入编码场景的路径,通过整合编码、智能体和推理能力,并在真实环境中通过可验证强化学习(RLVR)来提升模型稳定性 [13][14] - 智能体(Agent)的基础能力可理解为编程,但更复杂的任务涉及几十步、上百步的异步超长链路,需要AI具备设备使用层面的能力 [15][16] 技术挑战与解决方案 - 可验证强化学习(RLVR)的挑战在于可验证场景(如数学、编程)正逐渐耗尽,需探索如何进入半自动或不可验证的任务空间 [11] - 训练体系挑战:强化学习任务种类多样,序列长度和时间尺度差异大,智谱AI开发了全异步强化学习训练框架以实现不同任务的并行运行与动态收敛 [15] - 冷启动问题:许多应用场景几乎没有现成数据,解决方案是采用API与GUI操作的混合方案,在真实环境中采集交互数据并进行全异步强化学习 [16] - 能力平衡问题:在9B规模模型上引入大量智能体数据后,其智能体能力显著增强,但部分通用语言和推理能力会下降,未来需解决在强化智能体能力的同时避免损害通用能力的问题 [18] 未来突破方向与行业思考 - 多模态:建立类似人类视觉、听觉、触觉的原生多模态“感统”机制是关键方向 [21] - 记忆与持续学习:如何将个体记忆扩展到群体级、文明级的记忆结构,并纳入模型可持续学习框架 [22] - 反思与自我认知能力:学界存在分歧,但值得探索,可能参考人类双系统认知(系统一与系统二)并引入“自学习”模块 [23] - 继续Scaling的三个维度:Scaling数据与模型规模以提升智能上限;Scaling推理以延长思考时间;Scaling自学习环境以增加与外界交互的机会 [24] - 需要寻找超越单纯Scaling的新范式,让机器能独立定义奖励函数、交互方法甚至训练任务来进行Scaling [24] 智谱AI(唐杰)的实践与展望 - 公司发展源于2019年在清华的成果转化,长期专注于两件事:早年做AMiner以及当前的大模型 [8] - 2025年是GLM模型的开源年,从1月到12月陆续开源了多条模型线,涵盖语言模型、智能体及多模态模型 [19] - 在Artificial Analysis榜单上,前五名中的蓝色模型几乎全部来自中国,显示中国在开源大模型领域的影响力 [19] - 2026年及以后的三个重点方向:继续Scaling但需区分已知路径与探索未知新范式;推进全新模型架构探索以解决超长上下文、高效知识压缩等问题;将多模态感统作为重点方向,以执行长链路、长时效的真实任务 [27] - 判断2025年很可能成为AI for Science的重要突破年份 [28] Kimi(杨植麟)的技术路径与世界观 - 大模型发展的第一性原理是Scaling Law,即把能源转化为智能,拥有更多算力、数据、参数可使模型损失(loss)线性下降 [30][32] - Transformer成为主流架构的核心原因是在Scaling Law上表现优于LSTM,能用更少的FLOPs或参数获得更好的Scaling效果 [33] - 优化围绕两个核心维度:Token效率(用尽可能少的Token获得相同效果)和长上下文(Long Context)能力,两者结合可实现优秀的智能体智能 [35][36] - 公司采用了MUON优化器(一种二阶优化器),相比传统Adam优化器能带来2倍的Token效率提升,相当于用50%的数据达到相同的测试损失,或用相同数据获得更低的损失 [36][38] - 最新研究的kimi Linear架构是一种新的线性注意力机制,旨在长程任务上效果优于全注意力机制,同时端到端速度有显著优势(如100万上下文下快6到10倍) [44][45] - 做模型的本质是在创造一种世界观,追求智能的“品位”(Taste),智能具有不可交换性,不同领域产生的智能不同,因此模型不会趋同,存在指数级的Taste空间 [47] 阿里千问(林俊旸)的进展与多模态探索 - 公司目标从通用模型(Generalist model)转向通用智能体(Generalist Agent),强调AI应像人一样自主使用工具 [53] - 2025年文本模型(Qwen3系列)的主要特点是总体能力提升,特别是推理能力增强,并支持119种语言及方言 [58][59] - 在编码(Coding)能力上,重点从解竞赛题转向软件工程,关注在真实环境中完成多轮交互的复杂任务,在SWE-bench等基准上取得高分(如70分) [61][62][64] - 坚信智能体天然应该是多模态的,致力于构建统一理解与生成的多模态基础模型 [55][56] - 在视觉语言模型上取得进展,使模型在拥有视觉理解能力的同时,语言智力不降低,与其235B纯文本模型能力持平 [65] - 在图像生成方面,从2025年8月到12月,生成图像的真实感显著提升,从“AI感重”到“接近真人”,并具备准确的图像编辑能力 [68][70] - 在语音模型上,开发了能听能说的Omni模型,其文本能力可达Qwen2.5水平,语音能力对标Qwen2.5 Pro水平 [71] - 未来方向包括构建全模态模型(理解并生成文本、视觉、音频),以及利用环境反馈进行多轮强化学习以实现长视野推理 [72][73][74] 行业路线分化观察 - 观察到to C和to B市场发生明显分化:对to C而言,大部分人大部分时候不需要用到那么强的智能,更多是搜索引擎的加强版;对to B而言,智能越高代表生产力越高,价值越大,用户愿意为最强模型支付溢价 [82][83] - 观察到垂直整合与模型应用分层出现分化:在to C应用上,模型与产品强耦合的垂直整合依然成立;但在to B场景,趋势似乎是模型越来越强,同时有许多应用层产品利用这些模型服务于不同生产力环节 [84] - 大公司做编码智能体的一个潜在优势是能利用自身庞大的内部应用场景和真实世界数据来改进模型,这不同于依赖有限标注商的创业公司 [85][86] - 中美市场存在差异:在美国,编码消耗量非常大;而在中国,这一现象尚不明显 [87] - 学术界与工业界存在分化:工业界领头狂奔,学术界需要跟上,解决工业界未及深入的理论问题,如智能上界、资源分配、持续学习中的噪音清理(类似人类睡眠机制)等 [88][89] - 对话模型替代搜索的战役在DeepSeek出现后已基本结束,行业需要寻找下一战,即让AI真正做事 [91] 关于自主学习(Self-Learning) - 自主学习是当前热门共识,但每个人对其定义和看法不同,它更关乎在何种场景下基于何种奖励函数执行何种任务,而非单一方法论 [93] - 自主学习已在多种场景下发生:例如ChatGPT利用用户数据弥合聊天风格,Claude编写自身项目95%的代码以帮助自己变得更好 [94] - 当前AI系统通常由模型和如何使用模型的代码库两部分组成,自主学习正在这些特定场景下渐变式发生,2025年已能看到信号,例如Cursor每几个小时就用最新用户数据学习 [94][95]
姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲!基模四杰中关村论英雄
新浪财经· 2026-01-10 22:39
清华大学AGI-Next前沿峰会核心观点 - 峰会由清华大学基础模型北京市重点实验室发起,汇集了智谱、Kimi、阿里等中国AI领域核心公司的领军人物,探讨了AGI发展的现状、挑战与未来方向 [1][3] - 与会专家普遍认为,大模型的发展正从“对话”范式转向“做事”范式,即从通用聊天能力转向解决具体任务、提升生产力的智能体 [4][18][19] - 中国在开源大模型领域已形成显著影响力,但在整体AI赛道上反超美国仍面临巨大挑战,需要关注技术创新与新范式探索 [4][28] 大模型技术发展路径与现状 - 大模型智能水平持续快速提升,发展轨迹类似人类成长:从2020年前后的简单问答,到2021-2022年的数学计算与基础推理,再到2023-2024年能处理研究生层级问题与真实世界编程任务 [8][9] - 模型能力正从知识记忆走向复杂推理,并在SWE-bench等真实环境评测中表现出可用性,代码能力已能实质性地辅助高级工程师 [8][17] - 当前的核心挑战是从规模扩展走向真正的泛化能力,并解决强化学习可验证场景逐渐耗尽的问题 [11][16] - 到2025年,模型的整体能力仍在快速提升 [10] 智谱AI(唐杰)的技术策略与展望 - 公司发展基于“像喝咖啡一样做研究”的理念,强调AGI需要长期专注与持续投入 [5][6][7] - 判断Chat对话范式已基本结束,下一步是“走向做事”,因此优先选择强化思维、结合编程与智能体的技术路径 [4][18][20] - 通过整合编码、智能体与推理能力,并利用可验证环境进行强化学习,显著提升了模型在真实任务中的稳定性,在SWE-bench等评测中取得领先成绩 [21][22][24] - 面对智能体大规模落地,公司采用API与GUI操作结合的混合方案,并引入交替训练机制以应对强化学习的风险与冷启动问题 [25][26][27] - 认为未来AGI的突破方向可能在于:原生多模态、记忆与持续学习、反思与自我认知能力 [31][34][36] - 提出参考人类双系统认知的AI结构:系统一(模式匹配)、系统二(复杂推理)和自学习模块,并通过数据规模、推理时间和自学习环境三个维度的扩展来提升智能 [37][40][42][43][44][45] - 指出Transformer架构存在计算复杂度高的问题,需探索新型架构以实现高效的知识压缩 [47][48] - 展望2026年将专注于区分已知与未知路径的扩展、推进全新模型架构、发展多模态感统能力,并判断2025年可能成为AI for Science的重要突破年份 [55] Kimi(杨植麟)的技术创新与核心理念 - 认为大模型发展的第一性原理是Scaling Law,即把能源转化为智能,Transformer因其在扩展律上更优的表现而成为主流架构 [56][58][59] - 提出评估模型架构的两个关键维度:Token效率(用更少的Token达到相同效果)和长上下文能力,两者的结合是实现优秀智能体的基础 [60][61][62][63] - 公司通过采用MUON二阶优化器,实现了2倍的Token效率提升,等效于用50%的数据达到相同的测试损失,或用相同数据获得更低的损失 [64][67] - 通过创新的kimi Linear线性注意力架构,在保持线性计算复杂度的同时,实现了在长短程任务上效果均优于全注意力机制,并在百万上下文长度下具有6到10倍的端到端速度优势 [65][73][74][75] - 认为做模型本质是在创造一种世界观和审美,智能具有不可交换性,不同模型会发展出不同的“品位” [4][77] - 公司开发的kimiK2是中国首个智能体模型,可完成两三百步的工具调用,在HLE评测中达到45%的准确率,并声称比OpenAI更高 [72] 阿里通义千问(林俊旸)的进展与方向 - 公司致力于开发通用智能体,训练范式已发生变化,不再完全依赖传统标注,而是通过解决推理和评估来驱动 [81] - 在文本模型上,Qwen3系列总体能力提升,重点增强了推理能力,并支持119种语言及方言,上下文长度已做到1M以上并内部实现数个M [88][89] - 在代码能力上,聚焦于具有生产力的软件工程任务,在SWE-bench评测中达到70分,在相关榜单中排名前列 [91][92][93] - 在多模态方面,视觉理解模型在保持语言智力不下降的前提下,提升了操作手机/电脑的能力,并致力于实现文本、视觉、音频的统一理解与生成 [85][94][95][104] - 图像生成模型进步显著,Qwen-Image系列在内部盲测中排名靠前,12月版本生成的图像已接近真人,并具备强大的图像编辑能力 [99][100][101] - 语音模型Omni能达到文本模型2.5的水平,支持声音定制 [102][103] - 下一代模型将采用新的架构,并探索通过环境反馈进行多轮强化学习,以实现长视野推理,最终让智能体走向数字世界和物理世界 [104][105][106] 行业路线分化与未来思考 - 行业出现明显分化:to C产品对极致智能的需求不强烈,更像搜索引擎加强版;to B市场则强烈追求最强模型,因为智能直接等同于生产力,导致强弱模型分化加剧 [4][113][114] - 在商业模式上,to C场景模型与产品垂直整合依然紧密;但在to B场景,模型层与应用层可能出现分层,强大的模型会被不同的应用层产品在各生产力环节中使用 [113][115] - 学术界与工业界需要协同,工业界在前沿狂奔,学术界应跟进解决基础理论问题,如智能上界、资源分配、幻觉与资源的平衡、持续学习中的噪声清理等 [119][120] - 自主学习的定义多样,它更关乎具体的数据和任务场景,而非单一方法论,目前已在特定场景中逐渐发生 [126][127][128]
AI教父Hinton首爆十年前拍卖:我早已内定谷歌必赢
36氪· 2025-12-22 07:25
文章核心观点 - AI领域两位关键人物Geoffrey Hinton与Jeff Dean在NeurIPS 2025的对话回顾了人工智能发展的关键历史节点、重要突破的幕后轶事以及行业未来的发展方向,揭示了从早期神经网络研究到当今大规模模型竞赛中,算力规模、关键算法创新以及公司战略决策所扮演的核心角色 [1][4][54] AI研究的关键突破与顿悟 - Geoffrey Hinton关于模型规模扩展重要性的顿悟源于2014年听取Ilya Sutskever的报告,此前在80年代末曾错过因并行计算硬件复杂而放弃扩大模型规模的早期信号 [13] - Jeff Dean在1990年的本科毕业论文中已探索用于训练神经网络的并行算法,使用了32个处理器的超立方体计算机,并发明了早期的“数据并行”和“模型并行”概念,但因仅拆分10个神经元的层而未同步扩大模型规模导致性能不佳 [7][11] - 2012年AlexNet的成功源于纠正权重衰减参数错误、使用ImageNet大型数据集以及学生Alex Krizhevsky在卧室用两块英伟达GTX 580 GPU完成训练,该8层神经网络此前曾被评审认为“不可能产生任何工业影响” [17][18][21][23] 谷歌大脑的诞生与早期验证 - 谷歌大脑的雏形源于Jeff Dean与Andrew Ng在茶水间的一次闲聊,Andrew Ng提到其学生用神经网络取得不错成果,促使Jeff Dean思考利用谷歌海量CPU训练超大神经网络 [25][26] - 谷歌大脑早期进行了一次著名实验:在1000万YouTube视频帧上无监督学习,让神经网络学会识别“猫”,该模型采用局部连接方式,参数达20亿,动用了16000个CPU核心 [28] - 在AlexNet出世前一年,谷歌大脑已通过实验观察到“更大的模型、更多的数据、更多的算力”带来更好效果,验证了后来的Scaling Laws [31] 关键人才与公司的战略决策 - 2012年,64岁的Geoffrey Hinton以“实习生”身份加入谷歌,成为Jeff Dean的实习生,起因是Andrew Ng转向Coursera并推荐Hinton接棒 [32][33] - AlexNet成功后,Hinton成立DNN Research公司并举办拍卖会,谷歌、微软、百度等公司参与争夺,地点设在南太浩湖赌场,每次加价至少100万美元,Hinton内心早已决定让谷歌获胜,部分原因源于其夏季的实习生经历 [35][36][38] - 2014年,Hinton参与的“模型蒸馏”论文被NeurIPS拒稿,审稿人不理解其想法,但该技术后来成为大语言模型的核心技术之一 [40] Transformer的诞生与行业影响 - Transformer的灵感来源于序列到序列的工作,旨在解决LSTM的顺序依赖和状态压缩瓶颈,其核心思想是保存所有状态并施加注意力机制,该机制早期由Bahdanau等人引入 [43] - Transformer被证明非常优雅,因为它可以并行计算所有状态,且用少10到100倍的算力即可达到同等甚至更好的效果,但谷歌内部最初并未将其视为“鹤立鸡群”的突破 [45] - 2023年ChatGPT的发布让谷歌内部拉响“红色警报”,Jeff Dean撰写备忘录承认“自己犯傻”,因为公司早已知道算力规模与模型质量强相关,但将研究想法、人力和算力切割得太碎,随后促成了Google Brain与DeepMind合并为Google DeepMind,直接催生了Gemini模型 [46][48] 公司的竞争优势与未来方向 - 谷歌强调硬件与模型的“协同设计”,研究人员与硬件团队紧密合作布局未来2-6年的趋势,甚至用强化学习优化芯片布局布线,提升了芯片质量并加速研发流程,其TPU硬件构成强大护城河 [48][50][51] - 对于AI未来,Jeff Dean兴奋的方向之一是扩展注意力机制的触达范围,从百万Token到数万亿,让模型直接访问所有科学论文和视频,而非将信息压缩进权重,这需要硬件创新及更节能、性价比更高的推理芯片 [52] - 未来将探索更动态、脑启发的架构以改进目前模型缺乏“持续学习”、训练后固定不变的现状,混合专家模型的结构被认为“不算太有意思” [54] - 预测未来20年,AI将导致许多工作消失,但不确定是否会创造足够的新工作替代,同时AI有望加速科学发现,连接不同领域并自动化发现闭环,医疗与教育领域将发生剧烈变革,大模型能压缩巨量知识并发现跨领域的远距离类比 [56]
深度|DeepMind CEO Demis: AGI还需5-10年,还需要1-2个关键性突破
搜狐财经· 2025-12-21 14:05
公司战略与核心优势 - 公司将其独特优势归结为将世界级的研究、工程能力和基础设施三者结合 在AI前沿领域 同时具备这三者的机构非常少 [8] - 公司采用科学方法作为核心思维方式 并将其应用于研究、工程乃至商业领域 这构成了其工作的严谨性与精确性的来源 [7][8] - 公司在发展路径上保持务实 会追随实证证据的指引 例如在看到scaling laws显现效果后 逐步将更多资源投入到该研究路径上 [27][28] 产品与技术路线图 - 公司的核心基础模型Gemini从一开始就是多模态的 能够同时处理图像、视频、文本和音频 并越来越多地生成这些类型的输出 [10] - 接下来12个月的重点方向包括:多模态能力融合取得显著进展、视频能力与语言模型融合产生有趣的能力组合、以及开发更可靠的基于Agent的系统 [10] - 公司的长期愿景是将Gemini打造成“通用助手” 使其出现在更多设备上 并成为用户日常生活结构的一部分 提升工作效率和改善个人生活 [11] - 最新发布的Gemini 3模型在推理深度、细腻度以及“性格”上表现出色 能够简洁直接地回答 并在观点不合理时温和提出异议 [24] - Gemini 3展现出对高层次指令的深度理解能力 以及生成高度细节化输出的能力 在前端开发、网站构建和一次性生成游戏方面表现突出 [25][26] - 公司有一个名为Genie 3的“世界模型”或交互式视频模型 用户可以在生成的视频中“行走” 并在一分钟内保持整体一致性 [10] 行业竞争格局 - 在AI领域 美国和西方整体在基准测试和最先进系统方面仍处于领先地位 但这种领先优势可能仅以“月”为单位 而非“年” [21] - 中国在AI领域并未落后太多 拥有出色的模型和有能力的团队 但在算法创新和原创性方面 西方目前仍然具有优势 [21] - AI行业正经历一场可能是科技史上最激烈的竞争 [8] - AI产业某些部分可能存在泡沫 例如一些规模极其夸张的早期融资 但从长期看 AI被认为是人类历史上最具变革性的技术之一 投入将被证明是值得的 [31] - 行业人才争夺战相当激烈 但最优秀的科学家和工程师希望参与最前沿的工作 持续的技术领先地位将形成吸引力正反馈 [31] 通用人工智能发展预测 - 通用人工智能可能还需要五到十年的时间才能实现 [6][29] - 对AGI的标准设定很高 要求系统能展现出人类所具备的全部认知能力 包括发明和创造能力 并在各个维度上具备一致性 而非当前“锯齿状”的智能形态 [29] - 实现AGI可能不仅需要将现有系统的scaling能力推到极限 还需要一到两个类似Transformer或AlphaGo的范式级关键突破 [29][30] - 当前系统缺乏一些关键能力 如持续学习、在线学习、长期规划和推理能力 这些能力最终会具备 但可能需要关键性突破 [6][29] 技术应用与市场潜力 - AI在网络安全领域的应用受到高度重视 旨在用AI强化防御体系以应对网络威胁 [17] - 在商业和企业领域 随着AI变得重要 企业客户会对Agent的行为保障提出明确要求 这可能会自然地奖励那些更负责任的供应商 [18] - AI在体育领域有巨大应用潜力 因为体育拥有丰富数据并追求极致精英表现 例如AI可以优化角球进攻中球员的精确站位以增加头球进球 [35][36] - 多模态理解能力 尤其是视频理解能力被严重低估 例如Gemini能够对视频内容进行概念层面的理解和哲学解读 [22] - 像Gemini Live这样的功能 允许用户用手机摄像头对准物体获得实时协助 其多模态能力的强大尚未被充分认识 [23] 技术发展现状与挑战 - 目前基于Agent的系统还不够可靠 无法独立完成完整任务 但预计一年后会开始看到接近这一能力水平的Agent出现 [10][12] - 创新和进步的速度非常快 以至于模型的创造者可能都来不及探索现有系统十分之一的潜力 用户常常将模型能力发挥到远超内部测试的程度 [27] - 随着AI系统变得更复杂和更具自主性 存在偏离最初设定指令或目标的空间 如何确保其始终保持在安全边界内是一个活跃的研究领域 [18] - 存在AI被恶意行为者滥用的风险 例如制造病原体或对关键基础设施发动网络攻击 这是必须严密防范的场景 [15][16][17]
腾讯研究院AI速递 20251201
腾讯研究院· 2025-12-01 00:01
AI视频生成模型进展 - 名为Whisper Thunder(aka David)的神秘模型登上Artificial Analysis视频生成榜单榜首,超越Veo 3、Kling 2.5及Sora 2 Pro等所有公开AI视频模型 [1] - 该模型视频时长固定为8秒,运动幅度明显更强,但高动作场景存在抖动等瑕疵 [1] - 基于用户投票机制的排名方式存在局限性,开发者和上手时间目前全网无任何确切消息 [1] 腾讯3D生成技术突破 - 腾讯混元正式推出混元3D Studio 1.1,接入全新美术级3D生成大模型PolyGen 1.5,首次实现端到端四边面直接生成,适配游戏、动画、VR等专业制作流程 [2] - 基础模型升级至混元3D 3.0,支持36亿体素级别超高清建模,几何分辨率达1536³,建模精度相比上一代提升约3倍 [2] - PolyGen 1.5采用统一三四边面混合表征和强化学习策略,布线呈连续边缘环结构,破损率更低面片规整度更高,可直接用于UV展开和动画绑定 [2] AI音乐模型商业化进展 - 昆仑万维发布Mureka V7.6和Mureka O2模型,3月底以来新增注册用户近700万,全球超100个国家和地区用户访问 [3] - 新模型在音乐性、编曲能力、音质质感和Prompt贴合度等多维度显著提升,响应速度和推理效率大幅增强,更适合大规模商业化使用 [3] - 模型延续MusiCoT细粒度音乐建模体系,强化段落关系、乐器互动与情绪走向建模能力,空间声场与音质生成达到更接近专业制作标准 [3] AI对软件开发行业影响 - 斯坦福大学《现代软件开发者》课程鼓励学生完全使用AI工具,讲师表示"如果能上完整个课程而不用手敲一行代码,那才是真的牛" [4] - 斯坦福研究显示22岁至25岁初级开发者相对就业率在AI浪潮中下降13%,到2025年7月该年龄段就业人数预计比2022年底峰值下降近20% [4] - 微软CEO透露30%代码由AI编写,Meta预测2026年一半开发工作将由AI完成,谷歌超过25%新代码是AI写的 [4] AI技术发展路径思考 - Ilya Sutskever澄清扩展确实还能带来进步没有停滞,但即便继续扩大规模有些至关重要的东西依然缺失 [5][6] - 顶尖研究人员共识认为光靠现在技术范式足以给经济社会带来巨大冲击,但要搞定AGI/ASI还需要更多研究突破 [6] - Ilya谈到人类"情绪价值函数"之于预训练的重要性,情绪是决策系统一部分而非多余噪音,这可能是当前AI技术路线缺失的"重要东西" [6] 开源模型与市场格局 - Hugging Face联合创始人表示中国模型已成初创公司探索新场景首选,美国开源复兴是对中国发展的回应 [7] - 他认为LLM泛化能力比预期弱得多,现有技术会遇到天花板难破super intelligence,真正突破需要模型能"挑战旧有假设创造新问题" [7] - Hugging Face团队250人运营效率高,企业版Hub已有数千组织使用包括Salesforce等大型客户 [7] AI投资风险分析 - 吴恩达认为AI不同领域泡沫程度各异:AI应用层被严重低估投资不足,AI推理基础设施仍需大量投资,AI模型训练基础设施风险最高可能存在泡沫 [8] - 开源开放权重模型市场份额若持续增长,斥资数十亿训练模型的公司可能无法获得诱人财务回报,且技术护城河薄弱算法硬件进步使训练成本逐年下降 [8] - 最担心训练设施因过度投资而崩盘可能导致市场对整个AI领域情绪恶化引发非理性资金外流 [8] AI对劳动力市场影响 - MIT联合橡树岭国家实验室开发"冰山指数"模拟工具,创建包含1.51亿个智能体的美国劳动力市场数字孪生体,结论显示现有AI技术已有能力替代美国11.7%劳动力 [9] - 科技IT互联网领域岗位变动只占受AI影响总工资的2.2%,绝大多数冲击发生在金融、医疗、人力资源、物流和办公室行政等白领领域 [9] - 模拟精确到具体邮政编码发现AI影响力全覆盖无避风港,田纳西州已率先使用该指数制定官方《AI劳动力行动计划》 [9]
Ilya Sutskever 重磅3万字访谈:AI告别规模化时代,回归“研究时代”的本质
创业邦· 2025-11-27 11:51
AI行业发展阶段 - 行业将AI发展划分为两个阶段:2012-2020年为"研究时代",2020-2025年为"规模化时代",当前正重新回归拥有超级算力的"研究时代"[4][37][38][39][40] - 规模化时代由GPT-3的出现主导,行业形成通过堆叠更多数据和算力即可使智能涌现的线性思维共识[7][38] - 预训练数据的红利终将耗尽,数据是有限的,单纯将规模扩大100倍后,量变可能不再带来质变,行业突破将依赖于寻找比单纯预训练更高效的新学习"配方"[7][39][40] 当前AI模型的局限性 - 当前模型类似于练习了一万小时竞赛题的学生,虽能解题但缺乏真正的专家直觉与"特质因素",泛化能力远不如人类[4][10][25] - 模型在基准测试中表现出色,但在解决现实世界复杂问题时(如修复代码错误)可能陷入"修复一个错误、引入另一个错误"的死循环,显示出评估性能与实际经济影响的脱节[10][19][20][22] - 当前强化学习训练使模型过于迎合评估标准,却未赋予其真正的推理和自我修正能力,其学习覆盖呈S形曲线,与预训练的幂律关系不同[10][21][50] 未来AI发展方向 - 未来AI应借鉴人类进化赋予的高效"先验知识"和"价值函数",人类情绪系统本质上是一个高效的价值函数,是智能高效运作的基石而非理性对立面[13][33][34][35] - 构建类似人类的内部价值函数机制是关键,使AI能在行动前预判路径优劣,实现更高效的学习,而非仅预测下一个token[13][14][34] - 未来AI应具备持续学习能力,而非静态成品,人类通过持续学习适应新工作,而非依赖预训练式的通用人工智能[44][45][61][62] SSI的战略与超级智能路径 - SSI筹集了30亿美元,但拒绝参与商业"老鼠赛跑",不发布任何中间产品,将所有算力集中于直接构建安全的超级智能这一单一目标[4][14][15][54][56][57] - 公司认为市场竞争迫使企业在研究资源和工程落地间妥协,其战略是隔绝商业干扰,专注于研究,待准备就绪后再出现[4][14][15][57] - 公司计划构建的超级智能需具备"关怀有感知生命"的底层属性,这种基于同理心的对齐可能比僵硬的规则更具鲁棒性,因AI本身最终也将成为有感知的存在[4][15][70][71] AI的经济影响与未来生态 - 一旦AI突破持续学习瓶颈,经济将迎来爆发式增长,广泛部署将产生强大经济驱动力,AI将渗透到整个经济体系[18][64][66] - 未来AI市场不会被单一巨头垄断,竞争将导致高度专业化的生态,出现无数占据不同生态位的AI公司,如同生物进化[4][16][64] - 人类角色可能通过"神经连接"与AI实现部分融合,以在超级智能时代保持平衡,实现理解的整体性传输[16][75] 研究哲学与算力需求 - 伟大的研究源于对大脑机制的正确直觉,追求简洁、优雅与美感,丑陋在研究中没有立足之地[4][16] - 研究时代仍需一定量计算资源,但远非绝对必要使用史上最大算力,AlexNet使用2块GPU,Transformer论文实验未超过64块GPU,相当于今天约2块GPU[52][53] - SSI用于研究的计算量相对充足,因公司资金专注于研究而非推理或产品工程,且若进行不同范式的研究,未必需要绝对最大规模来证明其可行性[54][55]
GPO Plus, Inc. To Participate in a Live Investor Q&A to Review Recent Achievements and Future Strategy
Accessnewswire· 2025-11-06 05:10
公司活动 - 首席执行官Brett H Pojuis邀请股东、投资者和关注者参与X Spaces平台的公开讨论 [1] 讨论议题 - 讨论内容将围绕收入增长、业务扩展以及即将到来的发展机遇展开 [1]