Token efficiency
搜索文档
姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲!基模四杰中关村论英雄
量子位· 2026-01-10 21:17
清华大学AGI-Next前沿峰会核心观点 - 峰会由清华大学基础模型北京市重点实验室发起,汇聚了智谱、Kimi、阿里等中国AI领域核心公司的领军人物,信息密度极高[1][4][5] - 核心讨论围绕大模型技术发展轨迹、当前范式转变(从Chat到做事)、未来AGI发展方向以及中美竞争格局展开[7][54] 大模型技术发展轨迹与范式转变 - 大模型智能水平发展轨迹类似人类成长:2020年前后解决简单问题,2021-2022年进入数学计算和基础推理,2023-2024年走向复杂推理并处理真实世界任务(如SWE-bench)[18][19] - 2025年模型整体能力仍在快速提升,但核心问题是从规模扩展(Scaling)走向真正的泛化能力[21][22][25] - DeepSeek的出现标志着“Chat”范式基本结束,行业共识是下一步从“对话”走向“做事”,让AI完成具体任务[7][32][33][34] - 智谱AI在2025年7月28日发布的4.5版本中,整合了Coding、Agentic和Reasoning能力,在12个Benchmark评测中取得领先,但面对真实复杂任务(如一句话生成植物大战僵尸游戏)仍频繁出Bug[37][38][39] - 通过引入可验证强化学习(RLVR)在真实编程和Web环境中获取反馈,智谱AI的模型在SWE-bench等评测中成绩提升,并于2025年底在ArtificialAnalysis榜单取得不错综合成绩[39][40][41][43] 智能体(Agent)与编程(Coding)能力发展 - 智能体的基础能力是编程,但复杂任务(如数十步、上百步的异步长链路任务)需要全新的能力形态[44][45] - 面对冷启动问题(缺乏现成数据),行业采用混合方案:对AI友好场景优先调用API,对人友好场景让AI模拟GUI操作,通过采集交互数据进行全异步强化学习[46][47] - 智谱AI在2025年12月开源了9B规模的AutoGLM模型,该模型在Agent任务上能力显著增强,但部分通用语言能力下降,显示出强化特定能力与保持通用性之间的权衡[51] - 代码能力发生质变:2021年模型写十个程序才能跑通一个,如今在复杂任务中往往可以一次性跑通,实质性辅助高级工程师工作[30][31] - 阿里通义千问在2025年专注于打造通用智能体(Generalist Agent),其Coding模型在SWE-bench评测中达到70分,并关注贴近实际生产任务[123][141][142][144] 模型架构与训练技术的创新 - Transformer成为主流架构的核心原因是在Scaling Law上表现优于LSTM,尤其是在长上下文(Long Context)场景下[94][95][97] - 模型架构迭代的目标是追求更高的Token效率(用更少的Token达到相同效果)和更强的长上下文能力,这两者是实现优秀Agent智能的关键[96][98][99][100] - Kimi团队在2025年采用MUON二阶优化器,相比传统的Adam优化器,实现了2倍的Token效率提升,相当于用50%的数据达到相同的Test Loss[100][102] - Kimi团队研发了kimi Linear架构(一种线性注意力机制)和kimi Delta Attention,旨在实现线性复杂度的同时,在长短程任务上的效果超越原始Transformer全注意力机制,并带来6到10倍的端到端速度优势[101][110][112][115] - 训练体系面临挑战,智谱AI开发了全异步强化学习训练框架来解决不同RL任务调度难题,并于2025年开源[41] 未来AGI发展方向与挑战 - 人类领先于当前模型的几类能力可能是突破方向:1) 原生多模态感统机制;2) 记忆与持续学习(从个体记忆扩展到文明级记忆);3) 反思与自我认知能力[57][59][61][63][64] - 参考人类双系统认知(系统一处理95%任务,系统二处理5%复杂任务),AI系统可规划为系统一(大规模模型)、系统二(推理机制)和自学习模块[65][66][67][68] - 未来的Scaling包含三个维度:1) 扩展数据与模型规模;2) 扩展推理(延长思考时间);3) 扩展自学习环境(增加与外界交互反馈)[74][75][76][77] - Transformer的O(N²)计算复杂度是瓶颈,需要寻找像人脑一样用更小“容量”承载更大知识量的新压缩方法和模型架构[78][79][80] - 行业思考的五层能力演进:从函数映射,到学会推理,再到具备自反思与自学习能力,最终可能发展出自我认知甚至意识[83][84][85][86][87] - 2026年及以后的重点方向包括:区分已知路径与未知路径的Scaling、推进全新模型架构解决超长上下文和知识压缩、重点发展多模态感统能力,并判断2025年可能成为AI for Science的重要突破年份[89] 中美竞争格局与行业分化 - 在Artificial Analysis榜单前五名中,蓝色模型几乎全部来自中国,说明中国在开源大模型领域已形成显著影响力[53] - 阿里通义林俊旸认为,中国想在AI赛道反超美国很难,20%这个数字已经很乐观[7] - 行业出现明显分化:1) to C 和 to B 市场分化。to C用户大部分时候不需要那么强的智能,而to B市场智能直接等同于生产力,用户愿意为最强模型支付高溢价(例如200美元/月 vs 50美元/月)[170][173][175][176] - 2) 垂直整合与模型应用分层出现分化。to C应用(如ChatGPT、豆包)模型与产品强耦合,垂直整合成立;但to B场景趋势相反,强大的模型层与专注应用层的公司可能各司其职[170][176] - 学术界与工业界需要协同:工业界领头疯跑后,学术界应跟进解决基础科学问题,如智能上界、资源分配平衡、持续学习中的噪音清理(类似人类睡眠机制)、以及“无免费午餐定理”等[182][183][184][185] - 腾讯姚顺雨指出,做Coding Agent消耗量在中国没有美国那么大,市场认知存在差异[181] 开源生态与公司实践 - 智谱AI自2019年成立以来持续推动开源,涵盖模型、工具和开发者API体系,2025年成为GLM的“开源年”,陆续开源了包括GLM-4.6、4.6V、4.5V等多条模型线[9][10][52] - 阿里通义自2023年8月3日开始做开源,开源了从1.8B到大规模模型等多种型号,初衷包括帮助资源有限的硕士生、博士生完成实验毕业,并响应手机厂商等客户需求[125][126][127][128] - 阿里通义在2025年支持119种语言及方言,并致力于服务全球用户,包括收集难度较大的非洲语言数据[136][137] - 阿里通义在2025年推出Qwen3系列模型,重点提升推理(reasoning)能力,并致力于打造全模态模型,集成文本、视觉、语音的理解与生成能力[134][135][158][159] - 阿里通义的视觉模型(VL)在2025年达到与235B语言模型持平的智力水平,解决了多模态模型常伴有的“变笨”问题,并增强了GUI操作、视觉推理等能力[145][147][148] - 阿里通义的图像生成模型Qwen-Image在2025年12月的版本相比8月版本有显著提升,生成图像更接近真人,并重点优化了图像编辑功能(如精确对象移除、光线调整)[152][153][154]