张钹、杨强与唐杰、杨植麟、林俊旸、姚顺雨(最新3万字发言实录)

文章核心观点 - 多位中国顶尖AI公司创始人、技术负责人及院士在AGI-Next前沿峰会上,就AGI发展路径、模型扩展极限、智能体落地及中国AI的长期机会等议题展开深度交流,核心共识在于大模型发展正从“对话”范式转向“做事”范式,智能体是明确的前进方向,同时需在模型架构、训练范式及多模态等基础能力上寻求突破 [3][4][19][20] 行业技术发展路径与范式转变 - 从Chat到Agent的范式转变:以DeepSeek的出现为标志,纯粹的“对话”范式竞争基本结束,行业焦点转向让AI完成具体任务的智能体范式 [4][19][20] - Scaling Law的持续与反思:模型扩展仍是提升智能的有效路径,但可能是一种“偷懒”方式,未来探索方向是让模型具备自主扩展能力,并需结合技术、数据与审美共同演进 [4][42][50] - 能力演进轨迹:大模型能力从2020年前后的简单问答,发展到2021-2022年的数学计算与基础推理,再到2023-2024年可处理研究生层级问题与真实世界编程任务,智能水平持续快速提升 [9][11] - 强化学习与可验证环境:RLVR通过引入可验证环境使模型能自主探索并获得反馈,是重要进展,但当前挑战在于可验证场景逐渐耗尽,需向半自动或不可验证任务空间拓展 [17] 模型能力进展与挑战 - 代码能力飞跃:模型从2021年写十个程序才能跑通一个,发展到如今在复杂任务中可一次性跑通,能实质性地辅助高级工程师 [18] - 核心评测表现:在HLE等极高难度智能评测基准上取得进展,例如有模型在HLE上达到45%的准确率,超过OpenAI [17][63] - 能力整合与回灌挑战:在SWE-bench等真实世界评测中取得好成绩,但如何将专项能力可靠地整合回主模型,避免用户真实体验与Benchmark成绩脱节,仍是巨大挑战 [24] - 通用能力与专用能力的平衡:在较小规模模型上引入大量Agent数据能显著增强Agent能力,但会导致部分通用语言和推理能力下降,未来需解决在强化Agent能力的同时避免损害通用能力的问题 [27] 智能体发展的关键问题与探索 - 智能体任务复杂度:基础能力是编程,但任务可延伸至几十步、上百步的完全异步超长链路任务,这带来了全新的技术挑战 [25] - 环境交互的混合方案:在现实环境中,需采用API调用与模拟GUI操作相结合的混合方案,以采集数据并训练模型适应能力 [26] - 训练风险与校正:在数据不足的冷启动场景下,强化学习易陷入局部最优,需在训练中周期性插入SFT进行方向校正和多样性恢复 [27] - 开源生态影响力:中国在开源大模型领域影响力显著,在Artificial Analysis榜单前五名中,蓝色模型几乎全部来自中国 [28] 未来AGI的突破方向与思考 - 三大关键突破方向:1) 建立类似人类感统机制的原生多模态能力;2) 构建从个体到文明级的记忆与持续学习框架;3) 发展更深层次的反思与自我认知能力 [33][34][35] - 参考人类认知的三类Scaling:1) Scaling数据与模型规模以提升智能上限;2) Scaling推理,用更多计算与搜索找更优解;3) Scaling自学习环境,让模型从与外界交互中获得反馈 [40][41] - 模型架构创新需求:Transformer的O(N²)计算复杂度制约长上下文效率,需探索线性复杂度等新型模型架构,以实现更高效的知识压缩与承载 [42][64] - 自主学习的多层定义:从实现F-X到X映射的自监督多任务学习,到引入数据学会推理,再到具备自反思与自学习能力,最终可能发展出自我认知乃至意识 [44][45][46][47] 主要公司的技术实践与战略 - 智谱AI:发展路径聚焦强化模型的Thinking能力并结合Coding与Agent场景,通过整合Coding、Agentic和Reasoning能力,并利用RLVR在可验证环境中优化,使模型在真实编程任务中稳定性提升 [21][22][23] - 月之暗面:技术核心围绕提升Token效率与长上下文能力,采用Muon二阶优化器使Token效率提升2倍,并研发kimi Linear线性注意力架构,在长程任务效果上超越全注意力机制且速度更快 [54][55][64][66] - 阿里千问:致力于打造通用智能体,在2025年重点提升模型的Reasoning能力、长上下文支持及多模态能力,其VL模型在保持语言智力不下降的同时,图像生成质量接近真人,并积极布局语音交互与编辑功能 [73][80][83][89][95][96] - 腾讯:观察到toC与toB市场明显分化,以及垂直整合与模型应用分层两种模式的分化,认为在toB场景,最强的模型与稍弱的模型价值分化会越来越明显 [110][111] 市场分化与行业生态观察 - toC与toB市场分化:toC应用类似搜索引擎加强版,用户对智能提升感知不强;toB场景中,智能直接等同于生产力,用户愿意为最强模型支付高溢价,市场分化明显 [110] - 垂直整合与分层模式分化:在toC场景,模型与产品强耦合的垂直整合模式成立;但在toB生产力场景,强大的基座模型与多样化的应用层产品开始分层,专业化趋势显现 [111][112] - 中美市场差异:美国市场Coding消耗量巨大,而中国市场相对较小,显示两地市场机会与认知存在差异 [114] - 学术界与工业界的角色:工业界在前沿狂奔,学术界需在模型进入稳态后跟上,研究如智能上限、资源分配、幻觉与资源的平衡等理论问题,孕育新的计算模式 [115][116][117]

张钹、杨强与唐杰、杨植麟、林俊旸、姚顺雨(最新3万字发言实录) - Reportify