Workflow
锯齿智能
icon
搜索文档
卡帕西2025大模型总结火爆硅谷
量子位· 2025-12-20 12:20
文章核心观点 - 行业专家卡帕西认为,大模型的潜力仅被挖掘了10%,2025年将是AI技术范式、应用和交互方式发生关键变革的一年 [6][7] 大模型训练新范式:RLVR - 2025年,大模型训练范式从预训练、SFT、RLHF演进至RLVR(可验证奖励强化学习)阶段 [8][14] - RLVR使模型能在可自动验证的奖励环境中进行强化学习,自发形成复杂的推理策略(如问题分解、循环计算),这些策略在旧范式中极难实现 [8] - 与SFT和RLHF不同,RLVR涉及客观奖励函数训练,优化时间较长,但能带来更高的“能力/成本”比,并消耗原先用于预训练的计算资源 [10] - RLVR成为2025年大模型能力增长的重要驱动因素,在模型规模相当的前提下,强化学习的运行时间大幅延长 [11] - RLVR带来了新的调控手段和Scaling Law,可通过生成更长的推理轨迹和增加思考时间,来控制能力作为测试时间计算量的函数 [11] - 2024年末的o1模型是首个RLVR展示,而2025年初o3的发布是明显的拐点 [12] 对大模型智能本质的新认知 - 大模型的智能不应被简单类比为动物智能,其技术栈(神经架构、训练数据、训练算法、优化压力)的不同导致智能实体差异巨大 [13][16] - 人类神经网络为生存而优化,大模型神经网络则为模仿人类、获得奖励而优化 [17] - 随着RLVR在可验证领域的应用,大模型性能将快速爆发并呈现“锯齿状”特征,即“锯齿智能” [18] - “锯齿智能”模型既是通才,也存在认知局限,可能被越狱攻击导致数据泄漏 [19] - 基准测试因构建于可验证环境,极易受RLVR和合成数据影响,导致研发团队围绕基准测试优化,形成在测试集上训练的现象 [20][21] - 这解释了为何当前大模型能在基准测试中取得压倒性胜利,却仍未实现AGI [22] 应用层演进:Cursor与“Cursor for X” - Cursor的出现揭示了大模型应用的新层面,即“Cursor for X”,它不仅是模型接口,更是围绕模型调用构建的应用层 [23][24] - 该应用层能进行上下文工程、协调多个模型调用组成复杂DAG(需权衡性能与成本)、提供特定应用GUI、并带有自主性滑块 [24][30] - 行业在讨论新AI应用层的“厚度”,即其价值会被底层模型实验室榨干,还是为垂直领域应用开发者留下空间 [24] - 卡帕西预测,大模型实验室将趋向于培养“能力全面的大学毕业生”,而应用开发者则负责组织、微调,并让这支“学生团队”在特定行业(通过引入私有数据、传感器、执行器及反馈闭环)中成为可部署、可交付成果的专业人才 [24] 智能体发展:Claude Code加速端侧普及 - Claude Code是首个令人信服的大模型智能体范例,它采用循环方式结合工具使用与推理以解决复杂问题 [26][27] - 其关键优势在于能在个人电脑上运行,充分利用用户的私有环境、数据和上下文 [27] - 与OpenAI将精力集中于由ChatGPT编排的云部署容器不同,Claude Code专注于端侧部署 [28] - 尽管云端智能体集群被视为AGI的终极形态,但当前大模型能力参差不齐,发展处于缓慢过渡阶段 [29] - 在此现实下,Claude Code让智能体本地运行、适配开发者工作流,更贴合实际需求,并以美观简约的命令行界面改变了人们对AI的传统认知,使其如同栖息在个人电脑中的小精灵 [32][33] 编程范式变革:Vibe Coding - 2025年,AI跨越能力门槛,可通过自然语言构建程序,即“氛围编程” [34] - 氛围编程使编程不再局限于专业人士,任何人都能参与,专业人士也能借此编写更多有意思的软件 [37] - 例如,卡帕西在nanochat项目中,就用氛围编程的方式在Rust语言中编写了定制的高效BPE分词器,而无需采用现有库或学习更多Rust知识 [37] - 氛围编程将重塑软件行业并改变现有的工作内容 [38] 人机交互新范式:Nano Banana - 谷歌的Gemini Nano Banana是2025年最令人惊讶、最具范式转移意义的模型之一 [40] - 大模型被视为继计算机时代后的下一个主要计算范式,尤其在用户界面和用户体验方面与计算机有相似性 [42] - 由于人们喜欢以视觉和空间方式获取信息,大模型也应提供类似格式,对文本进行美化和视觉排版 [43] - Nano Banana展现了这一趋势,它并非只关注图像生成,而是将文本生成、图像生成和世界知识融合在一起,为未来大模型GUI发展提供了参考 [43]
DeepSeek陈德里:这一轮的AI革命,我们还处在上半场 | 直击乌镇
新浪科技· 2025-11-07 17:36
当前人工智能的局限性 - 当前AI不具备人类那样稳定且可跨领域泛化的智力 在某些复杂领域表现卓越但在一些简单任务上表现离奇 这种智能被称为“锯齿智能” [1] - 问题根源在于AI训练完成后无法像人类一样在真实世界进行持续的自我迭代和进化 [1] - 人类大脑仅提供核心学习算法和少量本能 大部分知识通过后天终身学习获得 [1] 人工智能的未来发展路径 - 解决当前局限性的方向是让AI具备稳定泛化的学习算法 并建立与真实世界的更多链接 如多模态和具身智能 使模型能在真实环境中进行持续学习和自我迭代 [1] - 从10~20年实现AGI的长期视角看 当前问题均可解决 因为技术发展具有加速度 [2] - 以ChatGPT为例 三年前其做小学数学题经常出错 但现在已能在国际奥林匹克数学竞赛获得金牌 表明技术迈过关键节点后将迎来跨越式发展 [2] 行业发展阶段判断 - 本轮AI革命目前仍处于上半场 甚至是上半场的早期 [2] - 对技术发展应保持乐观态度 [2]
诺奖得主谈「AGI试金石」:AI自创游戏并相互教学
36氪· 2025-08-19 08:00
Genie 3 世界模型 - Genie 3 是 DeepMind 多个研究分支融合的成果,核心目标是构建“世界模型”,让 AI 理解物理世界的规律,包括物理结构、材料特性、液体流动、生物行为等 [3] - 通过 3D 游戏引擎等模拟环境生成大量数据,让 AI 在虚拟场景中学习现实规律,能生成具有一致性的世界,用户返回虚拟场景时状态与离开时保持一致 [4] - 已用于内部训练,游戏 agent SIMA 可直接操控电脑游戏,Genie 3 实时生成对应的环境变化,形成“AI 生成世界、另一个 AI 探索”的闭环,为机器人技术和 AGI 系统创建无限训练数据 [4] - 在互动娱乐领域有潜在价值,可能催生介于电影与游戏之间的新型娱乐形式,与视频模型共同为探索现实本质提供新维度 [5] Game Arena 评估平台 - Google DeepMind 与 Kaggle 合作推出 Game Arena,作为评估 AGI 进展的新测试平台,让模型玩各种游戏并测试能力 [6] - 游戏是非常纯粹的测试场所,通过 Elos 等级分客观衡量性能,没有主观性,不需要人类进行 A/B 测试 [9] - 随着 AI 系统能力提升,游戏难度可自动调整,系统在比赛中相互较量,能力增强则测试自动升级 [9] - 未来支持 AI 自创游戏并相互教学,避免训练数据过度拟合,更真实检验通用学习能力 [10] - 将与其他新型评估工具共同作用,确保 AI 系统在认知能力的各个维度得到全面检验 [11] AI 系统现状与挑战 - 当前 AI 系统存在能力不均衡现象,能在 IMO 中获得金牌,却可能在高中数学、简单逻辑问题或特定游戏中犯低级错误 [7] - 现有评估基准存在局限性,很多 benchmark 开始变得饱和,例如数学领域 AIME 的正确率已达 99.2%,进入回报非常有限的阶段 [7] - 需要更难、更广泛的 benchmark,涵盖物理世界理解、直觉物理、物理智能及安全特性等维度 [8] Thinking 模型与工具使用 - Thinking 模型演进是重要方向,以 Deep Think 为代表的系统延续 AlphaGo 等早期游戏 AI 的 agent 系统思路,强调思考、规划与推理能力 [12] - 可进行深度思考和并行规划,在数学、编程、科学问题等领域通过反复推演优化结果,而非直接输出初始结论 [12] - 工具使用成为 AI 能力扩展的新维度,在推理过程中可调用搜索功能、数学程序、编码工具等,更新规划方案 [12] AI 系统架构转变 - AI 正从权重模型向完整系统转变,早期模型输入输出模式较简单,如今系统能结合工具使用、规划与思考能力,实现更复杂功能 [13] - 产品设计需具备前瞻性,预判一年后技术水平,允许底层引擎定期更新,周期可能短至三到六个月,以适应技术快速迭代 [13]