锯齿智能 - 财报，业绩电话会，研报，新闻

锯齿智能

搜索文档

卡帕西2025大模型总结火爆硅谷

量子位· 2025-12-20 12:20

文章核心观点 - 行业专家卡帕西认为，大模型的潜力仅被挖掘了10%，2025年将是AI技术范式、应用和交互方式发生关键变革的一年 [6][7] 大模型训练新范式：RLVR - 2025年，大模型训练范式从预训练、SFT、RLHF演进至RLVR（可验证奖励强化学习）阶段 [8][14] - RLVR使模型能在可自动验证的奖励环境中进行强化学习，自发形成复杂的推理策略（如问题分解、循环计算），这些策略在旧范式中极难实现 [8] - 与SFT和RLHF不同，RLVR涉及客观奖励函数训练，优化时间较长，但能带来更高的“能力/成本”比，并消耗原先用于预训练的计算资源 [10] - RLVR成为2025年大模型能力增长的重要驱动因素，在模型规模相当的前提下，强化学习的运行时间大幅延长 [11] - RLVR带来了新的调控手段和Scaling Law，可通过生成更长的推理轨迹和增加思考时间，来控制能力作为测试时间计算量的函数 [11] - 2024年末的o1模型是首个RLVR展示，而2025年初o3的发布是明显的拐点 [12] 对大模型智能本质的新认知 - 大模型的智能不应被简单类比为动物智能，其技术栈（神经架构、训练数据、训练算法、优化压力）的不同导致智能实体差异巨大 [13][16] - 人类神经网络为生存而优化，大模型神经网络则为模仿人类、获得奖励而优化 [17] - 随着RLVR在可验证领域的应用，大模型性能将快速爆发并呈现“锯齿状”特征，即“锯齿智能” [18] - “锯齿智能”模型既是通才，也存在认知局限，可能被越狱攻击导致数据泄漏 [19] - 基准测试因构建于可验证环境，极易受RLVR和合成数据影响，导致研发团队围绕基准测试优化，形成在测试集上训练的现象 [20][21] - 这解释了为何当前大模型能在基准测试中取得压倒性胜利，却仍未实现AGI [22] 应用层演进：Cursor与“Cursor for X” - Cursor的出现揭示了大模型应用的新层面，即“Cursor for X”，它不仅是模型接口，更是围绕模型调用构建的应用层 [23][24] - 该应用层能进行上下文工程、协调多个模型调用组成复杂DAG（需权衡性能与成本）、提供特定应用GUI、并带有自主性滑块 [24][30] - 行业在讨论新AI应用层的“厚度”，即其价值会被底层模型实验室榨干，还是为垂直领域应用开发者留下空间 [24] - 卡帕西预测，大模型实验室将趋向于培养“能力全面的大学毕业生”，而应用开发者则负责组织、微调，并让这支“学生团队”在特定行业（通过引入私有数据、传感器、执行器及反馈闭环）中成为可部署、可交付成果的专业人才 [24] 智能体发展：Claude Code加速端侧普及 - Claude Code是首个令人信服的大模型智能体范例，它采用循环方式结合工具使用与推理以解决复杂问题 [26][27] - 其关键优势在于能在个人电脑上运行，充分利用用户的私有环境、数据和上下文 [27] - 与OpenAI将精力集中于由ChatGPT编排的云部署容器不同，Claude Code专注于端侧部署 [28] - 尽管云端智能体集群被视为AGI的终极形态，但当前大模型能力参差不齐，发展处于缓慢过渡阶段 [29] - 在此现实下，Claude Code让智能体本地运行、适配开发者工作流，更贴合实际需求，并以美观简约的命令行界面改变了人们对AI的传统认知，使其如同栖息在个人电脑中的小精灵 [32][33] 编程范式变革：Vibe Coding - 2025年，AI跨越能力门槛，可通过自然语言构建程序，即“氛围编程” [34] - 氛围编程使编程不再局限于专业人士，任何人都能参与，专业人士也能借此编写更多有意思的软件 [37] - 例如，卡帕西在nanochat项目中，就用氛围编程的方式在Rust语言中编写了定制的高效BPE分词器，而无需采用现有库或学习更多Rust知识 [37] - 氛围编程将重塑软件行业并改变现有的工作内容 [38] 人机交互新范式：Nano Banana - 谷歌的Gemini Nano Banana是2025年最令人惊讶、最具范式转移意义的模型之一 [40] - 大模型被视为继计算机时代后的下一个主要计算范式，尤其在用户界面和用户体验方面与计算机有相似性 [42] - 由于人们喜欢以视觉和空间方式获取信息，大模型也应提供类似格式，对文本进行美化和视觉排版 [43] - Nano Banana展现了这一趋势，它并非只关注图像生成，而是将文本生成、图像生成和世界知识融合在一起，为未来大模型GUI发展提供了参考 [43]

DeepSeek陈德里：这一轮的AI革命，我们还处在上半场 | 直击乌镇

新浪科技· 2025-11-07 17:36

当前人工智能的局限性 - 当前AI不具备人类那样稳定且可跨领域泛化的智力在某些复杂领域表现卓越但在一些简单任务上表现离奇这种智能被称为“锯齿智能” [1] - 问题根源在于AI训练完成后无法像人类一样在真实世界进行持续的自我迭代和进化 [1] - 人类大脑仅提供核心学习算法和少量本能大部分知识通过后天终身学习获得 [1] 人工智能的未来发展路径 - 解决当前局限性的方向是让AI具备稳定泛化的学习算法并建立与真实世界的更多链接如多模态和具身智能使模型能在真实环境中进行持续学习和自我迭代 [1] - 从10~20年实现AGI的长期视角看当前问题均可解决因为技术发展具有加速度 [2] - 以ChatGPT为例三年前其做小学数学题经常出错但现在已能在国际奥林匹克数学竞赛获得金牌表明技术迈过关键节点后将迎来跨越式发展 [2] 行业发展阶段判断 - 本轮AI革命目前仍处于上半场甚至是上半场的早期 [2] - 对技术发展应保持乐观态度 [2]

Seek .(US:SKLTY)

Artificial Intelligence

AGI

具身智能

锯齿智能

Artificial Intelligence

AGI

具身智能

锯齿智能

Artificial Intelligence

诺奖得主谈「AGI试金石」：AI自创游戏并相互教学

36氪· 2025-08-19 08:00

Genie 3 世界模型 - Genie 3 是 DeepMind 多个研究分支融合的成果，核心目标是构建“世界模型”，让 AI 理解物理世界的规律，包括物理结构、材料特性、液体流动、生物行为等 [3] - 通过 3D 游戏引擎等模拟环境生成大量数据，让 AI 在虚拟场景中学习现实规律，能生成具有一致性的世界，用户返回虚拟场景时状态与离开时保持一致 [4] - 已用于内部训练，游戏 agent SIMA 可直接操控电脑游戏，Genie 3 实时生成对应的环境变化，形成“AI 生成世界、另一个 AI 探索”的闭环，为机器人技术和 AGI 系统创建无限训练数据 [4] - 在互动娱乐领域有潜在价值，可能催生介于电影与游戏之间的新型娱乐形式，与视频模型共同为探索现实本质提供新维度 [5] Game Arena 评估平台 - Google DeepMind 与 Kaggle 合作推出 Game Arena，作为评估 AGI 进展的新测试平台，让模型玩各种游戏并测试能力 [6] - 游戏是非常纯粹的测试场所，通过 Elos 等级分客观衡量性能，没有主观性，不需要人类进行 A/B 测试 [9] - 随着 AI 系统能力提升，游戏难度可自动调整，系统在比赛中相互较量，能力增强则测试自动升级 [9] - 未来支持 AI 自创游戏并相互教学，避免训练数据过度拟合，更真实检验通用学习能力 [10] - 将与其他新型评估工具共同作用，确保 AI 系统在认知能力的各个维度得到全面检验 [11] AI 系统现状与挑战 - 当前 AI 系统存在能力不均衡现象，能在 IMO 中获得金牌，却可能在高中数学、简单逻辑问题或特定游戏中犯低级错误 [7] - 现有评估基准存在局限性，很多 benchmark 开始变得饱和，例如数学领域 AIME 的正确率已达 99.2%，进入回报非常有限的阶段 [7] - 需要更难、更广泛的 benchmark，涵盖物理世界理解、直觉物理、物理智能及安全特性等维度 [8] Thinking 模型与工具使用 - Thinking 模型演进是重要方向，以 Deep Think 为代表的系统延续 AlphaGo 等早期游戏 AI 的 agent 系统思路，强调思考、规划与推理能力 [12] - 可进行深度思考和并行规划，在数学、编程、科学问题等领域通过反复推演优化结果，而非直接输出初始结论 [12] - 工具使用成为 AI 能力扩展的新维度，在推理过程中可调用搜索功能、数学程序、编码工具等，更新规划方案 [12] AI 系统架构转变 - AI 正从权重模型向完整系统转变，早期模型输入输出模式较简单，如今系统能结合工具使用、规划与思考能力，实现更复杂功能 [13] - 产品设计需具备前瞻性，预判一年后技术水平，允许底层引擎定期更新，周期可能短至三到六个月，以适应技术快速迭代 [13]