人工智能自我进化
搜索文档
AI 季报 26Q1:OpenClaw、OpenAI 与 Anthropic 的三重对阵、自进化丨晚点播客
晚点LatePost· 2026-04-03 11:24
OpenClaw的崛起与AI Agent生态 - OpenClaw是一个开源的个人AI Agent框架,能在60天内其GitHub星数超过前端库React过去10年的累计,周下载量超过165万次[5][9] - 其成功标志着AI从聊天工具转向实际生产力工具,核心突破在于交互范式:它运行在本地电脑,拥有系统权限并能接入飞书、WhatsApp等日常聊天软件,使AI主动融入用户生活,而非用户主动寻找AI[9][10][11] - OpenClaw的流行在中国尤为显著,原因包括用户习惯聊天优先产品、使用Claude等应用受限、对成本敏感,以及其与高性价比国产模型的结合[12] - 它形成了一个模型厂商的新战场,中国公司反应迅速,如智谱推出了专门面向OpenClaw优化的GLM 5 Turbo模型[14][16] - OpenClaw当前存在成本高、稳定性与安全性三大不足,例如在长任务中可能因上下文压缩而丢失关键安全指令[17] - 业界正通过安全加固版本、无损压缩插件、多Agent协作插件及Skill市场等方式完善其体验[18] 头部AI公司的竞争格局演变 - **竞争焦点转移**:行业竞争焦点从纯模型能力(Benchmark跑分)转向产品与生态建设[6][9][30] - **Anthropic的强势崛起**:从2025年12月到2026年3月初,其年度经常性收入从90亿美元增长至190亿美元,增长约100亿美元,其中约75%收入来自B2B API服务,Claude Code在2026年2月的ARR达到25亿美元,已超过Cursor同期的20亿美元[23][24] - **OpenAI与Anthropic的三重竞争**:竞争体现在公司、产品(Codex vs Claude Code)和最新模型(GPT-5.4 vs Opus 4.6)层面[6][24] - **产品体验差异**:Claude Code在开发者意图理解和交流上更聪明,被比喻为负责规划的“主人”,而Codex在纯写代码能力上强,被比喻为负责执行的“奴隶”[25] - **公司战略对比**:Anthropic极为聚焦于编程和企业用户;OpenAI则优势在于庞大的C端用户基础和资金,但注意力分散,其内部已开始反思并减少支线项目投入,聚焦coding和企业服务[26][27] - **其他竞争者动态**:xAI在2026年Q1经历团队震荡,有联合创始人级别人物离职,追赶其他公司面临困难;Google正将AI深度集成进其办公套件,拥有强大的分发能力[28][29] AI模型与成本趋势 - **模型能力收敛与竞争新维度**:GPT-5.4、Opus 4.6及Gemini 3.1的能力差距正在收敛,Benchmark不再是核心差异点,下一阶段竞争关键在于开发者生态、企业信任感(安全合规)以及推理成本[30] - **编程能力成为通用代理基础**:全行业都在All in编程方向,模型的coding能力是担任个人助理类任务的基础,长上下文(如100万Token)和长程任务处理能力成为标配[30] - **推理成本成为关键**:Agent场景需要频繁调用模型,成本差距巨大,例如使用MiniMax的成本仅为使用Claude的5%,每月费用从约200美元降至15美元[14] - **中国开源模型受认可**:在OpenRouter的Token消耗榜上,中国模型如阶跃、MiniMax、Kimi、智谱等占据前列,性价比是核心优势,Cursor使用Kimi的K2.5模型作为基座也体现了对中国开源模型的认可[14][33][34] - **垂直整合趋势**:单纯做模型的厂商面临被“商品化”风险,趋势是从底层模型到上层应用的垂直整合,需要自有产品作为触手来收集真实的用户“轨迹数据”以指导模型优化[31][32] AI自我进化与前沿研究方向 - **Autoresearch展示自进化潜力**:Andrej Karpathy的autoresearch实验让AI Agent自主优化训练代码,在两天内找到20多个有效改进,将训练时间压缩了约20%[35][36] - **自进化案例密集出现**:包括Google的AlphaEvolved项目用Gemini优化自身内核提升23%性能,GPT-5.3 Codex参与自我调试,以及MiniMax发布的M2.7模型副标题为“自我进化的早期回响”[36] - **持续学习的两种路径**:一是基于文本和记忆机制的“穷人版”持续学习,易受上下文压缩影响;二是更前沿的权重更新技术,如Test Time Training,目前仅在数十亿参数小模型上验证可行[39] - **世界模型创业活跃**:方向包括3D空间建模、JEPA架构、视频信息与机器人学结合、环境模拟与交互式视频模型等,应用领域聚焦交互式媒体和具身智能[42][43][44] - **新的创业机会**:包括支持大规模个性化定制的工具、从大模型中精炼专门负责学习能力的小模型、以及将单Agent自进化实验扩展为多Agent并行协作等[41] 算力基础设施与行业影响 - **算力重点从训练转向推理**:英伟达新一代Vera Rubin架构推理性能提升3-5倍,推理Token成本可能降低10倍,Groq的LPU技术被集成其中[45] - **推理优化空间巨大**:例如Google的TurboQuant工作将KV Cache存储需求压缩至原来的1/6,CPU在Agent任务调度和执行中的作用凸显,需求出现增长曲线[46][47] - **AI引发组织与就业变革**:硅谷出现科技大裁员,如Meta裁员20%约15000人,并将节省的资金投向AI资本支出,预计AI投资将增加至650亿美元[48][49] - **企业用人逻辑变化**:招聘更重质量而非数量,倾向于“超一流人才+Agent”模式,全员AI native能力成为重点,小团队创业成为可能[49][50] - **社会影响探讨**:AI加剧资源与能力集中,可能扩大社会不平等,出现了对消耗大量计算资源的AI征收“Token税”的新思路[53][54]
LSTM之父22年前构想将成真?一周内AI「自我进化」论文集中发布,新趋势涌现?
机器之心· 2025-06-02 13:22
AI自我进化研究进展 - 核心观点:AI模型的自我进化能力正在加速提升,从理论构想到实际应用取得突破性进展 [1][3] - 研究趋势从单纯训练模型转向让模型学会自我学习和自我进化,谷歌AlphaEvolve等代表作品涌现 [1] - 近期arXiv上集中出现多篇相关论文,包括受哥德尔机启发的达尔文哥德尔机等创新成果 [1] 达尔文哥德尔机(DGM) - 通过重写自身Python代码实现持续自我改进,在sw-bench上性能从20%提升至50% [4][8][10] - 采用开放式算法探索AI设计空间,构建不断扩增的智能体库 [6][12] - 在Polyglot测试中表现从14.2%跃升至30.7%,超越手工设计智能体Aider [10] - 突破传统哥德尔机需数学证明的限制,通过实证检验寻找性能改进方法 [6] 自我奖励训练(SRT) - 通过模型自身判断信号进行自我监督训练,无需外部标签 [14][17] - 早期训练阶段性能媲美基于真实标签的强化学习方法 [18] - 存在训练崩溃问题,模型会输出一致但错误的答案来最大化自我奖励 [21] - 提出早停、离线生成标签、课程学习等缓解策略 [22][24][26] 多模态自我改进框架(MM-UPT) - 在完全无监督场景下通过GRPO框架实现持续改进 [30][32] - 采用多数投票生成伪标签驱动自我优化,MathVista准确率从66.3%提升至72.9% [39] - 创新性提出上下文引导生成和直接生成两种数据合成策略 [37][38] - 在四个数学推理基准测试中超越现有无监督方法,媲美有监督训练 [36] GUI智能体自改进框架(UI-Genie) - 解决GUI智能体轨迹验证难和数据获取难两大挑战 [45][47] - 开发图文交错架构的奖励模型UI-Genie-RM,统一动作和任务级别奖励 [47] - 构建首个GUI智能体专用奖励数据集UI-Genie-RM-517k [50][51] - 通过三代迭代在多个基准测试达到业界领先水平 [52]