Workflow
持续学习
icon
搜索文档
在OpenAI“创新已经变得困难”,离职高管深喉爆料
36氪· 2026-01-23 21:12
OpenAI的创新与结构性困境 - 随着竞争加剧与组织急速膨胀,OpenAI正逐渐陷入一种难以再承担真正高风险研究的结构性困境,一些前沿创新的研究方向已经难以在内部推进 [1] - 成本、增长压力等多重因素影响了OpenAI对风险的“胃口”,同时该公司尚未找到良好的跨团队研究协作模式 [3] - 对OpenAI来说,“集中力量办大事”已经变得有些困难,阻碍AI Lab研究的因素不是算力短缺,而是缺乏专注 [5] 行业竞争格局与路径趋同 - 当前全球范围内争夺“最佳AI模型”的竞争异常激烈且严苛,几乎所有主要AI公司都面临持续展示实力、不断推出最强模型的巨大压力 [8] - 目前大概有五家严肃的AI公司,使用几乎相同的技术配方,在同一技术基础上构建略有差异的产品,模型之间缺乏真正的多样性 [14][15] - 谷歌的崛起与其说是“回归”,不如说是OpenAI自己犯了错误,没能充分把握住自己的领先优势,OpenAI本应该持续领先 [3][47] 技术发展方向与AGI展望 - Transformer架构肯定不是最终形态,模型仍然可以通过多种方式改进,而其中许多路径至今尚未被系统性地实践 [12] - 实现AGI仍然缺失关键拼图,架构创新与持续学习是两大重要方向,AGI预计将会在2029年左右实现 [5][28][32] - 强化学习将卷土重来,在强大的世界表征(通过大规模预训练获得)之上,通过强化学习构建能力层级是未来的方向 [26][27] 人才流动与创新环境 - AI领域的人才争夺战已演变成一场肥皂剧,有些人频繁地更换工作,而真正投入到工作的时间不多 [4][44] - 明星AI研究员并不是驱动创新的核心因素,公司本身能否打造个人责任感强、允许探索和做大事的环境,可能更为关键 [4][66][67] - 研究人员的高薪酬水平可能带来副作用,使人们变得不愿意失去工作,更倾向于追逐短期回报,从而抑制了冒险精神 [18] OpenAI的内部文化与执行力 - OpenAI从2019年约30人发展到现在的几千人,但公司瞄准AGI、改变世界的野心始终没变 [7] - OpenAI早期有相当高比例的波兰裔员工,他们以勤奋和能识破“忽悠”著称 [45][46] - OpenAI真正擅长的是把研究从1推进到100,即采纳初步验证的想法,并找出如何让它们在大规模训练前沿模型时可靠地工作 [64] 对其他AI公司的评价 - 在过去一年里,对Anthropic的钦佩程度大幅上升,其起步更晚、资源受限,但成功构建了正在改变软件开发方式的卓越产品 [53][54] - Meta的策略可能是利用行业已掌握的AI技术来构建连接人和打造体验的产品,从其作为一家极其盈利的社交网络公司角度来看,这可能是一种相当不错的策略 [50][51][52]
速递|“新实验室”浪潮汹涌:前OpenAI团队创立的Applied Compute,13亿美元估值融资在即
Z Potentials· 2026-01-21 13:52
由三位前 OpenAI 研究人员创立的初创公司 Applied Compute 正就以 13 亿美元估值筹集新资金进行谈判,包括该项投资在内。 Applied Compute 并非唯一一家以定制化为目标、拥有雄厚资金的初创公司。据 The Information 此前报道, Mira Murati 创立的 Thinking Machines Lab 近 日因员工大量离职而让一些投资者感到不安,该公司也表示计划通过强化学习技术,根据客户追踪的具体业务指标来定制模型。 Applied Compute 在营收方面仍处于早期阶段。首席执行官 Patil 在 X 上发文称,公司去年 11 月实现了 1,280 万美元的年化营收。 据透露,该公司致力于帮助企业使用自有数据定制模型。若融资成功,其估值将较不到三个月前公布的上一轮融资( 估值约 5 亿美元 )增长逾一倍。 知情人士透露,风投机构凯鹏华盈正洽谈领投此轮融资。谈判尚处早期阶段,条款可能发生变更。其中一位人士表示,本轮融资金额可能高达 7000 万美 元。 该公司此前已从红杉资本、 Benchmark 和 Lux Capital 等投资方处募集 8000 万美元。 ...
Anthropic 一夜震撼升级:Claude 获得「永久记忆」!全球打工人变天
程序员的那些事· 2026-01-21 08:51
文章核心观点 - Anthropic公司正在为其AI产品Claude Cowork进行重大升级,核心是引入“知识库”功能以实现“永久记忆”,旨在将Claude从聊天机器人转变为具备长期记忆和协作能力的AI生产力伙伴,此举可能引领AI办公革命并定义下一代AI助手竞争的新阶段 [1][3][44][45] Claude Cowork的核心功能升级:知识库与永久记忆 - Anthropic正在为Claude Cowork开发“知识库”功能,这是一种持久化的知识存储库,使AI能够拥有“永久记忆” [12][13][14] - 知识库功能允许Claude主动检索相关背景信息来回答问题,并能在交互过程中持续学习,将新获取的偏好、决策、事实或经验总结逐步添加到对应的知识库中,实现“越用越懂你” [16][17][18] - 该功能改变了AI依赖混乱“通用记忆”的模式,允许用户自主管理多个清晰、独立的知识库,并可根据任务手动选择调用,例如为写方案、跑自动化、整理文件等不同任务挂载对应的知识库,从而让AI更精准地理解上下文 [19][20] 产品模式与用户界面的整合变革 - Claude Cowork将成为产品的主模式和默认工作空间,传统的“Chat”模式将被折叠进Cowork中,标志着产品重心从聊天转向工作流 [21][22][23] - Cowork被定位为一个融合了聊天、文件、自动化、知识库和产出管理的AI工作台 [26] - 用户界面将进行重大调整,右侧将设有专门的“Artefacts”侧边栏区域,用于持续生成、管理和复用工作成果,强调输出内容的可持续性,重塑用户与AI之间为共同完成项目的关系 [29][30][31][32] 自动化与多模态体验的增强 - 通过引入“MCP连接器体系”,Claude Cowork将能动态管理多个远程连接器,按需安装官方批准的模块,从而大幅提升自动化能力 [33][34][35] - 自动化能力的提升意味着Claude Cowork不仅能协助思考和创作,还能真正帮助用户操作系统和工具,这对现有工具软件可能构成颠覆性影响 [38][39] - 在用户体验层,Claude Web正在开发语音模式,以实现更丝滑的随时随地使用;同时,“Pixelate”图像转像素艺术功能已升级并扩展至桌面应用,这些改进共同表明Claude正在向多模态和高频使用场景进化 [40][41][42] 行业背景与战略意义 - Anthropic此次升级旨在解决AI的“持续学习”或记忆问题,其CEO曾表示持续学习最终将没有看起来那么困难 [47][49] - 从OpenAI到谷歌,硅谷科技圈普遍认为2026年将是“持续学习之年”,OpenAI已于2024年9月向用户开放记忆功能,并在后续更新中强化了参考过往对话提供个性化回复的能力 [51][53][56] - OpenAI的Sam Altman对持久记忆寄予厚望,认为一旦记忆可以持久,智能AI助理的概念将被彻底改变;谷歌DeepMind的Demis Hassabis也判断,实现持续学习可能是实现AGI的首个突破,预计在2026年底 [57][59] - 行业竞争的下一个关键,可能在于谁能最早将“可控的记忆与工具”做成标准件,而不仅仅是展示模型能力 [65]
【全网无错版】上周末,唐杰、杨强、林俊旸、姚顺雨真正说了什么?
机器人圈· 2026-01-13 17:41
文章核心观点 文章记录了2026年初中国AI领域一场汇聚顶尖学者与产业界核心人物的圆桌讨论,探讨了中国大模型行业的发展分化、AGI的下一个技术范式、Agent战略以及中国AI的未来前景[1][6]。核心观点认为,中国AI行业在经历了2025年开源模型的爆发式增长后,正进入一个关键的分化与战略选择期,行业需从追随转向引领,通过聚焦特定方向、探索新范式、发展Agent应用并改善创新环境,以在全球竞争中占据领先地位[6][22][57][70]。 话题1:中国大模型将如何分化? - **市场出现To C与To B的明显分化**:ChatGPT和Claude Code分别被视为To C和To B的典范。To C应用对智能强度的需求增长放缓,而To B应用则因智能直接关联生产力,对最强模型有明确的付费意愿溢价[8][9][10][11]。 - **技术路径出现垂直整合与模型应用分层分化**:在To C场景,模型与产品强耦合的垂直整合模式依然有效(如ChatGPT、豆包)。但在To B生产力场景,趋势是模型层与应用层分离,强大的基座模型被多样化的应用层产品所利用[12]。 - **企业战略分化基于自身基因与数据优势**:腾讯作为To C基因强的公司,其瓶颈在于为模型提供更多上下文(Context)和环境(Environment),而非单纯追求模型规模[13][14]。大公司可利用其内部多样化的真实场景数据来训练模型,这相比依赖外部数据标注商能获得独特优势[15]。 - **分化是自然演进与客户需求驱动的结果**:行业分化并非完全预设,而是在与客户频繁交流中自然发现机会(如Anthropic聚焦Coding和Finance),中国SaaS市场环境与美国不同也影响了分化路径[17][18]。 - **学术界与工业界的分化与协作**:工业界在资源投入上主导发展,学术界应跟进解决基础科学问题,如智能上界、资源分配效率、哥德尔不完备定理下的幻觉消除极限等[19][20]。 话题2:AGI的下一个范式 - **自主学习(Self-learning)成为硅谷共识与热点方向**:该方向已被广泛讨论,但其具体形态因场景和奖励函数不同而多样,例如聊天个性化、编码环境适应、科学探索等[23]。 - **自主学习已在特定场景下以渐变形式发生**:例如ChatGPT利用用户数据优化聊天风格,Claude Code项目95%的代码由自身编写以实现自我改进,这被视为一种特定场景下的AGI体现[24]。 - **新范式的瓶颈在于想象力与评估标准**:实现突破的关键条件可能已部分具备(如Cursor的模型利用实时用户数据更新),但更大的挑战是如何定义和验证“实现了自我学习”的成功标准[25][26]。 - **OpenAI仍被视为最有可能引领新范式的公司**,尽管其商业化可能削弱了部分创新基因[26]。 - **强化学习(RL)的潜力尚未充分释放**:RL的计算规模(Compute)尚未充分扩展,仍存在基础设施(Infra)问题,其潜力有待进一步挖掘[27]。 - **Task-time Scaling(任务时间缩放)与主动性(Active Learning)是关键探索方向**:让AI在单次任务中通过消耗更多计算时间(Token)变得更强,以及让AI能根据环境信号自主启动并规划任务,是重要的范式候选,但伴随安全担忧[27][28]。 - **个性化(Personalization)可能是自主学习早期落地的场景**,但如何衡量AI时代的个性化效果成为新的技术挑战[29][30]。 - **记忆(Memory)技术的突破可能是线性发展后的感知临界点**:技术本身线性发展,但当记忆能力达到某个临界点,用户体验可能发生跃迁,类似电影《Her》中的效果,这可能需要一年左右时间[31]。 - **联邦学习(Federated Learning)代表的协作范式前景广阔**:通过“多个中心协作”模式,能结合通用大模型与本地专业化模型,在医疗、金融等隐私要求高的领域具有应用潜力[34]。 - **2026年出现新范式变革的驱动力增强**:学术界算力资源提升使其具备创新基础;工业界持续投入的边际效率下降,催生对“智能效率”(Intelligence Efficiency)提升新范式的需求[35][36][37]。 话题3:Agent战略 - **To B的Agent已进入价值上升曲线**:Anthropic的路径表明,在To B领域,模型智能提升与解决任务数量、商业收入增长高度一致,使得生产力Agent的发展势头强劲[41]。 - **当前Agent发展的两大瓶颈是环境部署与用户教育**:即使模型能力停滞,通过更好部署到各行业也能带来巨大经济收益(潜在影响GDP 5%~10%,目前远低于1%)。同时,会使用AI工具的人与不会使用的人之间的能力差距正在拉大,教育至关重要[41][42]。 - **产品哲学趋向“模型即产品”(Model as a Product)或“研究即产品”(Research as a Product)**:成功的Agent产品(如Manus)以及OpenAI的模式显示,研究员端到端地将研究转化为产品是重要趋势[43]。 - **未来的Agent将是“托管式”且与自我进化、主动学习强相关**:能够执行长时间、通用任务的Agent,需要在任务过程中自我进化并主动决策,这对模型能力提出更高要求[44]。 - **Agent的终极潜力在于与复杂物理环境交互**:超越电脑环境,指挥机器人进行湿实验等操作,才能实现自动化人类更长时间工作流的愿景,这可能需3-5年并与具身智能结合[45][46]。 - **通用Agent的机会在于解决长尾需求**:与推荐系统类似,解决海量个性化、非标的长尾问题是AI和通用Agent的核心魅力与挑战所在[46][47]。 - **强化学习(RL)降低了修复模型问题的难度**:相比以前,现在只需少量查询(Query)和奖励(Reward)数据,就能通过RL快速优化模型在特定问题上的表现[48][49]。 - **Agent将经历从人工定义到内生自动化的四个阶段**:从当前目标与规划皆由人定义,最终发展为目标和规划均由大模型自主定义的内生(Native)系统[51][52]。 - **Agent成功的三要素是价值、成本与速度**:需解决有真实价值的问题、控制实现成本,并在快速迭代的时间窗口内建立优势[54][55]。 话题4:中国AI的未来 - **中国在技术追赶和工程复现方面具备强大能力**:一旦技术路径被证明可行,中国团队能快速跟进并在局部做到更好,制造业和电动车已有先例[57]。 - **突破新范式需要更多冒险精神与前沿探索**:中国拥有大量顶尖人才,但相较于美国,愿意从事高风险、探索性前沿研究的人可能还不够多,这受经济、商业环境和文化因素影响[58]。 - **研究文化更倾向于做确定性高和看重榜单排名**:国内研究更聚焦已被验证的路径(如预训练),对探索性方向(如长期记忆)相对谨慎。同时,相较于海外更注重实际体验(如Claude的实用性),国内有时对刷榜数字看得更重[60][61]。 - **算力资源分配存在差距,但可能催生“穷则思变”的创新**:美国在用于下一代研究的计算资源上领先中国1-2个数量级,中国大量算力用于产品交付。资源紧张可能反而激励算法与基础设施的联合优化等效率创新[62][63][64]。 - **年轻一代冒险精神增强与营商环境改善是积极信号**:90后、00后的冒险精神更强,结合中国营商环境的持续改善,为创新提供了可能[65][70]。 - **对中国团队3-5年内成为全球AI领导者的概率判断存在分歧**:林俊旸认为概率低于20%,主要因历史积淀和算力差距[66]。姚顺雨表示乐观,认为关键在于能否引领新范式[57][58]。杨强回顾互联网发展,认为中国在应用层面,尤其是To C领域,有望百花齐放并领先[66][68]。 - **成功的关键条件包括人才、环境与坚持**:需要敢于冒险的聪明人、更有利于创新的营商环境(减少交付压力、鼓励竞争),以及从业者在选定的道路上笨拙而持久的坚持[69][70][71]。
美国AI一骑绝尘,中国平均落后7个月,Epoch AI新报告出炉
36氪· 2026-01-08 15:53
中美AI能力差距量化分析 - 根据Epoch AI报告,中国AI模型的综合能力平均落后于美国7个月,最小差距为4个月,最大差距为14个月 [1] - 该差距基于综合能力指数衡量,该指数综合考虑了语言理解与生成、推理与问题分解能力、多任务泛化表现及专家校准 [4] - 差距在时间上呈现收敛趋势:2023年差距接近10-12个月,2024年收敛到6-8个月,2025年稳定在约7个月 [9] 中美AI发展路径与模式差异 - 美国前沿AI发展节奏密集且持续,从GPT-4到o1,再到GPT-5、Gemini 3 Pro,中间几乎没有长时间停滞 [6] - 美国AI能力跃迁不完全依赖参数规模,例如o1系列的核心在于推理路径设计、中间状态建模和训练目标重构 [7] - 中国AI模型呈现“跳跃式”追赶曲线,通过扩大参数规模、采用MoE架构等方式提升能力,但迭代间隔相对更长 [7][8] - 中国领先的大模型普遍具有开源特征,而美国处于前沿的模型如GPT-5、Gemini 3均为闭源 [10] 行业竞争格局与未来范式 - 7个月的差距表明中国大模型已完全进入全球第一竞争梯队,决定未来胜负的关键在于下一次范式跃迁 [14] - 下一代AI进化的核心能力可能围绕持续学习展开,即让AI无需重新训练即可自我学习与迭代进化 [16] - 行业前沿正探索AI推理与行动的深度耦合,实现自我反思、规划及智能体级的系统能力 [15]
IPO首日,智谱创立发起人内部信曝光:明确2026年目标,提及梁文锋
新浪财经· 2026-01-08 10:37
公司战略与目标 - 智谱AI于1月8日上市,并宣布了2026年的目标是“成为国际领跑的大模型企业” [1][2] - 公司首席科学家唐杰表示,对AGI技术的执着追求、探索其上界以及精准的未来预判是公司下一步需要改进和升华的地方 [1][3] 技术发展路径与规划 - 公司认为决定下一阶段格局的关键是底层的模型架构与学习范式 [1][3] - 公司判断应用侧可能会出现“AI替代不同工种/任务的爆发年” [1][3] - 基于以上判断,公司2026年将聚焦于四个具体的技术方向 [1][3] 具体技术方向 - 方向一:即将推出新一代模型GLM-5,通过进一步的Scaling和全新技术改进,旨在帮助用户完成更多真实任务 [1][2][3] - 方向二:探索全新的模型架构设计,以解决已使用近10年的Transformer架构在超长上下文计算开销、记忆与更新机制等方面的不足,并通过芯片-算法协同设计提高计算效率 [2][3] - 方向三:探索具有更强泛化能力的强化学习范式,以突破当前主流RLVR范式依赖人工构造可验证环境的局限,使AI能理解并执行跨越数小时甚至数天的长时程任务 [2][4] - 方向四:最具挑战性的探索是开启通往持续学习与自主进化的道路,对在线学习或持续学习进行前瞻性布局,以改变当前主流AI模型部署后智能静态、知识逐渐过时的现状 [2][5] 行业竞争与反思 - 唐杰提及DeepSeek的出现给他带来了警醒,并感谢其创始人让他对AGI有了更多不一样的思考 [1][3]
Sebastian Raschka万字年终复盘:2025,属于「推理模型」的一年
机器之心· 2026-01-02 17:30
文章核心观点 - 2025年大语言模型领域的发展重点从单纯的参数规模扩展转向了推理能力的强化,以DeepSeek R1为代表的开放权重模型及其采用的RLVR和GRPO算法成为年度技术风向标,同时行业在架构、评估和工具使用等方面也取得了显著进展[1][3][4] 推理模型与算法进展 - 2025年是“推理之年”,DeepSeek R1的发布证明了通过强化学习(特别是RLVR和GRPO算法)可以开发出具有类似推理行为的模型,这改变了行业对模型改进方式的认知[5][6] - DeepSeek R1作为开放权重模型,其性能媲美当时最好的专有模型,并且其成本远低于预期,训练DeepSeek V3模型的成本估计约为557.6万美元,而在其基础上训练R1模型的额外成本仅需29.4万美元[9][10][12] - RLVR中的“可验证奖励”允许使用确定性方法为数学和代码等领域分配正确性标签,从而能够在大规模数据上对LLM进行高效的后训练[13][15][16] - 继DeepSeek R1之后,几乎所有主要的开放权重或专有LLM开发商都发布了其模型的推理(“思考”)变体,标志着RLVR和GRPO成为年度主导技术[19] 大语言模型开发重点演变 - 近年来LLM开发的重点呈现累积性演进:2022年是RLHF+PPO,2023年是LoRA等参数高效微调,2024年是中期训练,而2025年的焦点是RLVR+GRPO[20][21][22] - 预计未来发展方向包括:将RLVR扩展到数学和代码以外的领域、更多地关注推理时扩展(让模型在生成答案时花费更多资源以提升准确性)、以及持续学习(在不重新训练的情况下更新模型知识)[25][27][28][31] 大语言模型架构趋势 - 最先进的模型仍基于解码器风格的Transformer,但开放权重LLM普遍收敛于使用混合专家层以及分组查询注意力、滑动窗口注意力或多头潜在注意力等高效注意力机制[42][43] - 同时,行业也出现了更激进的效率调整架构,如Qwen3-Next和Kimi Linear中的Gated DeltaNets,以及NVIDIA Nemotron 3中的Mamba-2层,旨在实现随序列长度的线性扩展[43] - 预测未来几年基于Transformer的架构仍将主导高性能建模,但出于成本和效率考虑,Gated DeltaNet和Mamba层等高效工程调整将越来越普遍,文本扩散模型等替代方案仍处于实验阶段[53] 推理扩展与工具使用 - 2025年的进步不仅来自训练数据和架构的扩展,更得益于更好的训练流程(中期和后训练)以及推理扩展,后者让LLM能按需投入更多资源解决复杂任务[54] - 工具使用是减少LLM幻觉的重大改进方向,例如让LLM调用搜索引擎或计算器API来获取准确信息,OpenAI的gpt-oss模型就是早期专注于工具使用的开放权重模型之一[54][55] - 基准测试数据显示,使用工具能显著提升模型在多项任务上的表现,例如gpt-oss-120b模型在AIME 2024基准上,使用工具后准确率从56.3%提升至75.4%[56] 行业评估困境与数据优势 - 2025年的年度词汇是“极限刷榜”,指过度优化公开基准测试分数,导致分数无法真实反映模型的实际能力和实用性,基准测试作为LLM性能指标的可信度下降[60][61][63] - 随着通用能力提升趋于平稳,高质量的私有数据将成为LLM在特定行业确立优势的关键,但许多公司因数据是其核心差异化资产而拒绝出售给外部LLM提供商[84][85] - LLM开发正变得越来越商品化,预计未来拥有预算的大型机构将更倾向于开发利用其私有数据的内部LLM,而非完全依赖外部通用模型[88][89] AI辅助工作与影响 - LLM被视为赋予专业人士“超能力”的工具,能大幅提高个人效率,例如自动化编写命令行参数等平凡编码任务,或帮助发现代码错误和改进想法[65][66][68] - 然而,完全由LLM生成的代码库无法取代专家精心设计和构建的系统,深入的专业知识对于有效利用LLM指导和改进工作成果至关重要[71] - 在技术写作和研究领域,LLM是强大的辅助工具,可以帮助检查错误、提高清晰度,但无法替代人类作者的深度判断和专业知识,核心工作仍取决于人类[72][76] - 需警惕过度依赖LLM可能导致工作空虚感和职业倦怠,理想的方式是将AI视为加速学习和扩展工作能力的合作伙伴,而非完全外包思考的替代品[77][80][81]
告别KV Cache枷锁,将长上下文压入权重,持续学习大模型有希望了?
机器之心· 2026-01-02 09:55
文章核心观点 - 由Astera研究所、英伟达、斯坦福大学、加州大学伯克利分校、加州大学圣地亚哥分校联合提出的TTT-E2E(端到端测试时训练)技术,是迈向AGI(通用人工智能)持续学习能力的重要一步[2] - TTT-E2E打破了传统模型在推理时静态不变的局限,将长上下文建模从“架构设计”问题转变为“学习问题”,使模型能在推理阶段通过在线优化(梯度下降)来学习和压缩信息[2][9][10] - 该方法采用“以计算换存储”的思路,旨在实现像RNN一样的恒定推理延迟,同时保持像Transformer一样的长距离性能,为处理无限长上下文提供了新路径[8][29] 长上下文建模的现有困境 - 当前长上下文建模面临“召回与效率的永恒博弈”:Transformer的全注意力机制性能优异,但推理成本随上下文长度线性增长,在处理128K或更长文本时延迟压力巨大[5] - 为提升效率而采用的循环神经网络(RNN)或状态空间模型(SSM,如Mamba),虽然拥有恒定每token计算成本,但在处理超长文本时性能大幅下降,无法有效利用远距离信息[5] - 传统RNN性能下降的根源在于“压缩率的固定”,即将无限序列压缩进固定大小的状态向量会导致信息丢失[6][7] TTT-E2E的核心机制 - 核心思想是将模型在测试阶段(推理阶段)的行为定义为一个在线优化过程,模型在读取长上下文时,不仅进行前向传播,还同步进行梯度下降[9][10] - 模型将上下文视为学习资料,在预测下一个token前,先在已读过的token上进行自监督学习,从而将信息编码进模型权重W中,而非存储在外部的KV Cache里[11] - 为实现这一构想,引入了两大核心技术支撑:1) 元学习,通过外层循环优化模型初始化参数,让模型“学会如何学习”;2) 混合架构,结合固定大小(如8K)的滑动窗口注意力处理短期记忆,由TTT更新后的MLP层承担长期记忆[13] 工程实现与架构设计 - 为平衡计算开销,仅针对最后四分之一的Transformer块进行测试时训练(TTT)[14] - 为这些块设计了双MLP结构:一个保持静态以锁定预训练知识,另一个作为“快速权重”在测试时动态更新,以解决知识遗忘问题[15] - 该设计模仿了生物记忆系统的层级结构:滑动窗口如同瞬时感官记忆,动态更新的权重则如同长期经验[13] 实验结果:性能与效率 - 在3B参数规模的模型上进行实验,TTT-E2E展现出与全注意力Transformer几乎一致的性能扩展曲线[18][21] - 当上下文长度从8K扩展到128K时,其他RNN基准模型(如Mamba和Gated DeltaNet)的测试损失在达到32K后显著回升,而TTT-E2E的损失持续下降,始终追赶甚至在某些指标上优于Transformer[21] - 在推理效率上,由于无需存储海量KV Cache,TTT-E2E的推理延迟不随上下文长度增加,在128K上下文测试中,处理速度比全注意力Transformer快了2.7倍[22] 技术局限性与未来方向 - TTT-E2E的训练成本目前较高,由于需要计算“梯度的梯度”(二阶导数),其在短上下文下的训练速度比传统模型慢得多[23] - 团队提出可通过从预训练好的Transformer节点开始微调,或开发专门的CUDA内核来弥补训练速度的短板[24] - 在极度依赖精确召回的任务(如大海捞针NIAH)中,全注意力模型仍是霸主,这印证了TTT的本质是压缩和理解,而非逐字暴力存储[24] 行业意义与未来展望 - TTT-E2E标志着大模型正从静态模型转变为动态个体,模型处理长文档的过程本质上是微型的自我进化[27] - 该“以计算换存储”的思路描绘了未来愿景:模型可在阅读海量资料(如一万本书)过程中不断调整自身,将大量信息浓缩进参数矩阵,而无需担心硬件缓存限制[29]
人工智能年度盘点:2025年十大核心趋势及2026年关注焦点
新浪财经· 2025-12-30 23:15
近期重大交易 - Meta宣布以超20亿美元收购中国智能体初创企业曼纳斯(Manus)[1][16] - 曼纳斯在2025年4月融资时估值仅为5亿美元,Meta的收购为投资方基准资本、真格基金和红山资本在8个月内带来巨额回报[1][16] - 该交易是Meta重塑人工智能业务架构的收购热潮的一部分[1][16] 2025年AI行业整体态势 - 人工智能行业狂欢继续,风险投资和科研人才持续涌入,算力循环融资交易层出不穷[2][17] - 市场显现疲态信号,包括多起数据中心建设延期,预计2026年会增多[2][17] - 头部AI模型性能趋同,OpenAI、Anthropic和谷歌旗下模型已旗鼓相当,引发大语言模型商品化热议[2][17] - AI模型核心客户(如Salesforce、微软)的AI赋能产品销售遇阻,关于人工智能泡沫的讨论持续[2][17] 核心趋势:技术突破与竞争格局 - 2025年1月,中国对冲基金高驰资本发布开源大模型DeepSeek,性能比肩甚至超越OpenAI、Anthropic、Meta的顶级模型,震动硅谷[4][19] - DeepSeak实际训练成本远高于最初宣称金额,但事件仍打击了开发者对美国AI技术的绝对信心,印证了中国在AI领域的竞争力[4][19] - 强化学习技术因DeepSeek而迅速风靡,头部AI实验室均采用该技术优化模型性能,应用覆盖代码编写、Excel制作、医疗咨询等领域[6][22] - 强化学习仿真环境兴起,Anthropic高管表示计划未来一年投入10亿美元打造这类环境[6][22] - 谷歌在2025年强势回归AI赛道,全年发布多款口碑爆棚的模型[8][24] - 谷歌11月推出的Gemini 3.0在代码生成领域实现重大突破,是首个突破“预训练规模瓶颈”的AI模型,迫使OpenAI启动“红色警报”应急机制[8][24] - 谷歌Gemini聊天机器人用户规模仍远落后于ChatGPT,但已开始快速追赶[8][24] 核心趋势:商业应用与盈利探索 - 2025年,已有超25家AI应用初创企业年化营收达到至少1亿美元,首次实现规模化创收[7][23] - 2026年的关键问题是这些AI应用企业能否实现盈利[7][23] - 算力循环融资成为AI热潮中持续最久的趋势,即AI实验室从微软、英伟达、亚马逊获得融资,再用以采购这些企业的芯片或算力服务[9][25] - 此模式最早可追溯至2019年微软首次投资OpenAI,OpenAI、Anthropic等实验室借此高效筹措最大的成本支出——算力资金[9][25] 核心趋势:主要企业动态 - 2025年对Meta的AI业务是至暗之年,4月发布的Llama 4模型遭开发者集体诟病[7][23] - 2025年6月,Meta首席执行官扎克伯格宣布斥资143亿美元投资数据标注企业Scale AI,旨在挖走其首席执行官王亚伦及核心人才以重塑AI业务[7][23] - 该巨额投资收效甚微,Meta新AI团队仅推出口碑不佳的AI视频应用Vibes,并经历多次组织架构调整与核心人才流失[7][23] - Meta计划2026年发布新一代文本、图像及视频模型以期扭转颓势[7][23] 核心趋势:政策、其他领域与未来方向 - 特朗普总统2025年年初就职后推出多项利好AI行业政策,包括签署行政令禁止各州出台AI监管法规、加快数据中心项目审批流程[10][26] - 科技企业为拉拢特朗普已投入大量时间和资金,例如向其就职基金捐款[10][26] - 2024年风投资本向机器人初创企业砸下数十亿美元,但大语言模型助力研发实用型机器人的愿景基本落空,多数机器人仍频繁出现低级操作失误[11][27] - 挪威1X Technologies公司推出售价2万美元的Neo家用机器人,成为首批可入户测试的产品,但需允许远程操作员实时查看家中情况[11][27] - 尽管头部AI实验室营收达数十亿美元,但顶尖研究者对现有技术能否实现通用人工智能(AGI)的质疑声日益高涨[12][28] - 为实现AGI,研究者认为需开发能从现实场景中实时学习的“持续学习”AI技术,几乎所有AI实验室都在全力攻关[12][28] - “持续学习”技术若成功,所需数据和算力将远少于现有模型[12][28] 核心趋势:资本市场动向 - 2025年,OpenAI、Anthropic、xAI等头部AI研发企业仍以惊人估值持续融资[13][29] - 近几个月,OpenAI和Anthropic均释放信号,计划未来几年内上市[13][29] - 上市动因在于其业务属于资本密集型,且希望抓住当前市场对AI板块的看涨行情[13][29] 行业其他动态 - OpenAI创始成员安德烈・卡帕西态度发生180度转变,从2025年10月公开批评大语言模型在代码编写领域的实用性,转变为上周力挺AI编程技术[14][30] - 卡帕西表示软件工程行业正经历颠覆性重构,程序员核心工作占比大幅缩减,并称整合AI工具可使其工作效率提升10倍[14][30] - 卡帕西称赞的具体工具大概率是Anthropic的Claude Code,并指出Anthropic发布的Opus 4.5等模型在代码编写领域实现重大突破[14][30]
Gemini 3预训练负责人警告:模型战已从算法转向工程化,合成数据成代际跃迁核心,谷歌碾压OpenAI、Meta的秘密武器曝光
36氪· 2025-12-26 20:21
Gemini 3 的发布与市场地位 - 2025年底,Gemini 3以“世界最强多模态理解”、“交互最深智能体”、“推理怪兽”的姿态,在多项权威基准测试中“横扫”并“碾压”全球所有同类模型,强势突围 [2] - 谷歌CEO桑达尔·皮查伊亲自为Gemini 3站台,称其为“迄今为止最智能的模型” [2] Gemini 3 性能表现(基于基准测试数据) - 在“Harlord's Lott Each”测试中,Gemini 3得分为57.68,而GPT-5.8为26.6% [3] - 在“ARC 404-2”测试中,Gemini 3得分为51.18,而GPT-5.8为17.0% [3] - 在“OPGA Distribution”测试中,Gemini 3得分为91.98,而GPT-5.8为8.7% [3] - 在“Albat 2026”测试中,Gemini 3达到95.05 (100%),而GPT-5.8为94.7% [3] - 在“Ventleye Stench 2”测试中,Gemini 3得分为$5,478.16,而GPT-5.8为$1,473.43 [3] 模型强大的核心原因 - Google DeepMind副总裁Oriol Vinyals指出,Gemini 3强大的核心秘诀在于“更好的预训练”和“更好的后训练” [2][10] - 预训练负责人Sebastian Borgeaud强调,Gemini 3的飞跃是无数细节持续优化的结果,而非单一环节的突破 [3] - 谷歌的研发模式已从单纯“做模型”转向“做系统”,其强大根源在于“研究、工程和基础设施”的深度融合 [3][16] - Gemini 3是在谷歌自研的TPU上进行训练的,体现了端到端的垂直整合优势 [16] 行业趋势与范式转变 - AI行业正从“无限数据”的规模化时代,迈入“数据有限”的新阶段 [4] - 在数据受限的背景下,合成数据、推理轨迹、长上下文、持续学习、端到端检索训练以及可靠的评估体系,共同构成行业未来的进化路径 [4] - 经典的Chinchilla项目结论在当下依然具有现实意义:在训练计算量固定的前提下,更快地扩展数据规模比盲目扩大模型规模更能训练出更优的模型,这直接影响模型推理的服务效率和使用成本 [4][22] 预训练的发展方向与创新重点 - 预训练的Scaling Law(规模定律)并未失效,规模依然重要,但架构创新和数据创新的权重已显著提升,甚至变得更为关键 [5][32] - 未来预训练的重点将转向架构创新,而非单纯追求“更大、更长、更贵” [7] - 长上下文和注意力机制是关键的创新变量,更长的上下文能让模型携带更多信息,拓宽能力边界 [7][37] - 更长期的方向是将检索与搜索以端到端、可微的方式深度融入训练,让“会检索”成为模型的内生能力 [7][39] - 公司内部有团队正在研究“后Transformer架构” [6][15] 对合成数据与数据策略的看法 - 对合成数据的使用持审慎态度,核心风险在于数据分布偏移可能导致模型陷入“自嗨”闭环 [5] - 建议的稳妥方案是:用强模型生成合成数据后,必须通过小规模可控消融实验验证其收益和潜在副作用 [5] - 一个核心研究问题是:用合成数据训练出的模型,能否超越生成数据的“老师”模型 [6][34] - Gemini 3的训练数据从一开始就是原生多模态的,融合了多种来源,为其多模态优势打下基础 [6][33] 持续学习与知识更新 - 基础模型一旦预训练结束,知识便基本定格,无法自动更新 [7] - 当前行业更可行的办法是在产品推理侧接入检索,将最新信息实时拉入上下文进行推理,从而避免频繁重训底座 [7] - 这与RETRO项目的思路一致,即将知识放在外部库,模型负责推理 [8] - 未来的目标是改变训练方式,让模型能在真实世界的数据流上持续训练,实现真正的“持续更新” [8][51] 评估体系的重要性 - 评估是预训练阶段的核心难题,如果评估体系跟不上,容易陷入“看似提升”的假象内耗 [8] - 公司内部搭建了专属的评估体系,因为外部基准很容易被污染,保留内部评估阵地是关键 [8][41] - 评估需要跨越两道鸿沟:一是小模型上的有效改进能否迁移到大模型;二是预训练阶段的优势能否在后训练后转化为真实可用的能力 [8][40] 成本与商业化考量 - 随着用户规模扩大,推理预算变得敏感,预训练环节必须为“上线落地”负责,在提升模型能力的同时,还要降低成本、节省资源 [8][52] - 原生多模态模型在处理图像等输入时,计算成本可能更高,但通过研究提升效率,其收益总体上远大于成本 [31] 模型架构细节 - Gemini 3是基于Transformer的混合专家(MoE)架构,其高层架构与上一代相比变化不大,性能飞跃是多个因素叠加的结果 [28][29] - MoE的核心思想是将“使用的计算量”和“参数规模”解耦,通过动态路由将计算分配到某些“专家”上执行 [30] 团队协作与研发文化 - Gemini 3的预训练团队规模庞大,日常参与人数可能在150到200人之间,成功是大团队共同协作的结果 [10][17] - 在谷歌/DeepMind,来自与其他实验室竞赛、强推基准目标的压力很少,领导层更重视研究进展与把研究做成 [26] 未来展望与行业影响 - 模型的能力进步不仅体现在基准测试上,更反映在内部人员使用模型提升生产力的真实工作场景中 [11] - 预测未来模型将更好地服务于科学研究,甚至可能助力获得诺贝尔奖,同时也会更深入地融入普通人生活,解决实际问题 [9][13] - 基础模型越来越强,对于不需要极度专门化的任务,使用通用模型更为合理,这改变了创业公司与研究者的关注点,如何更好地利用(harness)模型变得愈发重要 [55][56]