持续学习
搜索文档
Gemini 3预训练负责人警告:模型战已从算法转向工程化!合成数据成代际跃迁核心,谷歌碾压OpenAI、Meta的秘密武器曝光
AI前线· 2025-12-26 18:26
Gemini 3的性能表现与行业地位 - 2025年底发布的Gemini 3在多项权威基准测试中表现卓越,被谷歌CEO称为“迄今为止最智能的模型”,以“世界最强多模态理解”、“交互最深智能体”、“推理怪兽”的姿态强势碾压全球同类模型 [2] - 根据发布的基准测试数据,Gemini 3 Pro在多个关键测试中领先,例如在“Academia meaning”测试中得分为37.52,显著高于GPT-5.1的26.5%和Claude Sonnet 4.5的13.7% [3] - 在“Scientific reasoning”测试中,Gemini 3 Pro得分91.9%,高于GPT-5.1的44.1%和Claude Sonnet 4.5的83.4% [3] - 在“Math”测试中,Gemini 3 Pro达到100%的准确率,而GPT-5.1为94.0% [3] - 在代码能力测试“LiveCodeBench Pro”中,Gemini 3 Pro得分为2.439,高于GPT-5.1的2.243和Claude Sonnet 4.5的1.418 [3] - 在长上下文理解测试“Needle In A Haystack”中,Gemini 3 Pro得分为89.1%,而GPT-5.1为91.0% [3] - 在多语言理解测试“Global F1QA”中,Gemini 3 Pro得分为93.42,略高于GPT-5.1的90.9%和Claude Sonnet 4.5的90.1% [3] Gemini 3成功的核心方法论 - 谷歌高层将Gemini 3的强大归因于“更好的预训练”和“更好的后训练” [2] - 更深层次的秘诀在于“研究、工程和基础设施”的深度融合,公司已从单纯“做模型”转向构建一个复杂的“系统” [4][19] - 模型的飞跃是无数细节持续优化的结果,团队几乎每天都能找到让模型变更好的地方,是大团队工作累积的成果 [4][13] - 预训练团队规模庞大,日常参与人数在150到200人,成功的关键在于协调与集成,将所有人的进步整合释放 [21] 行业范式转变:从无限数据到有限数据 - AI行业正从“无限数据”的规模化时代,迈入“数据有限”的新阶段,这一趋势不可逆转 [4] - 在数据受限的背景下,架构创新和数据创新的权重已显著提升,甚至变得比单纯扩大模型规模更为关键 [6][38] - 公司认为“预训练Scaling Law已死”的讨论有些奇怪,规模仍然重要且带来的好处相对可预测,但它只是让模型变好的一部分,并非唯一因素 [38] - 行业范式从“无限”转为“有限”后,研究方式与问题思路将发生改变,过去在数据受限环境(如ImageNet)中的一些技术可能重新变得有价值 [41] 预训练的关键技术方向与创新 - **数据策略**:遵循Chinchilla项目的结论,在训练计算量固定的前提下,更快地扩展数据规模比盲目扩大模型规模更能训练出更优的模型,这直接影响后续推理成本 [5][27] - **合成数据的审慎使用**:合成数据是有意思的方向,但必须极度谨慎,核心风险在于数据分布偏移导致模型陷入“自嗨”闭环,需通过小规模可控消融实验验证收益与副作用 [6][41] - **架构演进**:公司正在推进“后Transformer架构”的创新,同时看好“原生态模型”的长期价值 [7] - **长上下文与注意力机制**:这是未来预训练的重要方向,长上下文能让模型携带更多信息,拓宽能力边界,公司预计未来一年左右会有更多让长上下文更高效的创新 [7][44][61] - **检索与搜索的深度融合**:长期方向是将检索与搜索以端到端、可微的方式更深地融入训练,让“会检索”成为模型的内生能力,而非外挂工具,强化学习规模化可能推动这一进程 [7][45] - **持续学习**:目标是改变训练算法,使模型能在真实世界的数据流上持续训练,实现真正意义上的知识更新,当前更可行的方案是在产品推理侧接入检索,将最新信息拉入上下文 [8][57][59] 模型评估体系的重要性 - 评估被视为预训练阶段的核心难题,如果评估体系跟不上,容易陷入“看似提升”的假象内耗 [8] - 评估需要跨越两道鸿沟:一是小模型上有效的改进能否迁移到大模型;二是预训练阶段的优势能否在后训练后转化为真实可用能力 [8] - 由于外部基准很容易被污染,公司内部搭建了专属的、留出的评估集,这是防止自欺、判断真实改进的唯一办法 [8][47] 成本与效率的考量 - 随着用户规模扩大,推理预算变得敏感,预训练环节必须为“上线落地”负责,在提升模型能力的同时,努力降低成本、节省资源 [9][61] - 采用混合专家架构的核心想法是把“使用的计算量”和“参数规模”解耦,通过动态路由分配计算,而非将计算量与参数规模完全绑定 [36] - 原生多模态处理虽然带来复杂性成本和计算成本,但公司认为其收益总体上远大于成本 [37] 对行业竞争与未来发展的看法 - 不同AI实验室的底层技术相似,但存在专业化差异,例如公司在视觉与多模态方面一直很强 [17] - 要在Gemini这样的模型上继续取得进展,确实需要很大的团队和大量资源,但这并不意味着当前方式是最优的,颠覆性研究仍可能出现 [18] - 模型正在快速改进,对于不需要极度专门化的任务,使用通用模型更为合理,这使得如何有效利用和驾驭模型的研究变得越来越重要 [64] - 公司对Gemini 3目前的表现直言“超出预期”,并认为进步的脚步看不到尽头,至少未来一年这种加速势头不会放缓 [9][11][66]
以VLA+MOE架构打造工业具身大脑,赛索德智能斩获千万级天使轮融资
机器人圈· 2025-12-26 18:07
公司近期动态与融资情况 - 工业具身智能研发商赛索德智能完成数千万元天使轮融资,投资方包括宁波方正、扬州金泉、顺景科技三家上市公司及南吉资本 [2] - 融资资金将用于核心技术迭代与工业化场景落地 [2] 公司定位与技术范式 - 公司致力于构建“算法定义硬件”的机器人系统新范式 [2] - 核心方向是通过VLA(多模态融合)+MOE(混合专家模型)架构打造工业级具身大脑 [2] - 技术方案专门适配多品种、小批量、定制化的工厂生产场景,旨在填补智能装配机器人的市场空白 [2] 核心团队背景 - 创始人孙鑫海拥有香港中文大学硕士学位,研究方向为多模态融合下的空中交通流量预测与优化,具备机器人产业趋势洞察与商业转化经验 [3][4] - 联合创始人兼CTO周丹弟博士深耕机器人感知与AI领域,曾任AI独角兽企业高管,是公司双系统AI架构的核心设计者 [4] - 联合创始人兼TechLead施祥博士专注于PhysicalAI研发,曾在中芯国际负责先进制程技术验证的智能化方案 [4] 产品设计与市场策略 - 产品采用轮式结构,赋予机器人自由移动与搬运能力,以适配工厂复合工位需求 [5] - 主要交付形式为整机销售,同时提供最低六个月起租、月付约6000-7000元的租赁方案以降低客户门槛 [6] - 未来计划拓展RaaS(机器人即服务)模式,以按需付费服务拓宽市场覆盖 [6] 硬件配置与技术架构 - 产品硬件搭载英伟达Jetson Thor芯片、RGBD深度相机、工业RGB相机、激光雷达、五指灵巧手、7自由度机械臂及扬声器麦克阵列 [6] - 技术路线上,公司未采用行业主流的UMI(手眼协作)方案,而是自主研发了ROI(兴趣区域)技术,以强化模型对精细动作的感知能力 [7] - ROI技术被融入公司独创的“大脑–桥脑–小脑”VLA架构,通过约束感知信息流提升作业精准度与效率 [7] 行业洞察与定价逻辑 - 具身智能的核心价值在于通过算法与模型体系实现系统性能力交付,突破传统工业智能单次定制开发的局限 [8] - 结合沿海制造业工人月均1万元人力成本,两班制年度人力成本可达36万元(18个月回本周期)或48万元(24个月回本周期) [10] - 因此,满足工业化要求的轮式双足具身机器人定价三四十万能够被大量工业客户接受 [10] - 行业当前的价格竞争本质源于许多业务场景未能真正落地,一旦产品解决客户核心需求,价格将不再是主要考量因素 [10] 技术挑战与行业基准 - 行业常用LIBERO、ManiSkill、VLABench三大基准衡量具身模型能力,但这些基准存在局限性:仿真与真实部署性能差异大,且VLA模型性能受超参数、机器人构型等变量影响,难以公正对比 [10] - 行业真正的落地与突破依赖强化学习与持续学习两大核心概念,强化学习已演变为价值函数驱动的范式 [10] - 尽管Agent和RAG尚未在参数层面实现真正的持续学习,但通过系统级记忆与决策机制,已为大模型提供了可行的非参数化持续适应方案 [10] 对世界模型与AGI路径的看法 - 世界模型虽被认为是通往AGI的可能路径,但对工业具身场景帮助有限,因其依赖大量高质量预训练数据集且能力边界存在局限 [11] - 具身任务具有明显的任务导向和交互局部性,核心挑战集中在稳定的运动控制或精细的灵巧操作等特定能力维度,而非对环境中所有可能情形的全面建模 [11] - 实际系统的可靠性依靠在关键能力和高频交互场景上达到足够的鲁棒性,而非穷尽所有可能状态 [11]
Dwarkesh最新播客:AI 进展年终总结
36氪· 2025-12-25 07:15
AI发展现状与AGI时间线 - 以强化学习为核心的“中训练”正成为大型语言模型的重点突破方向,前沿科技公司正通过此方法将大量具体技能预先植入模型[3] - 当前对强化学习中训练的极度乐观态度与宣称AGI临近的观点存在根本矛盾,如果模型已接近类人学习者,这种基于“可验证结果”的训练路径是走不通的[14] - 为模型预置大量具体技能的做法,恰恰是AGI还很远的证据,因为如果模型泛化能力很强,就不需要单独构建那么多强化学习环境来教它操作特定工具[3][16] AI模型能力与泛化挑战 - 人类劳动力的价值在于其训练成本不笨重,能根据需要灵活掌握新技能,而当前AI缺乏稳健高效的方法来习得工作中大量需要的公司特定、情境特定技能[4][23] - 每天人类需处理上百件需要判断力、情境感知及工作中习得技能的事情,仅靠预置一组固定技能,连一份工作都无法完全自动化[24] - 在机器人等领域,根本问题是算法而非硬件或数据,人类只需很少训练就能远程操控硬件完成有用工作,这反衬出当前AI缺乏类人学习核心[19] AI经济扩散与市场潜力 - 企业有很强动机雇佣AI劳动力,因为经过验证的AI员工可以无损无限复制,且不存在招聘中的“柠檬市场”问题[5][29] - 当前AI未在企业广泛部署、未在编程外创造大量价值,本质是模型能力不足,而非技术扩散需要时间,所谓“经济扩散滞后”是为能力不足找借口[6][28] - 如果AI能力真达到AGI水平,其扩散速度会快得惊人,企业完全愿意每年花费数万亿美元购买token,因为知识工作者年总薪酬高达数十万亿美元[29] 技术演进路径与规模定律 - 预训练阶段的扩展定律非常清晰,算力数量级提升会导致损失函数稳定下降[10] - 但将预训练规模化的乐观经验移植到带可验证奖励的强化学习上缺乏依据,有研究指出,要强化学习获得类似GPT级别的提升,总算力规模可能需要提升到一百万倍[11][33] - 持续学习将是AGI之后模型能力提升的主要驱动力,预计前沿团队明年会发布持续学习雏形功能,但达到人类水平可能还需5到10年[13][40] 评估框架与未来影响 - 将AI模型智能与“中位数人类”对比会系统性高估其能创造的价值,因为知识工作的巨大价值来自最顶尖的一小撮人[12][35] - 一旦模型真正达到顶级人类水平,其影响力可能是爆炸式的,因为这意味着服务器上运行着数十亿个类人智能体,能复制、融合彼此全部学习成果[12][25] - 模型在“看起来很厉害”上的进步速度符合短时间线派预测,但在“真正变得有用”上的进展速度更符合长时间线派判断[32]
假如每十年财产清零,现在最该做什么?
虎嗅APP· 2025-12-12 21:54
文章核心观点 - 文章通过一个思想实验,探讨在财产、知识、能力乃至人际关系等一切积累都可能周期性“清零”的设定下,个人应如何重新定义投资与生活的重点,核心在于强调应投资于那些无法被剥夺或清零的内在资本与生命体验,而非外在的、终将失去的积累 [6][7][13][16][21] 财产周期性清零下的行为模式 - 在财产每十年清零的设定下,储蓄和长期投资失去意义,金钱的意义转变为在周期内被消费掉 [6] - 消费观念发生根本转变,体验消费(如吃饭泡吧、旅游)的重要性远超实物消费(如买名牌时装、豪车) [7] - 时间价值极大提升,人们拒绝为高额加班费牺牲个人时间 [8] - 贫富差距依然存在,但个人努力与知识成为创造财富的核心,促使人们为下一个十年积累知识与培养能力,持续学习成为时代显学 [9][10] 知识与能力周期性清零下的应对策略 - 在知识与技能也随财产一同清零的设定下,可迁移的“能力”成为关键投资标的,例如学习能力、沟通能力、适应变化的能力及审美和思维方式 [12] - 依赖身体机能和肌肉记忆的活动(如音乐、体育)价值凸显,因其不易被清零 [12] - 人际关系成为可跨越周期的重要资产,应重点积累基于共同经历的深度关系、专业人脉以及个人影响力与声誉 [12] - 核心策略应从积累资源转向积累信任 [13] 一切积累周期性清零下的生存意义 - 在财产、知识、能力和关系全部清零的极端设定下,人生的意义回归到“活着”本身,类似于人类历史中多数人在动荡中的生存状态 [16] - 投资重点转向四个无法被清零的领域:健康(健身、营养、心理健康)、记忆(通过日记等方式留存独特体验)、创造(著书、创作、开源项目等可永存于世的成果)以及传承(在周期末将知识经验传授给新人) [16][17] - 人生目标从追求永恒建造转变为享受创造过程并坦然接受其被抹去 [17] 对现实人生的启示与应用 - 将人生视为若干个“十年”周期,每个周期都应专注度过,避免将上一个周期的遗憾、目标或路径依赖带入下一个周期 [21] - 在每个周期中,应投资于自身(技能、智慧、健康)、关系(支持网络)、体验(丰富无悔的人生)和创造(留下存在痕迹)等真正重要的资本 [21] - 核心生活态度是接受每个周期的结束,拥抱新的开始,追求过程而非结果 [22]
假如每十年财产清零,现在最该做什么?
36氪· 2025-12-12 08:15
核心观点 - 文章通过一个假设财产、知识、能力、关系会周期性“清零”的思想实验,探讨在有限时间框架下个人应如何分配资源与时间,其核心观点是引导读者关注那些无法被“清零”的、具有持久价值的投资方向,例如体验、能力、健康、记忆、创造和人际关系,并倡导以过程为导向、周期性重启的人生态度[1][3][9][11][14] 财产清零下的消费与投资转向 - 在财产每十年清零的设定下,传统的财富积累(如储蓄、投资、购买耐用资产)失去意义,任何不在十年内被消费掉的金钱都将成为浪费[1] - 消费观念发生根本转变,从为“以后”储蓄转向“活在当下”,体验消费(如吃饭泡吧、旅游)的重要性将远超实物消费(如买名牌时装、豪车)[1] - 时间成为最珍贵的资源,人们不愿为超额报酬(如十倍工资)而加班,更注重充分享受十年中的每一天[2] - 贫富差距依然存在,但“知识比财富更重要”,个人为下一个十年所做的准备集中于积累知识与培养能力,这是规则允许携带的资产[3] - 持续学习成为显学,特别是编程、写作、设计、医疗、管理、沟通等跨周期核心技能[3] - 人们面临如何平衡“当期人生体验”与“为下期积累知识”的时间分配困惑[3] 知识与财产双清零下的能力与关系构建 - 在知识与财产均每十年清零的设定下,个人需每隔十年进行“技能重启”[4] - 可迁移的“能力”比具体知识更重要,这些能力包括:学习如何学习、与人相处沟通建立信任、大胆试错、训练适应变化、审美和思维方式等,它们有助于在新环境中快速重建价值[6][7] - 依赖身体机能和肌肉记忆的领域(如音乐、体育及所有依赖身体的工作)将成显学,因为这些能力不会被遗忘[6] - 人际关系成为可携带至下一个十年的重要资产,应着力建立基于共同经历的深度关系,积累“信任”而非“资源”[8] 全要素清零下的生存意义与永恒投资 - 当财产、知识、能力和关系全部周期性归零时,人生的意义回归到“为活着本身而活着”[9] - 投资方向转向那些无法被清零的领域:首先是“健康储蓄”,包括健身、营养和心理健康[9];其次是“记忆”,通过丰富体验和写日记等方式留存独一无二的人生[9];再次是“创造”,如写书、创作歌曲、开发开源项目、建立有影响力的博客,这些创造将永存于世[10];最后是“传承”,在十年末期将知识、价值观和经验传授给新一代[10] - 人生目标从建造永恒丰碑,转变为享受在沙滩上重复创作并被抹平的过程[10] 周期性重启对人生策略的启示 - 即便没有清零规则,人生也可划分为若干个十年,每个十年都应专注度过,避免将上一个十年的遗憾、目标或沉没成本带入下一个十年[14] - 每个十年应被赋予不同的人生主题,亲情与爱情应建立在每一个当下的真诚互动上,而非仅依赖共同回忆[14] - 核心策略是在每个人生十年中,接受结束,拥抱开始,追求过程,放弃结果[14][15] - 最终的投资选择集中于:投资自己(成为有技能、有智慧、有健康的人)、投资关系(建立温暖强大的支持网络)、投资体验(创造丰富无悔的人生)、投资创造(留下存在过的有价值痕迹)[17]
AI需要能自我改进!AI圈越来越多人认为“当前AI训练方法无法突破”
华尔街见闻· 2025-12-09 09:49
核心观点 - 行业内部分资深AI开发者与研究人员质疑当前主流AI技术路径的可持续性 认为其无法实现生物学、医学等领域的重大突破且难以避免简单错误 这引发了对未来数十亿美元投资方向的质疑 [1] - 尽管存在技术局限 当前AI在写作、设计、购物和数据分析等任务上的应用已推动主要公司收入实现数倍增长 [1] 技术路径争议与挑战 - 部分AI领袖(如Anthropic首席执行官Dario Amodei和OpenAI首席执行官Sam Altman)对通过扩展现有技术实现AGI持乐观态度 [1] - 以亚马逊AI研究负责人David Luan、OpenAI前首席科学家Ilya Sutskever及强化学习之父Richard Sutton为代表的质疑者认为 当前训练模型的方式不可持续 实现类人AI可能需要全新的开发技术 [2] - 核心争议在于AI能否实现“持续学习” 即像人类一样在部署后从新经验中持续获取并应用新知识 而非依赖静态的、人类专家创建的大规模数据集进行训练 [1][2] - 当前一些最先进的AI训练方法被指无法帮助模型良好地“泛化” 即处理未曾遇到过的任务 [2] 技术突破的尝试 - 在NeurIPS大会上 多篇重要研究论文探讨了“持续学习”主题 例如麻省理工学院和OpenAI研究人员提出的“自适应语言模型”新技术 [3] - 该技术旨在使大模型能利用现实世界中遇到的信息(如一篇新医学文章)获取新知识或提升新任务表现 方法包括将新内容改写为问答用于自我训练 [3] - 部分研究人员认为 这种持续自我更新的能力对能产生科学突破的AI至关重要 [3] 当前技术局限与商业影响 - 技术局限已拖慢企业客户对AI代理等新产品的采购 模型在简单问题上持续犯错 AI代理在缺乏大量人工确保的情况下往往表现不佳 [3] - 若质疑者的观点正确 可能令行业明年在强化学习等流行技术上的数十亿美元投资面临风险 包括支付给Scale AI等数据服务公司的费用 [4] - Scale AI公司发言人对此持不同意见 认为使用持续学习的AI仍需要从人类生成数据及其强化学习产品中学习 [4] 行业收入与增长现状 - 尽管存在技术挑战 主要AI公司收入增长迅猛 OpenAI预计2024年收入将增长两倍以上至约130亿美元 Anthropic预计收入将增长逾10倍至约40亿美元 [1] - 三年前几乎没有收入的OpenAI和Anthropic 如今已从聊天机器人和AI模型销售中获得可观营收 [5] - 开发AI应用的其他初创公司(如编码助手Cursor)预计未来一年将集体产生超过30亿美元的销售额 [5] 行业竞争格局 - 大型开发者之间的AI竞赛激烈 谷歌的技术在某些指标上已超越竞争对手 导致OpenAI首席执行官Sam Altman告知公司准备迎接“艰难氛围”和“暂时的经济逆风” [6] - 谷歌取得进步的原因包括改进了用于模型预训练的数据组合 并找到了更好管理数千个自研张量处理单元(TPU)的方法 减少了硬件故障的干扰 [6] - OpenAI领导层表示已能类似地改进预训练流程 开发出代号为Garlic的新模型 并相信未来几个月能与谷歌竞争 [6]
我们身处波涛汹涌的中心|加入拾象
海外独角兽· 2025-12-04 19:41
公司定位与团队背景 - 公司定位为专注于人工智能和基础模型研究的投资研究实验室(Investment Research Lab),既是基金也是研究实验室[5] - 团队由科技投资人、物理学博士和AI研究员组成,平均年龄低于30岁,强调高信任度、低自我和高人才密度的团队文化[5][6] - 公司在管资产规模超过15亿美元,包括5亿美元的长线基金,采用一二级市场联动投资策略[5] - 公司过去投资并见证了6家投资组合公司从数十亿、数百亿美元成长为千亿美元级别的企业[5] 投资理念与策略 - 投资理念受OpenAI、Anthropic和DeepMind启发,旨在成为投资领域的前沿研究实验室,关注全球最重要的技术变化[8] - 投资策略聚焦于少数关键机会,愿意在每一轮对优质公司持续加注,放弃多数琐碎机会[8] - 注重信息质量,拥有市场上最丰富、质量和密度最高的信息源,以提高投资胜率[8] - 强调长期关系建设,致力于与创始人和研究人员建立信任,投资AI原生时代的最佳创始人[8] 品牌建设与认知输出 - 坚持开源认知,通过内容输出为AI生态做贡献并构建品牌影响力[9] - 品牌代表公司与创始人之间的信任和审美观,吸引志同道合者[9] - 公司通过海外独角兽和AI讨论社群持续输出观点,影响中美两地华人创业者和AI从业者[6] 招聘需求与岗位要求 - 招聘岗位包括AI投资研究员和品牌策划(AI Narrative Specialist),工作地点覆盖硅谷、香港、北京和上海[12][15] - AI投资研究员需具备AI研究、工程或产品经验,熟悉技术趋势如Continual Learning、Proactive Agent等[12][13] - 品牌策划需熟悉硅谷AI内容,具备品牌叙事打造能力和创新表达方式经验[15] - 招聘不限资历和工作年限,对全职和实习生均开放,优秀实习生有转正机会[15][16] 行业关注领域 - 公司重点关注LLM新范式、强化学习、AI Agent、代码代理等前沿技术领域[19][21][23][25][27] - 技术趋势包括OpenAI o1、自玩强化学习、AI机器人、AI4S等方向[12]
破解可塑性瓶颈,清华团队新作刷榜持续学习:可迁移任务关系指导训练
36氪· 2025-12-02 08:56
文章核心观点 - 清华大学研究团队提出了一种名为“H-embedding引导的超网络”的新型持续学习框架,其核心创新在于从“任务关系中心”的视角出发,通过信息论度量构建任务嵌入来显式建模和利用任务间关系,从而在多个基准测试中有效降低模型遗忘率并提升知识迁移效率 [1][4][6] 方法动机与核心问题 - 传统持续学习方法存在“灾难性遗忘”瓶颈,且大多从“模型中心”视角出发,缺乏对任务之间内在关系的建模和利用 [1] - 传统模式存在三大问题:缺乏任务级先验、难以同时优化正向与后向迁移、随着任务数量增长干扰累积难以扩展 [7][8] 核心技术:H-embedding - 提出基于信息论指标H-score的任务可迁移性嵌入(H-embedding),用于表征从旧任务到当前任务的迁移价值 [9][11] - H-embedding具备三个重要特性:先验可用(训练前即可获得)、低维紧凑(便于存储与调用)、与迁移性对齐(嵌入距离反映任务关系) [12][14] 核心框架:超网络参数生成 - 提出由H-embedding驱动的超网络框架,该超网络根据任务嵌入为每个任务生成其专属参数 [12] - 框架引入轻量级解码器,通过重构H-embedding迫使超网络显式吸收任务关系 [15] - 训练过程包含三类关键损失:任务损失、持续学习正则项、嵌入引导损失 [18] 方法优势与效果 - 该方法能够针对任务差异自动调节参数、在任务相关时进行正向迁移、在任务冲突时强化知识保护 [17] - 在ImageNet-R等测试中,该方法将遗忘率再降低一成 [1] - 实现了强正向与后向迁移能力同时出现,新任务学习对旧任务几乎无干扰,同时能从旧任务中有效吸收知识 [20] - 算法对任务数量增长具有更高鲁棒性,在5→10→20个任务的扩展实验中,性能增益持续放大,并在靠后的任务中带来显著的收敛加速 [20] 工程可落地性 - 框架具有高可用性,可端到端训练,兼容多种参数高效微调技术(如LoRA) [18] - 支持CNN、ViT等主流架构,并可部署在多种预训练模型上 [19] - 每个任务仅需保存一个低维embedding,存储成本极低 [19] 结论与展望 - 该研究提出了一种“任务关系中心”的持续学习新范式,使模型能够预测迁移性而非被动适应,并在学习过程中有意识地管理任务间的知识交互 [21][23] - 未来该方法有望拓展至跨模态增量学习、大模型的长期任务适配、任务自组织与自动化学习顺序规划等更复杂场景 [21]
万亿级 AI 赌注之后,Ilya Sutskever:只堆算力和肯做研究,结果会差多远?
36氪· 2025-11-26 09:02
AI行业投资趋势 - 全球AI支出预计2025年接近1.5万亿美元,2026年突破2万亿美元 [1] - 本十年AI基础设施总投入可能达到3万亿至4万亿美元,被视为新工业革命 [1] - 行业当前普遍采取抢购GPU、建设数据中心、拉电网的资源投入策略 [2] 行业范式转变 - AI行业正从扩展时代(堆算力)转向研究时代(方法论创新) [5][6] - 扩展范式依赖参数、算力、数据三要素放大,但边际收益正快速下降 [4][7] - 未来行业差距将取决于研究能力而非资源规模,创新方向比投入规模更重要 [4][7] 当前模型局限性与训练方法问题 - 大模型迁移能力远不如人类,benchmark分数高但实际经济价值有限 [4][9] - 模型存在系统性缺陷:会考试但不真正理解,容易出现重复语句等低级错误 [9][11] - 训练方法过度依赖评测基准导致模型像刷题机器,缺乏泛化能力 [10][12] - 预训练模式让模型见过大量案例但理解不深,无法自主总结规律 [16][17] - 强化学习容易过拟合奖励函数,模型缺乏自我判断和纠错机制 [17][19] 新一代AI发展方向 - 需要让模型具备持续学习能力,从离线预训练转向在线学习 [27][29] - 关键突破在于训练方法能教会模型泛化,将知识应用到新场景 [12][13] - 安全对齐问题本质是泛化能力不足,需贯穿整个训练过程而非最后检查 [25][26] - 理想模型应具备自我评估推理能力,类似人类情感中枢的判断机制 [29][30]
LLM 语境下,「持续学习」是否是 「记忆」 问题的最优解?
机器之心· 2025-11-16 09:30
LLM语境下持续学习与记忆问题 - 谷歌提出嵌套学习范式将模型视为一系列嵌套问题堆叠旨在学习新技能同时规避灾难性遗忘问题[6] - 嵌套学习核心论点在于机器学习模型由多个相互关联层次分明优化子问题组成将模型优化器与记忆统一看作多级并行带独立上下文流优化问题[6] - 基于嵌套学习原理研究者设计HOPE架构在语言建模长上下文推理持续学习与知识整合任务上较Transformer++等基线模型表现出更低困惑度与更高准确率[7] - AI社区存在争议认为嵌套学习类似已有技巧叠加如2020年ModNet和2024年ACh和NA框架等多尺度持续学习并非全新概念[8] - 持续学习核心挑战是解决灾难性遗忘即智能系统学习新任务时避免覆盖旧任务知识LLM时代表现为模型降智如领域SFT训练导致通用基准测试性能下降[8] - 当前LLM研究焦点偏向通过改善记忆力使智能体保留情景经验语义知识和程序技能设想跨持久智能记忆层包含Model Weights层KV Cache层和Context层[8] 从行为数据到AI记忆的路线 - 产品方强调更懂你资本强调难以复制引发AI产品护城河是否真实存在讨论不同产品在记什么记多久上押注不同方向[1] - 医疗对话记忆能否作为知识库提升诊疗质量探讨软件被动记录无法覆盖全部生活场景需借助硬件实现always on模式[1] 合成数据与人形机器人发展 - 合成数据被视为数据金字塔中坚力量DARPA寒冬已过人形机器人迎来技术和市场双重爆发[2] - 人形机器人利用以人为中心数据源真实数据虽是黄金标准但被称为最大瓶颈GenAI指数引擎是否创造有用数据受关注[2]