Workflow
蒸馏
icon
搜索文档
Jeff Dean最新访谈:未来开发者人均50个智能体,写需求成核心技能
量子位· 2026-03-10 10:13
谷歌的AI战略与模型发展路线 - 公司遵循**帕累托前沿策略**,同时推进两条模型路线:一方面是用于深度推理、复杂数学问题等**高端前沿模型**;另一方面是用于低延迟场景的**高性价比模型**[3][19] - **蒸馏技术**是实现模型高效能的关键,通过该技术,**小模型可以非常接近大模型性能**,实现“下一代Flash ≈ 上一代Pro,甚至更好”[5][6][8][25][27] - 公司认为**低延迟**具有巨大价值,如果延迟降低**20-50倍**,将彻底改变用户体验,低延迟对于未来完成更复杂任务(如编写整个软件包)至关重要[9][29][30][153] 模型能力与多模态发展 - 公司从设计之初就希望Gemini是**多模态模型**,其多模态不仅包括文本、图像、视频、音频等人类感知模态,还包括理解**非人类的模态**(如LIDAR传感器数据、机器人数据、医疗影像、基因组信息等),世界上可能有**数百种不同的数据模态**[9][42][44][45][46] - 模型在**长上下文能力**上取得显著进展,已从“大海捞针”式单针测试转向更复杂的多针检索或真实任务(如从数千页文本或数小时视频中提取信息)[36] - **统一模型时代已经到来**,通用模型的能力已大幅提升,在许多场景下不再需要专用系统,**通用模型会胜出**[105][107][110] 硬件、系统与能效协同设计 - 在硬件与机器学习研究之间必须进行 **“协同设计”** ,硬件设计需预测未来 **2–6年** 的模型趋势,研究团队的洞察能指导在芯片中加入可能带来**10倍提升**的“投机性功能”[13][82][84] - 系统设计以**能量消耗**为第一性原则,从内存搬运数据的能量成本(如从SRAM搬运需**1000皮焦耳**)远高于计算本身(小于**1皮焦耳**),这自然引导出通过**批处理(batching)** 来摊薄成本的设计选择[13][73][76][77] - 公司早期在搜索系统架构上的演进(如2001年将索引**全部放进内存**)本质是从“精确词匹配”走向“语义理解”,这与大语言模型(LLM)的逻辑一脉相承[63][65] 未来研究方向与行业影响预测 - 未来最重要的技能将是 **“写清楚需求”** 或 **“清晰表达需求”** ,因为智能体(Agent)的输出质量完全取决于如何定义问题,这将成为一种**核心技能**[2][144][145][146] - 未来工程师的工作模式可能演变为人均管理**50个智能体实习生**,完成大量并行任务,这种组织沟通效率可能比管理真人团队更高[1][138][139] - 两个关键预测:1) **真正“个性化”的模型**会极其重要,它能访问并理解用户的全部授权历史信息;2) 专用化硬件将推动**模型延迟大幅下降**,从而改变许多应用场景[13][156][158] - 重要的开放研究方向包括:让模型更可靠地完成**更长、更复杂的任务**(可能涉及模型间协作),以及将强化学习扩展到**“不可验证”的领域**[91] 公司内部项目复盘与组织策略 - 公司反思了早期在AI资源分配上的问题,将算力和人才分散在多个团队和方向被内部认为是 **“愚蠢的”** ,这直接促成了整合资源、打造**统一多模态模型Gemini**的项目起点[13][131][133] - 公开基准测试(benchmark)有价值,但理想的生命周期是初始分数在 **10%–30%** ,通过改进提升到**80%–90%** ,超过**95%** 则意义不大[35] - 垂直领域模型(如医疗、法律LLM)仍有意义,应基于强大的基础模型在特定领域数据上强化,理想情况是模块化,通过“可安装知识包”或检索来增强基础模型能力[113][114][116][117]
让 Anthropic 破防的「蒸馏」风波,美国 AI 大牛泼冷水:中国 AI 成功不靠走捷径
新浪财经· 2026-02-26 10:15
Anthropic的指控与事件概述 - Anthropic公开指控DeepSeek、月之暗面、MiniMax三家中国AI实验室通过约2.4万个虚假账号,违反服务条款,使用Claude模型生成了超过1600万次对话,用于训练各自的模型,此行为被称为“蒸馏” [1][4][25] - Anthropic将这套用于蒸馏的基础设施称为“九头蛇集群”,这是一个由数万个虚假账号组成的分布式网络,流量分散在Anthropic自身及多个第三方API聚合平台,其中一个代理网络曾同时管理超过2万个账号 [5][25][26] - Anthropic在博客中发出安全警告,称通过非法蒸馏产生的模型可能缺失原模型的安全护栏,若被用于网络攻击、生物武器研发或大规模监控,后果难以预测 [4][25] 被指控公司的具体行为与数据量级 - 根据Anthropic的指控,三家公司的蒸馏数据量级差异巨大:DeepSeek最少,约为15万次交互;月之暗面约为340万次;MiniMax最多,约为1300万次 [6][26][28] - 被指控公司的蒸馏目标存在差异:DeepSeek被指控专注于批量生产**思维链**训练数据,旨在获取推理过程而非最终答案;月之暗面与MiniMax的目标则集中在**智能体推理、工具调用、代码与数据分析、复杂任务编排**等Claude的核心能力方向 [6][8][26][28] - 月之暗面与MiniMax的蒸馏数据合计约1650万次,估算其token总量在1500亿到4000亿之间,对应的token成本可能高达数百到上千万美元 [8][28] 专家Nathan Lambert的核心分析与技术观点 - RLHF领域专家Nathan Lambert指出,Anthropic的指控将三家公司并列,掩盖了它们在行为量级和动机上的关键差异,需要分开看待 [5][26] - Lambert的核心论点是:**蒸馏技术本身存在天花板**,它本质上是模仿强模型的输出,但当前顶尖模型的能力高度依赖**强化学习**,这是一种需要通过自主探索和试错来获得的能力,无法通过简单蒸馏获得 [8][9][28][29] - 技术层面,Lambert指出不同模型间存在**数据分布差异**,直接将Claude的输出用于训练其他架构的模型可能无效甚至产生干扰,因此有效蒸馏需要大量的工程和研究工作,这本身是一种技术创新尝试 [11][31] - Lambert认为,Anthropic指控中提到的**代理行为**能力,恰恰是最难通过蒸馏复制的,因为这些能力依赖于模型在未知情况下的自主探索和推理轨迹生成 [12][32] 对蒸馏技术效用的评估 - Lambert评估DeepSeek的15万次蒸馏数据量,对任何大型模型的整体训练影响**可以忽略不计**,更像是小团队的内部实验 [7][27] - 尽管蒸馏能帮助模型快速“热身”,但真正的突破和创新依赖于强化学习,以DeepSeek自身实验为例,其小模型在数学基准上的优异表现更多归功于强化学习,而非蒸馏行为本身 [10][30] - 蒸馏并非“拿来就用”的捷径,其最终效果取决于公司能否解决数据分布、模型架构差异以及如何将数据转化为真实能力等技术问题,特别是对于代理能力的获得重度依赖强化学习 [16][31][39] Anthropic的动机与行业背景争议 - Lambert及分析认为,Anthropic此次公开指控的**首要动机并非技术防御**,在博客发布前几天,美国国防部曾威胁Anthropic,要求提供不受限制的模型访问权限,否则可能将其标记为“供应链危险” [13][33] - Anthropic被指在“蒸馏”问题上存在**双重标准**,美国的学术界和开源社区也存在类似行为,但未受到同等打击,此次针对性指控地缘政治意味浓厚 [13][33] - 有背景指出,Anthropic自身在训练数据获取上存在争议,包括通过“巴拿马”项目破坏性扫描全球书籍、联合创始人从盗版网站下载侵权书籍,并因此支付了**15亿美元**的和解金,这使其对别家的“蒸馏”指控显得缺乏说服力 [14][15][34][35] - 反驳者指出,Anthropic使用受版权保护的内容训练商业模型时并未支付费用,而被指控的中国公司至少为API使用支付了费用,尽管两者法律性质不同,但凸显了Anthropic立场的矛盾性 [15][39]
Anthropic声称被Deepseek蒸馏!马斯克为啥怼?
新浪财经· 2026-02-24 15:57
Anthropic指控中国AI公司大规模蒸馏Claude模型事件 - Anthropic发布声明,指控三家中国AI公司DeepSeek、Moonshot AI和MiniMax对其大模型Claude进行大规模“蒸馏” [1][13] - 指控称,三家公司通过超过2.4万个虚假账号,与Claude进行了约1600万次交互,以抽取模型能力训练自家模型 [1][13] - Anthropic形容此行为为系统化、工业级的能力提取,并称之为“hydra cluster”,其请求结构高度重复,集中瞄准推理能力、Agent工具使用、编程与思维链输出等关键能力 [1][13] 被指控公司的具体交互数据与目标 - 具体而言,DeepSeek被指进行了超过15万次交互,侧重抽取推理能力与思维链数据 [3][16] - Moonshot AI被指进行了约340万次交互,聚焦于Agent能力与工具调用 [3][16] - MiniMax被指交互数量最大,约1300万次,集中在Agent编排与工具使用,并被指在新版本发布后迅速切换抽取目标 [3][16] 蒸馏技术的性质与本次争议焦点 - “蒸馏”是AI领域常见的训练方法,利用“教师模型”的输出数据训练“学生模型”,广泛用于模型压缩、轻量化部署及能力迁移,本身并非新技术,也不带有天然的违规属性 [2][14] - 此次争议的焦点在于“方式与规模”,指控称三家公司通过共享支付方式、代理服务和批量化请求结构,系统性抽取Claude的核心能力 [3][16] - Anthropic通过行为识别与异常检测模型发现这一模式,并强调该行为可能削弱模型原有的安全护栏,因此呼吁行业与云服务商采取更严格的防护措施 [3][16] 舆论反应与行业分歧 - 事件引发舆论分歧,Elon Musk在X上抨击Anthropic,讽刺其“你偷来的东西被偷了?”,并提及Anthropic自身曾因训练数据问题饱受争议 [3][7][16][19] - 有行业内部观点认为,争议重点不在蒸馏技术本身,而在具体实施方式,若存在大量虚假账号、批量化请求、绕过服务条款等行为,则可能涉及商业合规与不正当竞争 [9][21] - 另有观点认为,大模型本身建立在互联网公开数据之上,训练数据来源长期存在版权争议,在此背景下以“能力被蒸馏”为由指责竞争对手,立场显得并不牢固 [10][22] 事件揭示的行业规则与法律边界问题 - 从商业角度看,绕过平台规则、大规模抽取核心能力的行为容易引发争议;但从技术实践看,模型输出是否具备明确、可独占的产权属性,目前缺乏清晰的法律标准 [11][23] - 包括OpenAI在内的多家头部企业也曾在不同场景采用蒸馏技术,但内部蒸馏与基于竞品输出训练模型之间的边界,目前仍缺乏统一标准 [11][23] - 问题的核心在于规则如何界定:什么属于合理使用,什么构成系统性能力抽取,巨头之间互相蒸馏的边界有待进一步厘清 [12][24]
蒸馏、GEO、氛围编程 2025年度“AI十大黑话” 能听懂几个?
36氪· 2025-12-26 17:16
文章核心观点 文章总结了《麻省理工科技评论》评出的2025年度十大AI热词,这些概念正在重塑AI行业格局,反映了技术发展、应用模式、资本动态及社会影响等多个维度的最新趋势 [1] 氛围编程 - 编程方式被重新定义,开发者只需用自然语言向AI表达应用目标、功能需求和整体体验,AI则负责自动生成和迭代代码 [2] - 这种方式由OpenAI联合创始人安德烈·卡帕西提出,被称为“氛围编程”,它代表了一种人机协作的新范式 [2] 推理模型 - “推理”成为AI讨论核心,对应推理模型的崛起,这类大语言模型通过多步拆解与连续推演处理复杂问题 [3] - 自OpenAI发布o1和o3系列后,DeepSeek迅速跟进,主流聊天机器人均已引入推理技术,在数学和编程竞赛中达到顶尖人类专家水平 [3] 世界模型 - AI研究转向构建“世界模型”,旨在让AI理解现实世界的因果关系、物理规律与时间演化,而不仅仅是生成流畅文字 [4] - 谷歌DeepMind的Genie 3、李飞飞团队的Marble以及杨立昆的新研究,都通过预测视频演化或构建虚拟环境来让AI掌握世界运转规律 [4] 超大规模数据中心 - 为满足激增的AI算力需求,科技巨头正以前所未有的规模建设专用“超级数据中心” [5] - 例如,OpenAI与美国政府合作的“星门”项目计划投入5000亿美元,建设全美史上最大规模的数据中心网络 [5] 资本与泡沫 - AI成为资本最拥挤的赛道之一,以OpenAI、Anthropic为代表的公司估值持续攀升,但多数仍处于高投入、尚未稳定盈利的阶段 [6] - 与互联网泡沫时期相比,如今顶尖AI公司收入增长迅猛,且背后有微软、谷歌等资金雄厚的科技巨头提供稳定支撑 [6] 智能体 - “智能体”是AI圈内热门但定义模糊的概念,各家宣传AI能像“智能助手”一样自主完成任务,但行业缺乏统一标准 [7] - 尽管AI尚难在复杂多变环境中稳定可靠工作,“智能体”已成为产品宣传中最热门的标签之一 [7] 蒸馏技术 - DeepSeek发布的R1模型展示了“蒸馏”技术的巧妙,让小模型学习大模型的精髓,以极低成本实现接近顶级模型的性能 [8] - 这表明打造强大AI模型未必只能依赖堆砌算力,高效的算法设计同样能带来新的可能 [8] AI垃圾 - “AI垃圾”特指为博流量而批量产生的劣质AI内容,该词已演变为一种后缀,被用来形容各种缺乏实质的事物,如“工作垃圾”、“社交垃圾” [9] - 这折射出人们对AI时代内容质量与真实性的普遍反思 [9] 物理智能 - AI在现实世界中的行动能力仍是短板,虽然机器人在特定任务上学习更快,自动驾驶模拟更逼真,但不少“智能家庭助手”产品仍需人工远程操控 [10] - 为提升能力,已有机器人公司开始向普通人征集做家务视频,表明让AI真正理解并适应物理世界仍前路漫长 [10] 生成引擎优化 - 传统搜索引擎优化正在让位于“生成引擎优化”,随着AI直接给出答案,信息获取方式发生改变 [11] - 新规则下,内容提供者需要确保其品牌、观点或内容被AI在生成的答案中引用,否则可能从用户视野中消失 [11]
2025,AI圈都在聊什么?年度十大AI热词公布
36氪· 2025-12-26 15:33
文章核心观点 文章总结了《麻省理工科技评论》评出的2025年度十大AI热词,这些概念正在重塑AI行业格局,反映了技术发展、应用模式、资本动态及社会影响等方面的关键趋势 [1] 氛围编程 - 编程方式被重新定义,开发者只需用自然语言向AI表达应用目标、功能需求和整体体验感觉,AI则负责自动生成代码、调整细节并通过反复对话迭代 [2] - 这种方式由OpenAI联合创始人安德烈·卡帕西提出,被称为“氛围编程”,它并非一种新编程语言,而是一种新的人机协作方式 [2] 推理模型 - “推理”成为AI讨论核心词汇,对应的是推理模型的崛起,这类大语言模型通过多步拆解与连续推演处理更复杂问题 [3] - 自OpenAI发布o1和o3系列后,DeepSeek迅速跟进,主流聊天机器人均已引入推理技术,在数学和编程竞赛中达到顶尖人类专家水平 [3] 世界模型 - AI研究正转向构建“世界模型”,旨在让AI理解现实世界的因果关系、物理规律与时间演化,而不仅仅是学习语言,从而判断合理性并预测未来 [4] - 谷歌DeepMind的Genie 3、李飞飞团队的Marble以及杨立昆离开Meta后的新研究,都通过预测视频演化或构建虚拟环境,让AI在模拟中掌握世界规律 [4] 超大规模数据中心 - 为满足激增的AI算力需求,科技巨头正以前所未有的规模建设专用“超级数据中心” [5] - 例如,OpenAI与美国政府合作的“星门”项目计划投入5000亿美元,在全美建设史上最大规模的数据中心网络 [5] 资本与泡沫 - AI成为资本最拥挤的赛道之一,以OpenAI、Anthropic为代表的公司估值持续攀升,但多数仍处于高投入、尚未建立稳定盈利模式的阶段 [6] - 与当年的互联网泡沫相比,如今顶尖AI公司收入增长迅猛,且背后有微软、谷歌等资金雄厚的科技巨头提供稳定支撑 [6] 智能体 - “智能体”是AI圈内热门但定义尚不统一的概念,各家宣传AI能像“智能助手”一样自主完成任务,但行业对真正智能体行为缺乏统一标准 [7] - 尽管AI难以在复杂多变环境中稳定可靠工作,“智能体”已成为产品宣传中最热门的标签之一 [7] 模型蒸馏技术 - DeepSeek在2025年年初发布的R1模型展示了“蒸馏”技术的巧妙之处,该技术让小模型学习大模型的精髓,以极低成本实现接近顶级模型的性能 [8] - 这表明打造强大AI模型未必只能依赖堆砌昂贵算力,高效的算法设计同样能带来新的可能 [8] AI垃圾 - “AI垃圾”特指为博流量而批量产生的劣质AI内容,该词汇已演变为一种后缀,被用来形容各种缺乏实质、空洞乏味的事物,如“工作垃圾”、“社交垃圾” [9] - 这折射出人们对AI时代内容质量与真实性的普遍反思 [9] 物理智能 - AI在现实世界中的行动能力仍是很大短板,虽然机器人在特定任务上学习更快,自动驾驶模拟更逼真,但不少“智能家庭助手”产品仍需人工远程操控 [10] - 为提升此能力,已有机器人公司开始向普通人征集做家务视频,表明让AI真正理解并适应物理世界仍前路漫长 [10] 生成引擎优化 - 传统搜索引擎优化正在让位于“生成引擎优化”,随着AI直接给出答案,信息获取方式发生改变 [11] - 新的竞争规则是:当用户直接问AI问题时,AI答案中是否会提及特定品牌、观点或引用其内容,内容提供者必须学会被AI引用和吸收,否则可能从视野中消失 [11]
6666!NuerIPS满分论文来了
量子位· 2025-11-11 19:11
文章核心观点 - 一篇来自清华大学和上海交通大学的研究论文在NeurIPS 2025上获得四位审稿人一致给出的满分6分,成为该会议唯一的满分论文[1] - 论文的核心结论挑战了行业普遍认知,指出真正决定大语言模型推理能力上限的是基座模型本身,而非强化学习训练方法[1] - 研究结果表明,知识蒸馏方法比强化学习更有潜力实现大模型能力的自我进化,这对当前主流的RLVR技术路线提出了重要质疑[1][12] 研究方法与实验设计 - 研究团队采用pass@k作为关键评估指标,该指标通过多轮采样揭示模型的真实推理边界,能更精准判断模型是否"有能力"解决问题[14][15] - 实验覆盖大语言模型推理能力的三大典型应用领域:数学推理、代码生成和视觉推理,并搭配GSM8K、MATH500、LiveCodeBench、MathVista等权威基准数据集[17] - 模型选择以主流大语言模型家族为基础,包括Qwen2.5系列和LLaMA-3.1等,构建了"基础模型vs RLVR训练模型"的多组平行对照[18] - 针对每个测试样本,让基础模型和RLVR模型进行不同次数的采样,k值从1逐步提升至1024,记录每次采样中"至少出现一个正确结果"的概率[20] 关键研究发现 - RLVR主要是在"强化"底模已有的推理路径,而不是"发现"底模没有的新路径[10] - RL训练后的模型在低采样次数下表现更好,但随着采样次数增加,底模反而能超过RL模型,说明底模隐藏的推理能力被低估了[10] - 多种RL算法在提升采样效率方面差异不大,且与"理论上底模最大能力"相比仍有明显差距[10] - 蒸馏方法更有可能"扩展"模型的推理能力范围,因为其接收来自教师模型的新推理模式,而RLVR更受限于底模[10] 研究团队背景 - 研究团队由8位研究人员组成,其中7位来自清华大学LeapLab,1位来自上海交通大学[24] - 项目负责人Yang Yue是清华大学自动化系四年级博士生,研究方向为强化学习、世界模型和多模态大模型[25] - 通讯作者Gao Huang是清华大学自动化系副教授、博士生导师,LeapLab负责人,以提出经典卷积架构模型DenseNet而闻名[31][32]
DeepSeek 刷新全球 AI 格局;50 美元模型蒸馏术;美国公司们宣布 8000 亿美元算力投资丨AI 月报
晚点LatePost· 2025-02-10 17:50
格局变化 - DeepSeek推出R1模型,性能比肩OpenAI o1但API价格仅为1/30,迅速改变全球大模型竞争格局 [4][6] - R1发布后DeepSeek应用登顶美区App Store,两周下载量达ChatGPT同期两倍,中国DAU突破3000万 [8][12] - 英伟达股价因市场担忧GPU需求受冲击一度暴跌,但10天后反弹至3万亿美元市值 [7] 技术突破 - "蒸馏"技术成为焦点:伯克利团队用450美元、李飞飞团队用50美元即开发出接近o1性能的垂直领域模型 [15][16] - DeepSeek论文显示通过生成80万数据精调开源模型,可显著提升推理能力 [14] - 中国公司密集发布新模型,Chatbot Arena前20名中中国模型占比达5个,较上月增加2个 [17][18][22] 企业动态 - OpenAI年化收入超60亿美元,ChatGPT付费用户达1550万,企业API收入年化32亿美元 [5][29] - 微软考虑用DeepSeek模型替代OpenAI,Databricks超1000家客户半月内采用R1/V3 [12] - 英伟达发布Project Digits个人算力平台,可本地运行2000亿参数模型,售价3000美元 [31][32] 资本动向 - 1月26家AI公司获超5000万美元融资,中国占2家,医疗AI和算力优化领域最活跃 [39][45] - OpenAI启动400亿美元融资估值达3000亿,Anthropic获30亿美元估值600亿 [40] - 四大科技公司+OpenAI联盟计划超8000亿美元算力投资,但微软暂停33亿数据中心建设 [33][36][37] 行业趋势 - Agent应用成竞争焦点:OpenAI推出Task/Operator功能,Anthropic/智谱同步跟进 [27][28][30] - 数据争夺白热化:OpenAI爬虫导致网站崩溃,反爬虫"下毒"程序在开发者论坛流行 [52][54][56] - 开源模型冲击商业市场:Meta组建团队研究DeepSeek技术,计划用于Llama新版 [9]