Workflow
模型蒸馏
icon
搜索文档
DeepSeek、月之暗面、MiniMax被点“非法提取”,它们做错了吗? | 电厂
新浪财经· 2026-02-25 18:47
事件核心观点 - Anthropic指控三家中国AI公司(DeepSeek、Moonshot、MiniMax)通过约2.4万个欺诈账户与Claude进行超1600万次互动,以“非法提取”其模型输出用于训练自身模型,并将此行为定义为“蒸馏攻击” [1] - 被指控的三家中国公司截至目前均未对Anthropic的声明作出公开回应 [1] - 此次事件是2026年开年不到三个月内,国产模型第二次陷入使用美国领先AI模型进行训练的争议 [1] 指控的具体内容与数据 - **技术手段**:Anthropic称三家中国公司采用了名为“蒸馏”的模型训练手段,将Claude作为“教师模型”,通过交互获取其输出概率分布等信息来训练“学生模型” [4] - **交互规模**:据Anthropic披露,三家中国企业以约2.4万个欺诈账户与Claude进行了超1600万次互动 [1] - **细分数据**:DeepSeek与Claude进行了15万次交换、Moonshot进行了340万次交换、MiniMax进行了1300万次交换 [7] - **提取焦点**:Anthropic认为上述行为针对Claude最独特的三大能力——代理推理、工具使用、编码进行了有意提取 [7] “蒸馏”技术的行业背景与争议 - **技术起源**:蒸馏技术可追溯至2015年,由Geoffrey Hinton及其团队提出 [4] - **行业普遍实践**:蒸馏是常见的让模型快速进化的手段,顶尖的大模型厂商和AI实验室常在自研大版本模型基础上蒸馏出更小版本模型,例如阿里巴巴在Qwen2发布5个月后蒸馏出了DistilQwen2 [6] - **条款禁止**:许多大模型(包括Claude)在其服务条款中明确禁止用户或竞品将模型输出用于训练或开发AI模型 [6] - **行为定性困难**:如何确证模型蒸馏行为的存在、如何定性该行为、是否涉及法律问题等,目前尚无明确路径可循 [10] 涉事各方的历史与回应 - **Anthropic的对华立场**:Claude及其公司Anthropic是对中国用户及客户最不“友好”的大模型公司之一,曾表态支持美国出口管制政策,并于2025年9月更新销售地区限制,不向位于中国或中资持股超50%的海外子公司提供商业访问渠道 [7] - **DeepSeek的历史争议**:2025年1月,OpenAI研究人员曾称DeepSeek可能使用了OpenAI模型的输出来训练R1大模型;DeepSeek在2025年9月发表于Nature的论文中回应称,其部分训练数据源于网页随机抓取,“没有故意加入OpenAI生成的合成数据” [9] - **Moonshot的历史争议**:2026年1月底Moonshot新模型Kimi K2.5发布后,坊间曾质疑其蒸馏自Claude;公司创始人杨植麟公开否认,解释称模型在预训练中采样了最新的互联网数据,而这些数据与“Claude”这个token关联较多 [9] 开源与闭源的生态博弈 - **中国模型的开源政策**:中国多款领先大模型遵循开源协议允许蒸馏行为,例如DeepSeek主要模型系列遵循MIT许可证,MiniMax-M1、Kimi K2、阿里巴巴Qwen3等遵循Apache 2.0许可证 [10] - **闭源模型的受益**:许多闭源模型同样受益于开源模型进行蒸馏,例如有市场消息称,Meta在训练其闭源模型“Avocado”时,会使用包括阿里巴巴Qwen在内的多家第三方模型进行蒸馏 [11] - **竞争逻辑的演变**:在AI新市场,技术先进程度不再是唯一追求,生态、人才、法律、地缘等因素叠加,使得竞争维度不断丰富 [13]
Anthropic指控AI公司蒸馏剽窃,马斯克硬刚“贼喊抓贼”
搜狐财经· 2026-02-25 18:13
核心指控与事件概述 - 美国AI公司Anthropic于2026年2月24日发布声明,指控三家中国头部大模型公司DeepSeek、Moonshot AI和MiniMax通过欺诈性账户和代理服务,大规模窃取其Claude大模型的能力 [3] - 指控的核心技术是“模型蒸馏”,即利用能力较弱的模型在更高级模型(Claude)的输出结果上进行训练,以提升自身模型能力 [3] - Anthropic声称,三家公司通过约24,000个欺诈性账户,生成了超过1,600万次与Claude的交互,目标直指Claude的代理推理、工具使用和编码能力 [3][4] 对各公司的具体指控 - **DeepSeek(深度求索)**:通过超过15万次交互,重点提取Claude在多样化任务中的推理能力,其活动显示出同步流量模式、共享支付方式和协调时间安排,暗示了为增加吞吐量和避免检测而进行的负载均衡 [5] - **Moonshot AI(月之暗面)**:通过超过340万次交互,目标涵盖代理推理、工具使用、编码与数据分析、计算机使用代理开发以及计算机视觉,旨在重建Claude的推理轨迹 [5] - **MiniMax**:这是三者中规模最大的,通过超过1,300万次交互,明确针对代理编码、工具使用和编排,并显示出极强的适应性,曾在24小时内将近一半流量转向新系统以捕获最新功能 [5] 技术分歧与行业背景 - Anthropic指控中国公司利用“九头蛇集群架构”等代理服务绕过前沿AI模型的访问权限 [7] - 行业观点指出,许多基础模型的训练本身基于海量公开互联网数据,通常未获原始作者明确同意,新进入者采用“蒸馏”和优化路线是常见做法 [7][8] - 关于合成数据的所有权及用于训练(尤其是开源模型)的合规性问题,在法律上大多尚未定义,存在根本性分歧 [8] - 此次事件并非首例,此前OpenAI也曾指控DeepSeek蒸馏其GPT模型 [8] 地缘政治与监管考量 - Anthropic从国家安全角度指控模型蒸馏的违法性,认为这可能使美国控制先进AI技术能力输出的努力失效 [9] - 专家指出,当前美国出口管制主要集中在先进半导体和高性能计算基础设施等硬件,以及特定类别的先进AI模型权重,并未禁止向中国提供大型语言模型API访问的通用禁令 [9] - 美国工业和安全局正在持续完善与先进计算商品及高能力系统相关的许可框架,公司若明知其服务支持受限制实体(特别是与军事或战略目标相关的)的训练活动,即使不涉及硬件输出也可能面临风险 [9] - 许多美国AI提供商已通过商业政策和合规行为,主动限制其产品在中国的可用性,范围甚至超出严格规定的要求 [9] 行业影响与应对措施 - 对于使用大语言模型API进行构建或训练的开发者而言,Anthropic的指控凸显了一个日益扩大的灰色地带,服务提供商正密切关注利用模型输出进行大规模自动化训练以开发竞争系统的做法 [10] - Anthropic正在投资防御性技术,包括构建多个分类器和行为指纹系统以识别API流量中的“蒸馏攻击”模式,并加强对教育账户、安全研究项目等易被利用渠道的验证 [11] - Anthropic还计划实施产品级、API级和模型级的防护措施,旨在降低模型输出在非法蒸馏中的有效性,同时不影响合法客户体验 [11] - 行业建议开发者确保模型训练过程安全、合规,应审查API/服务条款,为训练数据来源保留清晰记录及相应许可,并将运营日志与训练数据集分开保存 [11] - 地缘政治尽职调查(如受限方筛查、出口合规审查、地区访问控制)正日益成为AI治理的一部分,开发者需能提供完整的训练流程文档记录 [11]
上海楼市重磅新政,非沪籍大松绑;传飞天茅台出厂价涨130元;宝马降价27万上热搜;美国公司指控中企“偷”模型,马斯克嘲讽|| 大件事
搜狐财经· 2026-02-25 16:51
飞天茅台调价传闻 - 网络传闻称飞天茅台出厂价将从每瓶1169元上调至1299元,上调幅度130元 [2] - 贵州茅台公司官方回应称此为谣传,价格调整属于需披露的重大事项,应以公司公告为准 [3] - 公司最近一次出厂价上调是在2023年11月1日,对53%vol飞天、五星茅台酒平均上调幅度约20%,但市场指导价维持在每瓶1499元 [5] - 行业分析指出,贵州国资背景的茅台酒代理商是涨价的主要阻力,且当前环境下短期内涨价可能性低 [6] - 另有分析认为,该传闻可能源于股民行为,因为传闻执行日期2月24日是A股新年开市首日 [6] - 500毫升53度飞天茅台是公司基本盘,2024年其营业收入为1459.28亿元,占公司总营收比重85.29%,2025年前三季度占比提升至86.03% [6] - 该核心产品收入增速正在放缓,2024年同比增长15.28%,2025年前三季度同比增速降至9.28% [6] - 公司自2025年1月1日起在i茅台平台上线该产品动态投放,以加码直销渠道并拉动增长 [6] 上海房地产政策松绑 - 上海市五部门联合发布通知,自2月26日起进一步优化调整房地产政策 [7] - 非本市户籍居民购买外环内住房所需社保或个税缴纳年限,从过去“连续缴纳满5年及以上”大幅降低至“连续缴纳满1年及以上” [11] - 对在本市缴纳社保或个税满3年及以上的非户籍居民家庭,可在现有政策基础上于外环内增购1套住房 [11] - 对持《上海市居住证》满5年及以上的非沪籍居民,限购1套住房且无需提供社保或个税证明 [11] - 政策调整前,非沪籍家庭仅满足一年社保只能购买外环外住房,新政后扩大至全市范围 [13] - 公积金政策优化:首套住房公积金贷款最高额度从160万元提高至240万元 [14] - 叠加多子女家庭和购买绿色建筑的上浮政策(最高上浮35%),家庭公积金贷款最高额度可达324万元 [14] - 公积金贷款支持范围拓展至第二套住房,多子女家庭购买二套住房最高贷款额度可上浮20% [14] - 自2026年1月1日起,对本市户籍家庭中子女成年后购买的唯一住房暂免征收个人住房房产税 [14] - 2025年上海房地产市场数据:商品房新开工面积1492万平方米,下降31.8%;销售面积1579.85万平方米,下降4.6%,其中住宅销售面积1224.93万平方米,下降9.7% [14] 豪华燃油车大幅降价 - “宝马7系降价约27万”话题登上微博热搜第一,反映豪华燃油车降价趋势 [15][16] - 奔驰E级多款车型优惠高达11万元,最高达13.5万元,2026款E 260 L经典版优惠后价格31.99万元(指导价42.99万元) [16] - 奔驰GLB最高优惠12.9万元,最低起售价降至14.49万元 [16] - 奥迪A6L 2026款40 TFSI豪华动感型优惠高达15.1万元,奥迪A7L直降18.72万元,奥迪A3在一些门店价格低至10万元 [16] - 近三年,国内新能源车渗透率从28%跃升至55%,燃油车市场份额则从72%下滑至45% [16] - 截至1月10日,已有超20家主流车企、75款以上车型推出促销政策,此轮降价中宝马、凯迪拉克等豪华品牌最为激进 [17] - 乘联会秘书长预测,2026年上半年豪华车市场降价幅度将维持在10%-15%区间 [17] - 为应对特斯拉Model 3改款、小米SU7等新品冲击,豪华品牌或通过“限时优惠+金融政策”组合维持销量 [17] 刘强东个人投资游艇产业 - 京东创始人刘强东宣布个人投资约50亿元创立游艇品牌Sea Expandary [19] - 公司与深圳、珠海等地政府签署战略协议,计划在珠海投资建设游艇制造基地,在深圳建设中国总部并参与码头运营 [19] - 刘强东表示投资源于个人情感与儿时梦想,其不会直接参与运营管理,最多担任产品经理 [19] - 公司目标之一是推动游艇大众化,希望未来行业内能出现10万元的游艇 [19] - 目前主流中档小型游艇价格通常在50万元至100万元左右 [19] - 2022年国家五部委联合发文,首次从国家层面明确“推动游艇消费大众化”导向 [20] - 广东省提出到2027年游艇及关联产业规模突破1000亿元的目标 [20] - 截至2025年底,中国登记有效游艇共计9850艘,近三年新登记游艇约占游艇总数54.7% [20] AI行业模型训练争议 - 美国AI公司Anthropic指控DeepSeek、月之暗面和MiniMax三家中国公司对其Claude模型进行“工业级规模的蒸馏攻击” [21] - Anthropic称,三家公司通过约24000个虚假账户,与Claude进行超过1600万次交互,系统性提取其核心能力用于训练自身模型 [21] - 2023年9月,Anthropic已全面禁止“中国控股公司”使用其AI服务 [21] - 指控遭到广泛质疑,有观点认为若中国公司通过付费API调用接口,则形式上属于合理使用产品 [22] - 马斯克嘲讽Anthropic,称其自身已犯有“大规模窃取训练数据的罪行” [23] - 模型蒸馏是AI领域标准训练技术,被OpenAI、谷歌、Meta等全球公司普遍使用 [24] - 被指控的中国AI公司发展迅猛,月之暗面旗下Kimi K2.5大模型发布不到一个月,近20天累计收入已超过2025年全年总收入 [24] - 月之暗面在完成上一轮5亿美元融资一个多月后,将完成新一轮超7亿美元的融资,本轮由阿里、腾讯等联合领投,新一轮融资估值达100亿-120亿美元 [24]
美国AI公司指控中国偷技术?马斯克:你偷数据赔15亿时怎么不吭声
搜狐财经· 2026-02-25 11:55
Anthropic的指控与马斯克的反击 - Anthropic指控三家中国公司通过2.4万个假账户与Claude模型进行1600万次交互,利用“模型蒸馏”窃取其核心能力 [3] - 马斯克在社交媒体上反击,指出Anthropic自身因大规模窃取训练数据而支付了数十亿美元和解金,去年刚因书籍版权纠纷支付15亿美元 [3] - 该事件被舆论视为“贼喊捉贼”和双重标准,因为Anthropic承认蒸馏是广泛使用且合法的训练方法,却将中国公司的同类行为定性为非法 [3] 模型蒸馏的技术与争议本质 - 模型蒸馏是一种中性的技术,通过“老师模型”指导“学生模型”来传递能力,类似于师徒传授 [5] - 争议核心在于技术应用的双重标准:Anthropic将自身为客户创建更小、更便宜版本的行为视为合法,却将竞争对手的类似行为指控为非法 [5] - AI行业缺乏明确的技术边界,训练数据多来自未经明确授权的互联网内容,Anthropic自身的数据版权问题(赔偿15亿美元)凸显了行业的普遍性问题 [5] 指控背后的商业与政治动机 - Anthropic在指控中明确将“蒸馏攻击”与美国对AI芯片实施出口管制的理由相关联,为政治打压提供了技术借口 [7] - 指控发生在中美AI产业竞争加剧的背景下,美国正通过芯片出口限制、投资审查和技术封锁打压中国AI产业 [7] - 该行为被视为将商业竞争问题政治化,可能导致行业陷入相互指控的“囚徒困境”,阻碍整体研发进程 [7] AI行业的规则与伦理困境 - AI行业在高速发展中面临规则与伦理严重滞后的问题,大模型的训练依赖于大量未明确授权的数据 [9] - 行业普遍处于“灰色地带”,模仿与创新的边界模糊,Anthropic从“偷数据”到指控他人“偷技术”的行为反映了行业的集体性困境 [9] - 马斯克的反击引发共鸣,是因为其揭示了行业缺乏“绝对干净”手的普遍现实,以及企业在技术伦理上的矛盾立场 [9] 行业未来的破局方向 - AI行业未来需要共同建立明确的规则,而非相互指责,应界定数据使用边界、模型蒸馏底线和商业竞争红线 [11] - Anthropic应优先厘清自身的数据合规问题,而被指控的中国公司则应通过技术路径透明化来回应质疑 [11] - 真正的技术进步依赖于创新硬实力和行业合作,而非技术壁垒或政治化指控,制定共同遵守的底线是行业健康发展的关键 [11]
穷人福音,MIT研究:不用堆显卡,抄顶级模型作业就成
36氪· 2026-01-09 21:20
文章核心观点 - 麻省理工学院的研究表明,尽管用于科学发现的AI模型在架构、训练数据和模态上存在巨大差异,但随着模型性能的提升,它们对物质世界的内在理解会趋于一致,即向同一个“真理”收敛 [1][2][3] - 这种“表征对齐”现象不仅存在于科学AI领域,也出现在跨模态(如语言与视觉)的模型中,意味着强大的AI正在构建一个共享的、对现实的“内在图景” [9][14] - 研究揭示了高性能模型认知的趋同性,为AI开发提供了新方向:无需盲目堆砌算力和参数量,可通过“模型蒸馏”等技术,将大模型的知识迁移到更轻量的小模型上,从而实现高效且低成本的创新 [18][20][24] AI模型认知的收敛性 - 研究汇集了59个不同“出身”的模型,发现当模型变得足够强大时,它们对物质的理解(隐藏层表达)会变得极度相似,尽管它们处理数据的方式天差地别 [1][2] - 引入“表征对齐度”指标后发现,模型预测物质能量越准确,其思维方式就越接近其他顶尖模型,在表达空间里会自发地向同一个方向靠拢 [3][5] - 一个处理文字(SMILES字符串)的模型与一个计算受力的物理模型,在“认知”上实现了高度对齐,表明它们通过不同路径抵达了相同的理解顶峰 [2] - 无论模型架构多么复杂,其最终提取的物质特征在数学复杂度上压缩到了一个非常窄的范围,抓取的都是最核心、最精简的物理信息 [5][6] 跨模态与跨领域的普遍性 - 认知收敛现象不局限于科学AI,在纯文本语言模型(如GPT)和纯图像视觉模型(如CLIP)中也存在 [9] - 当模型规模变大、性能变强时,语言模型中对“猫”的文本向量表示(靠近“毛茸茸”“宠物”等词)与视觉模型中对“猫”的图像向量表示(靠近胡须、圆眼睛等特征)会在线性空间中越来越接近 [11][14] - 这表明AI无论从文字、图像、分子结构还是3D坐标切入,只要足够强大,其内部表征都会趋向同一个对现实的“内在图景” [14] 低性能模型的局限与风险 - 性能不佳的模型有两种失败模式:一是各自在错误的道路上渐行渐远(表征对齐度低),二是集体漏掉关键信息,虽然想法一致但理解肤浅 [15] - 例如MACE-OFF模型在特定任务上表现强,但表征对齐度极低,其学到的规律难以迁移到其他科学任务上,可能只是“死记硬背”而非真正理解 [15] - 当AI遇到训练数据中从未见过的分子结构时,预测误差(MAE)会激增,且表征完全偏离正常的物理分布,表明其缺乏真正的泛化能力 [17] - 训练数据的多样性和质量是模型能否触及“真理”的基础,数据不足会导致模型无法进化成真正的通用基座模型,只能在舒适区内“原地踏步” [17] 对行业发展的启示与未来方向 - 研究挑战了盲目追求大算力和大参数量的行业竞赛,指出了一条更务实的路径:利用“真理收敛”特性,通过“模型蒸馏”将大模型的知识复刻到更轻量、高效的小模型上 [18][24] - 实验显示,即使是参数量较小的模型,只要其表征能与最佳性能模型对齐,同样能在分子能量预测等任务中获得极高的准确度 [20] - Orb V3模型展示了通过大规模训练和聪明的正则化手段,简单的架构也能学到昂贵、强加物理限制的模型才有的理解力,这为模型设计提供了新思路 [20] - 未来评估科学AI的标准将更加多元,不仅看其任务“考分”,更要看其是否踏入了“真理的收敛圈”,这有助于催生更多针对特定场景的轻量级AI,实现“算力自由”下的创新爆发 [22][25] - 行业的发展重点可能从设计复杂架构或漂亮公式,转向如何更稳定地让模型进入“收敛圈”,并利用“表征对齐”实现模型的轻量化和知识迁移 [24]
1.58bit不输FP16!微软推出全新模型蒸馏框架,作者全是华人
量子位· 2025-10-20 11:46
核心技术框架 - 微软推出名为BitNet Distillation(BitDistill)的蒸馏框架,实现几乎无性能损失的模型量化,将模型量化至1.58-bit [1] - 该框架包含三个依次衔接的阶段:模型结构优化、继续预训练和蒸馏式微调 [8] - 在模型结构优化阶段,引入SubLN归一化模块,将其插入多头自注意力模块和前馈网络的输出投影之前,以稳定量化训练过程并提升收敛性,而不改变主干计算路径 [10][11][12] 性能与效率表现 - 量化后的模型在同等硬件下,推理速度提升2.65倍,内存消耗仅为全精度FP16模型的1/10 [6] - 在文本分类任务(如MNLI、QNLI、SST-2)中,1.58-bit模型的准确率与全精度微调模型(FP16-SFT)几乎一致,显著优于直接微调的量化模型(BitNet-SFT)[23][24] - 在文本摘要任务(CNN/DailyMail数据集)上,量化模型的BLEU指标为14.41,ROUGE-L为27.49,与FP16模型的13.98和27.72几乎等同,甚至在BLEU上略有超出 [25][27] 技术通用性与兼容性 - 该框架在4B及以下的Qwen、Gemma模型上证实有效,理论上可应用于其他Transformer架构 [2] - 框架展现出良好的通用性,在Gemma和Qwen2.5等其他预训练模型上也能高度还原全精度性能 [28] - 该方法与Block-Quant、GPTQ、AWQ等常见量化策略兼容,可作为独立的上层蒸馏方案,适用于多种后量化优化场景 [28] 行业影响与团队背景 - 技术突破可能降低对昂贵GPU硬件的依赖,因为量化后模型内存需求大幅减少且推理速度提升 [7] - 该研究的作者团队全部来自微软研究院,且均为华人,通讯作者为微软亚洲研究院副总裁韦福如博士 [29][30]
真正的AI竞争力,藏在大模型“后训练”这一步
量子位· 2025-10-13 16:47
后训练技术演进与产业共识 - 后训练被视为AI落地产业的必经之路,旨在将通用基座模型转化为深度理解企业业务、具备领域知识并能执行复杂策略的专属智能引擎[1] - 技术路径从监督微调(SFT)进化至以目标为导向的强化学习(RL)范式,并从依赖人力的RLHF发展到追求自动化的RLVR和前沿的自然语言奖励[2][3][4] - 后训练的核心价值在于通过对模型的特定能力增强,解决商业世界的复杂任务,构建通用模型无法达到的竞争壁垒[4] 企业后训练四步落地路径 - 企业后训练落地遵循一条清晰链路:准备高质量数据(Data)、选择合适的基座模型(Model)、设计有效的奖励机制(Reward)、构建可量化的模型评测(Evaluation)并与业务指标挂钩[8] 第一步:准备高质量数据 - 数据质量是后训练效果的上限,企业超过一半甚至60%-70%的时间都花费在数据准备上[10] - 知乎通过大模型预打标和主动学习提升数据质量,汽车之家利用20年积累的结构化私域数据进行增量预训练,百融云创则建立工业化数据生产线,通过模型自动过滤、校正文本并合成数据来提纯话术[10][11][13] 第二步:选择合适的基座模型 - 选对基座模型是后训练成功的一半,多家企业选择通义千问系列模型,因其模型效果领先、尺寸覆盖广泛且开源生态对后训练深度支持[15] - 通义千问衍生模型数量已突破17万,全球下载量超过6亿,在HuggingFace社区2024年全球模型下载量中占比超30%[16] - 为平衡效果与成本,微博和网易伏羲采用模型蒸馏方案,将大模型能力迁移至更轻量的模型上,微博蒸馏至7B模型,实现了接近大模型的效果但成本更低[19][21] 第三步:设计奖励机制 - 奖励机制的核心是将复杂的商业目标和人类偏好转化为模型可学习的数值信号,技术从RLHF经RLVR演进至利用大模型本身作为评判者的自然语言奖励[24][25] - 盈米基金与阿里云合作,将人类投顾专家的解题框架和风控逻辑内置到模型中探索奖励函数,汽车之家则通过A/B测试关注用户最终转化率等核心业务指标[26] 第四步:构建评估体系 - 模型评估需用客观、可量化的结果证明技术投入的商业价值,盈米基金构建了覆盖600个典型场景的基金投顾领域评测基准[27][28] - 通过精心设计的奖励机制,盈米基金的4B参数垂直模型在准确性指标上超过通用32B参数模型,百融云创使模型回答质量分提升10%,业务违规率从1%降至千分之三[28] 企业后训练实践与商业价值 - 夸克通过后训练复刻专家思维,2025年为高考志愿填报场景生成超1200万份报告,服务4000万用户,实现专家级服务的规模化普惠[30] - 在游戏智能NPC领域,后训练使NPC具备多维度决策能力,如《新倩女幽魂》中的家臣系统能基于薪资、关系亲疏等动态调整行为[32] - 后训练创造的商业价值在金融、内容社区、汽车、AI搜索等领域集中爆发,成为企业真正的护城河[32]
前谷歌 CEO 施密特:AI 像电与火,这 10 年决定未来 100 年
36氪· 2025-09-24 09:27
AI行业范式转变 - AI从工具升级转变为重新定义商业运作方式的系统重构,等同于火和电的发明级别[1][3] - 最强的AI工具正在成为全新的基础设施,如同电网一样成为所有组织的标准配置[5][9] - 这种转变带来组织运转方式的根本改变,包括决策方式、工作流程和数据反馈机制都被AI重新设计[6] 电力成为AI发展关键制约因素 - 到2030年美国需要新增92GW电力才能支撑数据中心需求,相当于几十座大型核电站的发电量[12] - 电力供应而非技术参数成为AI发展的真正边界,美国当前在建核电站基本为零[11][12] - OpenAI计划建造每周新增1GW算力设施的AI工厂,用电规模堪比一座城市[14][16] AI基础设施整合能力 - 真正的竞争不是拥有芯片,而是构建支撑AI的完整体系能力[2][21] - AI工厂需要四个层面的整合能力:算力底座、软件栈、冷却与电力管理、工程能力[22][24] - Nvidia与OpenAI合作提供10GW级别数据中心资源,投资规模可能达到数千亿美元[26] AI能力扩散与竞争焦点转移 - 模型蒸馏成本仅占原始训练的1%左右,却能复现原模型80-90%的能力[34] - 技术扩散速度远快于治理节奏,模型能力可能像空气一样扩散但难以界定责任归属[35][37] - 单纯拥有先进模型不再是护城河,竞争焦点转向如何更好地运用和服务这些能力[39] 平台化与持续学习能力 - 未来成功的AI公司不只拼模型性能,更要拼持续学习能力,构建"用→学→优化→再用"的路径[40][43] - 平台核心是形成良性循环,让客户用得越多就越了解需求,产品就越好用[44][45] - 关键不是发布完美产品,而是构建能够持续适应、扩展和更新的增长机制[46]
核心模型被曝蒸馏DeepSeek?前女友一纸控诉,曝出欧版OpenAI塌房真相
36氪· 2025-08-18 20:12
核心观点 - Mistral AI被前员工指控通过蒸馏DeepSeek模型开发核心技术 但对外宣称是自主强化学习RL成果 并歪曲基准测试结果[1][3][7] - 公司因缺乏技术透明度陷入抄袭丑闻 引发行业广泛质疑[1][4][21] 技术争议 - 行业博主通过层次聚类分析发现Mistral-small-3.2与DeepSeek-v3的特征相似度极高[9][10][12] - 技术分析使用生物信息学工具基于slop特征谱生成谱系树 显示两模型在谱系图中位置接近[12][14] - Gemini Pro 2.5也被发现与DeepSeek-R1在角色一致性等表现上高度相似[17] 公司背景 - Mistral AI成立于2023年 由谷歌DeepMind和Meta前员工创建 定位为遵循欧洲模式的开源AI公司[29] - 公司成立7个月即发布两个SOTA开源大语言模型mistral-7b和mixtral 采用稀疏专家混合架构[34] - 2025年2月估值达62亿美元 被法国总统马克龙称为"法国人工智能产业皇冠瑰宝"[24][28] 融资与成本 - 公司以2200万美元成本开发出竞争性AI模型 对比OpenAI训练GPT-4超1亿美元成本[31] - 法国政府计划投资1090亿欧元支持AI产业发展 为Mistral等公司创造空间[33] 市场表现 - 旗下应用助手Le Chat曾登顶法国免费APP榜首[26] - 最新发布Mistral Medium 3.1宣称整体性能提升巨大 但引发广泛质疑[34][35] 行业技术观点 - 蒸馏技术是通过小模型模仿大模型输出实现 可使大模型适配低性能设备[20] - HuggingFace联合创始人认为蒸馏开源模型不违反开源原则[18] - 行业观点指出问题核心在于未标注模型蒸馏来源 而非蒸馏技术本身[19][21]
被曝蒸馏DeepSeek还造假!欧版OpenAI塌房了
猿大侠· 2025-08-15 12:11
公司争议事件 - 网友爆料Mistral离职员工群发邮件揭露公司多项黑幕,其中最劲爆的是Mistral最新模型疑似直接蒸馏自DeepSeek,却对外包装成强化学习成功案例并歪曲基准测试结果[2][3] - 早在6月就有博主通过"语言指纹"分析发现Mistral-small-3.2和DeepSeek-v3高度相似,而2月时网友还调侃DeepSeek是"中国的Mistral",半年后剧情反转[7][9][11] - 推特博主Sam Peach通过分析模型输出中过度使用的词汇模式(Slop),采用层次聚类方法生成相似性图,证实Mistral-small-3.2和DeepSeek-v3输出模式高度相似[13][14][16][17][18] 公司背景与市场地位 - Mistral被誉为欧洲版OpenAI,是全球开源明星玩家之一,模型性能一直备受好评[4][5] - 公司成立于2023年,base法国巴黎,由前Google DeepMind的Arthur Mensch和前Meta的Guillaume Lample与Timothée Lacroix联合创立[24] - 2024年6月完成由General Catalyst领投的6亿欧元(6.45亿美元)融资,估值达58亿欧元(62亿美元),排名全球第四(美国湾区外排名第一)[25] 业务与技术 - Mistral保持开源路线,今年开源模型包括轻量级模型Mistral Small和主打编程的Mistral Code等,在多语言处理和推理能力方面具备竞争力[27] - 推出自家聊天机器人LeChat,对标ChatGPT,内置深度研究模式、原生多语言推理和高级图像编辑等功能[28] - 就在争议爆发前一天,公司还发布了新模型Mistral Medium V3.1[29] 市场动态 - 2024年8月被曝估值达到100亿美元,且正在筹集新一轮10亿美元融资[25] - 在大模型市场中凭借开源、小快灵的特点占据独特地位[27]