蒸馏技术
搜索文档
 姚顺宇离职背后:国产大模型已经上桌了
 虎嗅APP· 2025-10-10 07:56
 文章核心观点 - 华人AI科学家姚顺宇因反对Anthropic将中国称为“敌对国家”的政策以及内部因素而离职,加入Google DeepMind,此举揭示了中美在大模型领域日益加剧的技术竞争与地缘政治紧张关系[5][6] - Anthropic对华实施严格的业务与资本限制,包括停止向中资控股实体提供Claude服务,并积极拓展其他国际市场如印度,同时其CEO公开支持对华芯片管制,反映了美国科技公司在地缘政治影响下的战略选择[8][9][12] - 中国大模型厂商(如阿里、DeepSeek、Kimi等)正利用Anthropic“断供”带来的市场窗口期,通过快速产品迭代、大幅降价和迁移服务积极争夺客户,国产替代进程加速,但同时也面临激烈的内部价格竞争和商业化挑战[14][15][16][18] - 全球AI生态呈现多元化趋势,AWS上线中国模型(如阿里Qwen3、DeepSeek)表明中国技术已进入全球主流视野,平台方通过集成多种模型构建护城河,中国企业在全球AI竞赛中的地位显著提升[19]   Anthropic的战略转向与地缘政治立场 - Anthropic于2025年9月5日发布公告,立即停止向多数股权由中国资本持有的公司或其子公司提供Claude服务,并明确将中国等国称为“敌对国家”[8][9] - 公司完成130亿美元(约合人民币928亿元)的F轮融资,投后估值达1830亿美元(约合人民币1.3万亿元),为半年前的三倍[9] - CEO达里奥·阿莫迪多次呼吁对华实施算力管控,并在2025年1月发文质疑DeepSeek-V3模型不可能以600万美元的低成本训练而成[9] - Anthropic将商业重心迁移至AI编程,推出独立编程产品Claude Code,与谷歌Gemini共同占据海外AI编程产品第一梯队[10] - 公司宣布将于2026年在印度班加罗尔设立办事处,因印度已成为其Claude模型的第二大消费市场[12]   中国大模型厂商的应对与市场竞争 - 在Anthropic断供当天,Kimi火速更新K2-0905模型,在兼容性、输出速度、编程能力和上下文长度上进行升级,并宣布高速版API限时半价,意图承接Claude用户[15] - DeepSeek过去几个月两度进行“小更新”,在优化编码能力的同时持续降低API价格[15] - 智谱为Claude API用户提供“一键搬家”服务,为新用户提供2000万Tokens免费体验,其GLM-4.5编码专属包月套餐价格仅为Claude的七分之一[16] - 商汤科技为原Claude用户提供快速切换服务,附赠5000万Tokens体验包,并提供API迁移专属顾问和培训业务[17] - 京东云推出Claude Code接入京东云JoyBuilder大模型服务方案,帮助开发者平稳过渡[17] - 国内科技巨头(如字节跳动、腾讯、阿里)均推出自有AI编程产品,并集成Claude、GPT等主流模型,阿里官方宣称其Qoder产品的AI编程能力已比肩Claude 4.0[11]   行业格局与全球生态变化 - 开源模型公司面临激烈价格战,云厂商(如阿里云、腾讯云)可以远低于官方API的价格提供流行开源模型服务,对开源玩家形成“截胡”压力[18] - Kimi K2模型发布后,海外各大AI和云平台均部署上线该模型,Perplexity CEO表示可能基于K2进行后训练,显示中国模型技术受到国际认可[18] - AWS在亚马逊Bedrock上线阿里巴巴的Qwen3系列和DeepSeek V3.1,此次“开放”被视为构建平台护城河的战略举措,表明中国模型已进入全球主流选择[19] - AWS CEO Matt Garman明确表示“不认为会有一个模型能适应所有场景”,平台通过集成多种模型沉淀客户资源,稳固优势[19]
 姚顺宇离职背后:国产大模型已经上桌了
 虎嗅· 2025-10-09 21:19
 核心人事变动 - 清华物理系特奖得主姚顺宇于2025年9月离开Anthropic,加入Google DeepMind [1] - 其离职原因中40%为反对Anthropic将中国称为“敌对国家”的政策,60%源于无法公开的内部信息判断 [2] - 姚顺宇于2024年10月加入Anthropic,从量子计算研究转向人工智能,并参与了Claude模型从3.7版本提升至4.5版本的工作 [3]   Anthropic的战略转向与融资 - Anthropic于2025年9月5日发布公告,立即停止向多数股权由中国资本持有的公司或其子公司提供Claude服务,并将中国等国称为“敌对国家” [7][8] - 在宣布“断供”前两天,公司完成130亿美元(约合人民币928亿元)F轮融资,投后估值达1830亿美元(约合人民币1.3万亿元),为半年前的三倍 [9] - 公司明确将企业级服务API销售作为主要收入来源,并在Claude 3.5推出后将商业重心迁移至AI编程,推出了独立产品Claude Code [15]   技术路径竞争与CEO立场 - Anthropic CEO达里奥·阿莫迪多次呼吁对华实施算力管控,并质疑DeepSeek-V3模型不可能以600万美元的低成本训练而成 [11] - 其立场源于DeepSeek在推理模型上的创新对Anthropic坚持的Scaling Law和预训练模型主导的技术路径构成了挑战 [12] - 以DeepSeek为代表采用的“蒸馏”技术,使大模型厂商能以更快速度、更低成本训练模型,Anthropic采取断供措施以维护其技术壁垒 [13][14]   中国市场替代机遇与竞争 - Anthropic“断供”后,中国科技巨头迅速行动,阿里、腾讯、字节跳动等公司推出的AI编程产品均集成了Claude等主流模型 [16] - 国内大模型厂商如阿里通义千问、DeepSeek和Kimi嗅到国产替代机会,Kimi在断供当天火速更新K2-0905模型,并宣布API限时半价以承接Claude用户 [21] - 智谱、商汤科技、京东云等公司为原Claude用户提供快速切换服务、免费体验Tokens及迁移方案,价格仅为Claude的七分之一,意图争夺市场份额 [23]   全球市场布局与行业动态 - 在疏远中国市场的同时,Anthropic宣布将于2026年在印度班加罗尔设立办事处,因印度已成为其Claude模型的第二大消费市场 [17] - AWS宣布在亚马逊Bedrock上线阿里巴巴的Qwen3系列和DeepSeek V3.1,标志着中国企业在全球AI角逐中已占据核心位置 [28][29] - 海外AI编程产品第一梯队主要为Anthropic的Claude与谷歌的Gemini,而中国企业的模型亦开始被海外平台如Perplexity考虑用于后训练 [16][26]
 DeepSeek首度公开R1模型训练成本仅为29.4万美元,“美国同行开始质疑自己的战略”
 新浪财经· 2025-09-19 21:25
 核心观点 - DeepSeek-R1模型以极低的训练成本实现了高性能,其训练成本仅为29.4万美元,构建基础大语言模型花费约600万美元,远低于美国同行的成本水平[1][2] - 该成本数据引发美国媒体和行业对中美人工智能竞争格局的重新评估,认为其推翻了只有拥有最先进芯片的国家才能主导AI竞赛的假设[1] - DeepSeek通过开源策略和高效率实现了高端AI的民主化,改变了行业竞争规则,竞争焦点从拥有最多GPU转向用更少资源实现更多目标[6][7]   成本优势 - DeepSeek-R1模型训练使用512块英伟达H800芯片,训练成本29.4万美元,训练时长总计80小时[2][4] - 构建基础大语言模型总成本约600万美元,远低于OpenAI首席执行官透露的远超1亿美元的训练成本[1][2] - 低成本策略得益于使用最大量免费数据进行预训练,并巧妙使用自生成数据进行微调,只在计算上花钱[6]   技术路径 - 模型训练数据来源于网络爬取,包含大量由OpenAI模型生成的回答,可能导致基础模型间接从其他强大模型获得知识[5] - 采用蒸馏技术让庞大复杂的预训练AI模型充当教师训练较小的学生模型,提升性能同时显著降低训练和运行成本[5] - 使用美国科技公司Meta的开源AI模型Llama构建模型的部分精简版本[5]   行业影响 - DeepSeek-R1成为全球首个经过同行评审的主流大语言模型,标志着重要技术里程碑[2] - 该模型在同类产品中脱颖而出,以极低成本实现最先进成果,推动AI技术普及范围扩大[6] - 开源、复制成本相对低廉、高度注重效率的模式将开放理念推向新高度,为其他公司提供可研究模板[6][7]   供应链情况 - DeepSeek在研发前期使用A100芯片为较小模型实验做准备,但R1模型主要使用合法采购的H800芯片集群进行训练[4] - 公司回应了美国官员关于违规获取H100芯片的指控,明确使用的是专为中国市场设计的H800芯片[4] - 尽管面临美国芯片出口管制,仍利用现有芯片资源成功训练出高性能AI模型[4]
 “训练成本才这么点?美国同行陷入自我怀疑”
 观察者网· 2025-09-19 19:28
 文章核心观点 - DeepSeek以远低于美国同行的成本实现了高性能AI模型训练 其训练成本仅为29.4万美元 基础大语言模型构建成本约600万美元 显著低于OpenAI超过1亿美元的训练成本[1][2] - 公司通过开源策略和高效计算资源使用 推动高端AI技术民主化 改变了行业竞争规则[6][7] - 公司首次在同行评审论文中披露技术细节 回应了美国对其芯片获取及技术复制的不实指控[4][5]   成本与效率突破 - DeepSeek-R1模型训练仅使用512块英伟达H800芯片 成本为29.4万美元[2] - 基础大语言模型构建总成本约600万美元 远低于美国公司公开披露的数字[1] - 采用网络爬取数据与自生成数据结合的节俭策略 仅聚焦计算投入 实现成本优化[6]   技术方法与行业影响 - 使用蒸馏技术提升模型性能并降低计算成本 通过Meta开源模型Llama构建部分精简版本[5] - 训练数据包含OpenAI模型生成内容 但属网络爬取过程中的无意结果 非刻意复制[5] - 模型实现顶级性能与高度效率 推动AI竞争从GPU数量导向转向资源效率导向[6][7]   芯片使用与合规性 - 研发前期使用A100芯片进行小模型实验 R1模型训练全程采用合法采购的H800芯片集群[4] - 在512块H800芯片上进行80小时训练 直接回应美国关于违规使用H100芯片的指控[4]   行业地位与认可 - 成为全球首个经过同行评审的主流大语言模型 获《自然》杂志刊登[2] - Hugging Face专家确认其方法可被第三方复现 无需依赖OpenAI秘密数据[6] - 被评价为"推翻仅靠先进芯片主导AI竞赛"的假设 实现"高端AI民主化"[1][6]
 “AI 教父”Geoffrey Hinton 首度在华演讲:AI 恰似一只小虎崽,而人类本身是大语言模型?
 AI前线· 2025-07-27 12:30
 人工智能发展路径   - 人工智能发展存在两种范式:逻辑型范式(基于符号规则和推理)和生物型范式(基于神经网络连接学习)[4]   - 1985年尝试将两种理论结合 通过特征向量建模词语理解 不存储句子而是生成预测[4]   - 30年间技术演进路径:Yoshua Bengio扩大特征建模→计算语言学采用特征嵌入→谷歌发明Transformer[5]     大语言模型原理   - 大语言模型是微型语言模型的扩展 通过多层神经元结构处理复杂特征交互 与人类理解语言方式高度相似[7]   - 词语理解采用"乐高积木"比喻:每个词是多维特征组合 通过动态"握手"方式实现语义连接[8][9]   - 模型通过特征整合实现理解 其机制类似蛋白质氨基酸组合 产生有意义的内容[9]     数字智能优势   - 数字智能实现软件硬件分离 知识可永久保存且跨硬件复现 功率效率比生物脑高30倍[10]   - 知识传递效率差异显著:人类每秒最多传递100比特 AI通过权重共享可实现每秒万亿比特传输[11][12]   - 分布式智能体系统可加速学习 多个拷贝同时运行并共享权重 比单体学习效率高数十亿倍[12][13]     AI发展现状与挑战   - AI已具备自我复制和设定子目标能力 存在获取更多控制权的内在倾向[14]   - 技术不可逆性:AI提升各行业效率(医疗/教育/气候变化) 任何国家单方面禁用都不现实[14]   - 当前AI治理类似"饲养虎崽" 需建立国际协作机制确保AI发展符合人类利益[14][17]     国际合作建议   - 参照冷战时期核管控经验 各国可在AI安全领域开展合作 建立主权AI研究网络[15][17]   - 提议组建跨国AI安全机构 专项研究控制超级智能的技术 共享"AI向善"方法论[17]   - 核心挑战是开发控制比人类更聪明AI的技术 这是人类长期生存的关键问题[17]     行业活动   - 首届AICon全球人工智能大会将于8月22-23日在深圳举行 聚焦Agent/多模态/AI产品设计等方向[18]   - 会议将展示大模型降本增效案例 汇集头部企业及创业公司的前沿实践[18]
 两位大模型从业者群友如何评价小米MiMo大模型?
 理想TOP2· 2025-04-30 21:04
 大模型性能对比 - Llama-3 8B在BBH基准测试中得分为64 2 显著低于Gemma-2 9B的69 4和Qwen2 5 7B的70 4 而MiMo-7B以75 2领先[1] - 在GPQA-Diamond测试中 Qwen2 5以35 4的准确率表现最佳 超过MiMo-7B的25 8[1] - MiMo-7B在SuperGPQA测试中获得25 1分 略优于Qwen2 5的24 6[1] - 数学能力方面 MiMo-7B在AIME 2024测试中取得32 9的高分 远超Qwen2 5的10 1[1] - 代码能力上 MiMo-7B在LiveCodeBench v5测试中获得32 9分 显著高于Qwen2 5的5 0[1]   中文能力表现 - Qwen2 5在C-Eval中文测试中获得81 8的高分 明显优于MiMo-7B的68 7[1] - CMMLU中文测试中 Qwen2 5以82 7分领先 MiMo-7B得分为70 9[1] - 预训练结果显示Qwen在中文问答方面具有明显优势 而MiMo-7B表现相对较弱[1]   模型训练策略 - MiMo-7B通过预训练偏重数学和代码能力 导致其他能力下降[1] - 强化学习主要提升数学和代码能力 但提升幅度不大 未见显著创新[1] - 7B模型在AIME测试中获得20多分是通过牺牲其他能力实现的技巧性高分 而非结构创新[1] - 小尺寸模型可能采用蒸馏技术训练 效果优于直接训练[4] - MiMo-7B使用"先进推理模型"合成数据进行训练[4]   行业讨论 - 参数规模差异大的模型不适合直接比较 如MindGPT是千亿参数级别[3] - 小参数模型训练更快 可专注特定指标展示实力[3] - 当前行业普遍采用合成数据策略 MindGPT也使用类似方法[7] - 理想汽车计划在2025年5月举办AI Talk第二季活动[9]
 速递|Pruna AI开源模型压缩"工具箱",已完成种子轮融资650万美元
 Z Potentials· 2025-03-21 11:22
 Pruna AI公司概况   - 欧洲初创公司专注于AI模型压缩算法研究 近期完成650万美元种子轮融资 投资方包括EQT Ventures、Daphni等机构 [2]   - 公司开发了标准化AI模型优化框架 整合缓存、蒸馏等多种效率方法 并实现压缩模型的保存/加载标准化流程 [2]   - 框架可评估压缩后模型的质量损失与性能提升 类比Hugging Face对transformers的标准化处理方式 [3]     技术方案与行业应用   - 支持多种AI模型类型(LLM/扩散模型/语音识别/CV) 当前重点聚焦图像视频生成领域 客户包括Scenario/PhotoRoom等企业 [4]   - 独创压缩代理功能:用户设定速度与准确率阈值(如精度损失≤2%) 系统自动寻找最优压缩组合方案 [5]   - 对比行业现状:大公司通常自建压缩技术 开源社区多为单一方法 Pruna的整合方案填补市场空白 [4]     商业化进展   - 采用云服务式计费模式 专业版按小时收费 类比AWS GPU租赁商业模式 [5]   - 实证案例:将Llama模型体积缩小8倍且精度损失可控 显著降低客户推理成本 [5]   - 企业版提供高级优化代理等增值服务 开源基础框架以扩大生态影响力 [4][5]     行业趋势   - 模型压缩已成行业刚需 OpenAI通过蒸馏技术开发GPT-4 Turbo Black Forest Labs推出Flux.1-schnell等优化版本 [4]   - 蒸馏技术通过师生模型知识迁移 实现轻量化模型部署 主流厂商均采用类似方案 [4]
 速递丨全球AI巨头正加急抄DeepSeek作业,蒸馏降本或彻底颠覆美国技术先发优势
 Z Finance· 2025-03-03 09:41
 蒸馏技术发展现状   - 蒸馏技术利用大型"教师模型"生成数据训练小型"学生模型",实现知识迁移并降低计算成本 [2]   - 技术突破使蒸馏成为AI创业公司降本增效利器,可在不依赖庞大算力下构建高效应用 [2]   - OpenAI产品负责人称蒸馏能以极低成本获得快速执行速度,是"近乎神奇的技术" [2]     行业应用与商业影响   - GPT-4/Gemini等大模型训练成本达数亿美元,蒸馏技术使AI能力可运行于笔记本电脑/智能手机 [2]   - 微软利用GPT-4蒸馏出小型Phi模型推动商业化落地,累计向OpenAI投资近140亿美元 [3]   - IBM指出多数企业无需超大规模模型,蒸馏版已可支持客服机器人等日常业务 [5]     技术局限性   - 模型轻量化会削弱泛化能力,如擅长邮件总结但其他任务表现下降 [5]   - OpenAI坚持大模型在高风险任务中不可替代,企业愿为高可靠性支付溢价 [6]   - 大模型仍是创新源泉,未来突破仍需依赖其后再蒸馏至小模型 [6]     行业竞争格局   - DeepSeek利用开源系统挑战硅谷领导地位,导致美国科技巨头市值蒸发数十亿美元 [1]   - OpenAI设立监控团队防止竞争性蒸馏,已限制DeepSeek相关账户访问 [7]   - Meta将蒸馏视为开源精髓,称所有开发者可从中受益 [7]     商业模式变革   - 蒸馏模型计算成本更低,导致OpenAI等公司收入减少,需调整收费策略 [6]   - IBM指出蒸馏技术使竞争对手可快速跟进,让AI市场复杂化且商业模式更难预测 [8]   - 行业对"先发优势"有效性产生质疑,数十亿美元投入可能被对手数月内赶超 [8]