Workflow
模型蒸馏
icon
搜索文档
1.58bit不输FP16!微软推出全新模型蒸馏框架,作者全是华人
量子位· 2025-10-20 11:46
核心技术框架 - 微软推出名为BitNet Distillation(BitDistill)的蒸馏框架,实现几乎无性能损失的模型量化,将模型量化至1.58-bit [1] - 该框架包含三个依次衔接的阶段:模型结构优化、继续预训练和蒸馏式微调 [8] - 在模型结构优化阶段,引入SubLN归一化模块,将其插入多头自注意力模块和前馈网络的输出投影之前,以稳定量化训练过程并提升收敛性,而不改变主干计算路径 [10][11][12] 性能与效率表现 - 量化后的模型在同等硬件下,推理速度提升2.65倍,内存消耗仅为全精度FP16模型的1/10 [6] - 在文本分类任务(如MNLI、QNLI、SST-2)中,1.58-bit模型的准确率与全精度微调模型(FP16-SFT)几乎一致,显著优于直接微调的量化模型(BitNet-SFT)[23][24] - 在文本摘要任务(CNN/DailyMail数据集)上,量化模型的BLEU指标为14.41,ROUGE-L为27.49,与FP16模型的13.98和27.72几乎等同,甚至在BLEU上略有超出 [25][27] 技术通用性与兼容性 - 该框架在4B及以下的Qwen、Gemma模型上证实有效,理论上可应用于其他Transformer架构 [2] - 框架展现出良好的通用性,在Gemma和Qwen2.5等其他预训练模型上也能高度还原全精度性能 [28] - 该方法与Block-Quant、GPTQ、AWQ等常见量化策略兼容,可作为独立的上层蒸馏方案,适用于多种后量化优化场景 [28] 行业影响与团队背景 - 技术突破可能降低对昂贵GPU硬件的依赖,因为量化后模型内存需求大幅减少且推理速度提升 [7] - 该研究的作者团队全部来自微软研究院,且均为华人,通讯作者为微软亚洲研究院副总裁韦福如博士 [29][30]
真正的AI竞争力,藏在大模型“后训练”这一步
量子位· 2025-10-13 16:47
后训练技术演进与产业共识 - 后训练被视为AI落地产业的必经之路,旨在将通用基座模型转化为深度理解企业业务、具备领域知识并能执行复杂策略的专属智能引擎[1] - 技术路径从监督微调(SFT)进化至以目标为导向的强化学习(RL)范式,并从依赖人力的RLHF发展到追求自动化的RLVR和前沿的自然语言奖励[2][3][4] - 后训练的核心价值在于通过对模型的特定能力增强,解决商业世界的复杂任务,构建通用模型无法达到的竞争壁垒[4] 企业后训练四步落地路径 - 企业后训练落地遵循一条清晰链路:准备高质量数据(Data)、选择合适的基座模型(Model)、设计有效的奖励机制(Reward)、构建可量化的模型评测(Evaluation)并与业务指标挂钩[8] 第一步:准备高质量数据 - 数据质量是后训练效果的上限,企业超过一半甚至60%-70%的时间都花费在数据准备上[10] - 知乎通过大模型预打标和主动学习提升数据质量,汽车之家利用20年积累的结构化私域数据进行增量预训练,百融云创则建立工业化数据生产线,通过模型自动过滤、校正文本并合成数据来提纯话术[10][11][13] 第二步:选择合适的基座模型 - 选对基座模型是后训练成功的一半,多家企业选择通义千问系列模型,因其模型效果领先、尺寸覆盖广泛且开源生态对后训练深度支持[15] - 通义千问衍生模型数量已突破17万,全球下载量超过6亿,在HuggingFace社区2024年全球模型下载量中占比超30%[16] - 为平衡效果与成本,微博和网易伏羲采用模型蒸馏方案,将大模型能力迁移至更轻量的模型上,微博蒸馏至7B模型,实现了接近大模型的效果但成本更低[19][21] 第三步:设计奖励机制 - 奖励机制的核心是将复杂的商业目标和人类偏好转化为模型可学习的数值信号,技术从RLHF经RLVR演进至利用大模型本身作为评判者的自然语言奖励[24][25] - 盈米基金与阿里云合作,将人类投顾专家的解题框架和风控逻辑内置到模型中探索奖励函数,汽车之家则通过A/B测试关注用户最终转化率等核心业务指标[26] 第四步:构建评估体系 - 模型评估需用客观、可量化的结果证明技术投入的商业价值,盈米基金构建了覆盖600个典型场景的基金投顾领域评测基准[27][28] - 通过精心设计的奖励机制,盈米基金的4B参数垂直模型在准确性指标上超过通用32B参数模型,百融云创使模型回答质量分提升10%,业务违规率从1%降至千分之三[28] 企业后训练实践与商业价值 - 夸克通过后训练复刻专家思维,2025年为高考志愿填报场景生成超1200万份报告,服务4000万用户,实现专家级服务的规模化普惠[30] - 在游戏智能NPC领域,后训练使NPC具备多维度决策能力,如《新倩女幽魂》中的家臣系统能基于薪资、关系亲疏等动态调整行为[32] - 后训练创造的商业价值在金融、内容社区、汽车、AI搜索等领域集中爆发,成为企业真正的护城河[32]
前谷歌 CEO 施密特:AI 像电与火,这 10 年决定未来 100 年
36氪· 2025-09-24 09:27
AI行业范式转变 - AI从工具升级转变为重新定义商业运作方式的系统重构,等同于火和电的发明级别[1][3] - 最强的AI工具正在成为全新的基础设施,如同电网一样成为所有组织的标准配置[5][9] - 这种转变带来组织运转方式的根本改变,包括决策方式、工作流程和数据反馈机制都被AI重新设计[6] 电力成为AI发展关键制约因素 - 到2030年美国需要新增92GW电力才能支撑数据中心需求,相当于几十座大型核电站的发电量[12] - 电力供应而非技术参数成为AI发展的真正边界,美国当前在建核电站基本为零[11][12] - OpenAI计划建造每周新增1GW算力设施的AI工厂,用电规模堪比一座城市[14][16] AI基础设施整合能力 - 真正的竞争不是拥有芯片,而是构建支撑AI的完整体系能力[2][21] - AI工厂需要四个层面的整合能力:算力底座、软件栈、冷却与电力管理、工程能力[22][24] - Nvidia与OpenAI合作提供10GW级别数据中心资源,投资规模可能达到数千亿美元[26] AI能力扩散与竞争焦点转移 - 模型蒸馏成本仅占原始训练的1%左右,却能复现原模型80-90%的能力[34] - 技术扩散速度远快于治理节奏,模型能力可能像空气一样扩散但难以界定责任归属[35][37] - 单纯拥有先进模型不再是护城河,竞争焦点转向如何更好地运用和服务这些能力[39] 平台化与持续学习能力 - 未来成功的AI公司不只拼模型性能,更要拼持续学习能力,构建"用→学→优化→再用"的路径[40][43] - 平台核心是形成良性循环,让客户用得越多就越了解需求,产品就越好用[44][45] - 关键不是发布完美产品,而是构建能够持续适应、扩展和更新的增长机制[46]
核心模型被曝蒸馏DeepSeek?前女友一纸控诉,曝出欧版OpenAI塌房真相
36氪· 2025-08-18 20:12
核心观点 - Mistral AI被前员工指控通过蒸馏DeepSeek模型开发核心技术 但对外宣称是自主强化学习RL成果 并歪曲基准测试结果[1][3][7] - 公司因缺乏技术透明度陷入抄袭丑闻 引发行业广泛质疑[1][4][21] 技术争议 - 行业博主通过层次聚类分析发现Mistral-small-3.2与DeepSeek-v3的特征相似度极高[9][10][12] - 技术分析使用生物信息学工具基于slop特征谱生成谱系树 显示两模型在谱系图中位置接近[12][14] - Gemini Pro 2.5也被发现与DeepSeek-R1在角色一致性等表现上高度相似[17] 公司背景 - Mistral AI成立于2023年 由谷歌DeepMind和Meta前员工创建 定位为遵循欧洲模式的开源AI公司[29] - 公司成立7个月即发布两个SOTA开源大语言模型mistral-7b和mixtral 采用稀疏专家混合架构[34] - 2025年2月估值达62亿美元 被法国总统马克龙称为"法国人工智能产业皇冠瑰宝"[24][28] 融资与成本 - 公司以2200万美元成本开发出竞争性AI模型 对比OpenAI训练GPT-4超1亿美元成本[31] - 法国政府计划投资1090亿欧元支持AI产业发展 为Mistral等公司创造空间[33] 市场表现 - 旗下应用助手Le Chat曾登顶法国免费APP榜首[26] - 最新发布Mistral Medium 3.1宣称整体性能提升巨大 但引发广泛质疑[34][35] 行业技术观点 - 蒸馏技术是通过小模型模仿大模型输出实现 可使大模型适配低性能设备[20] - HuggingFace联合创始人认为蒸馏开源模型不违反开源原则[18] - 行业观点指出问题核心在于未标注模型蒸馏来源 而非蒸馏技术本身[19][21]
被曝蒸馏DeepSeek还造假!欧版OpenAI塌房了
猿大侠· 2025-08-15 12:11
公司争议事件 - 网友爆料Mistral离职员工群发邮件揭露公司多项黑幕,其中最劲爆的是Mistral最新模型疑似直接蒸馏自DeepSeek,却对外包装成强化学习成功案例并歪曲基准测试结果[2][3] - 早在6月就有博主通过"语言指纹"分析发现Mistral-small-3.2和DeepSeek-v3高度相似,而2月时网友还调侃DeepSeek是"中国的Mistral",半年后剧情反转[7][9][11] - 推特博主Sam Peach通过分析模型输出中过度使用的词汇模式(Slop),采用层次聚类方法生成相似性图,证实Mistral-small-3.2和DeepSeek-v3输出模式高度相似[13][14][16][17][18] 公司背景与市场地位 - Mistral被誉为欧洲版OpenAI,是全球开源明星玩家之一,模型性能一直备受好评[4][5] - 公司成立于2023年,base法国巴黎,由前Google DeepMind的Arthur Mensch和前Meta的Guillaume Lample与Timothée Lacroix联合创立[24] - 2024年6月完成由General Catalyst领投的6亿欧元(6.45亿美元)融资,估值达58亿欧元(62亿美元),排名全球第四(美国湾区外排名第一)[25] 业务与技术 - Mistral保持开源路线,今年开源模型包括轻量级模型Mistral Small和主打编程的Mistral Code等,在多语言处理和推理能力方面具备竞争力[27] - 推出自家聊天机器人LeChat,对标ChatGPT,内置深度研究模式、原生多语言推理和高级图像编辑等功能[28] - 就在争议爆发前一天,公司还发布了新模型Mistral Medium V3.1[29] 市场动态 - 2024年8月被曝估值达到100亿美元,且正在筹集新一轮10亿美元融资[25] - 在大模型市场中凭借开源、小快灵的特点占据独特地位[27]
数智科技大数据公司科研成果获IEEE国际学术会议收录
经济网· 2025-07-31 14:38
技术突破 - 公司提出基于分阶段渐进式训练和多层级注意力融合的蒸馏技术 有效提升模型蒸馏压缩时的知识迁移效率 [1] - 技术使径流时序预测模型算力消耗降低52% 推理速度提升40% 显著降低水电行业AI应用的硬件资源需求 [1] - 研究成果被AICSIP 2025国际学术会议收录 论文将进入IEEE Xplore核心数据库并提交EI Compendex与Scopus检索 [1][2] 行业应用 - 技术已成功应用于云上水电模型云平台 解决原始AI模型在企业级应用中参数量大、硬件要求高的问题 [1] - 通过模型蒸馏压缩显著提升人工智能技术在水电行业的应用水平 为行业智能化提供有力支撑 [1]
我在618主场,和3位顶尖技术博士聊了聊
量子位· 2025-06-18 15:49
618购物节技术升级 - 今年618购物节用户体验显著提升,商品推荐精准度提高、物流速度加快、智能客服更拟人化[1][2] - 技术改进聚焦实际应用而非概念炒作,支撑亿级用户流畅购物体验[3][4] - 京东618始于公司周年庆,通过限时秒杀等简单玩法吸引消费者,已持续二十余年[5][6] 零售技术突破 - 京东零售开发"同品判别系统",通过商品属性对比实现同类商品自动归类,提升比价效率[8][9] - 采用模型蒸馏技术解决7B大模型成本过高问题,将训练资源消耗降低40%-60%同时保持精度[12][13][16] - 创新数据筛选机制优先处理模糊样本,并开发自动数据配比算法提升多任务训练效率[16] 物流智能化实践 - 京东物流开发智能分区模型,结合快递员画像和小区特征优化末端配送效率[33][34] - 分拣中心部署具身智能机械臂,专注中小件包裹分拣码放单一场景,利用内部海量图像数据优化识别[36][38][39] - 建立样本识别失败快速反馈机制,形成模型训练闭环[40] 语音识别技术创新 - 语音识别系统已接入协同办公、智能客服等核心业务线,会议转写系统效果超越外部竞品[42][48][49] - 针对方言识别难题收集全国样本,采用MoE机制增强模型泛化能力[52] - 开发语音情感分析技术,通过语气波动判断用户意图倾向[52] 技术人才培养体系 - 京东推出TGT计划全球招募技术人才,提供无上限薪资和三导师制培养[57][59] - 公司拥有电商数据、物流网络等完整技术生态,支持从研究到规模部署的全链路实践[59] - 博士管培生项目提供业务导师指导,6个月基础培养后进入实战项目[46] 公司技术文化 - 京东技术风格强调踏实敢为,鼓励长期深耕业务实际问题[54][56] - 完整供应链体系带来独特技术挑战与机会,需在更大搜索空间寻优[22][23] - 技术人员可获得充分资源支持,验证期即获团队协作保障[20][47]