Workflow
大模型蒸馏
icon
搜索文档
炸了!Claude深夜怒撕DeepSeek、月之暗面、MiniMax,1600万次交互引争议
新浪财经· 2026-02-24 09:28
Anthropic指控事件核心 - 著名大模型平台Anthropic发文传言称,中国AI公司DeepSeek、Moonshot AI和MiniMax,使用**24,000个账号**,与Claude进行了**1,600万次交互**以蒸馏其模型 [1][15] 舆论反应与争议 - 传闻引发网友激烈讨论,评论超**2,000**条,但舆论风向并未一边倒支持Anthropic,多数人对其做法持怀疑和指责态度 [2][11][16][27] - 普遍观点认为,用户付费使用产品,只要不违法即可自由使用,类比为购买汽车后有权进行逆向工程研究 [2][16] - 大量评论反指Anthropic自身训练数据来源的合法性与道德性,质问其模型是否合法取得数据及同意 [3][6][7][17][22][23] - 有观点认为Anthropic是一家散布恐慌、游说反对开源AI的公司,旨在通过监管设限以实现垄断 [5][21] - 部分网友将此事件解读为技术竞争的积极信号,例如期待DeepSeek V4即将上线 [4][19] - 涉事公司月之暗面(Moonshot AI)已针对Anthropic的“恶意诽谤”向律师寻求法律咨询 [4][20] 模型蒸馏技术背景 - 大模型蒸馏是AI训练中常见且正常安全的技术方法,旨在为超级大模型减负 [11][27] - 技术原理是让大模型作为“老师”,将其处理问题时的思考逻辑、判断方式及结果记录下来,供小模型学习,使其效果接近大模型,但体型小几十倍甚至上百倍 [13][31] - 蒸馏技术的作用是让模型能装在手机、普通电脑中运行,降低成本和资源消耗,实现技术普惠 [13][29][31] 行业竞争与核心议题 - 事件折射出AI行业日益激烈的竞争态势,模型开发者投入巨资希望保护核心竞争力,而技术普惠与降低使用门槛是行业发展趋势 [14][32] - 行业需要共同面对的课题是如何界定数据使用的边界,以及如何平衡版权保护与技术创新 [14][32]
Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
量子位· 2025-05-14 12:57
模型架构创新 - Qwen3系列包含6个密集模型(0.6B/1.7B/4B/8B/14B/32B)和2个MoE模型(30B/235B),其中MoE模型的激活参数量分别为3B和22B [5] - 密集模型移除Qwen2的QKV偏置并引入QK-Norm机制提升训练稳定性 [6] - MoE模型取消共享专家设计,采用全批次负载均衡损失促进专家专业化 [8] - 采用双模式架构实现思考/非思考模式自动切换,支持不同复杂度任务处理 [7][10] 训练方法论 - 预训练分三阶段:基础语言能力(4096 token)、推理能力(STEM领域数据)、长文本处理(32768 token) [15][16][17][18][19][20] - 后训练分四阶段:长思维链冷启动(数学/编程标注数据)、推理强化学习(3995个筛选问题)、思维模式融合(SFT混合数据)、通用强化学习(20+任务场景) [23][24][25][27][28][31][32][34][35] - 采用"大带小"蒸馏策略:Off-policy阶段用235B/32B教师模型生成监督信号,On-policy阶段通过输出分布比对动态优化 [37][40][41][42][43][44][47][48] 核心技术突破 - 引入thinking budget概念,根据问题复杂度动态分配计算资源 [11][12][13] - 通过特殊标记(<think>/</think>)实现模式切换,非思考模式响应速度提升 [14] - MoE模型Qwen3-30B含48层/32Q头/4KV头/128专家(激活8个),Qwen3-235B含94层/64Q头/4KV头 [10] 产品化应用 - Qwen Chat上线深度研究功能,8分半可生成带表格的行业研究报告(如医疗保健数字化趋势分析) [49][50] - 提供技术报告和在线体验平台(Github报告地址及Chat演示链接) [51]