大模型蒸馏 - 财报，业绩电话会，研报，新闻

大模型蒸馏

搜索文档

炸了！Claude深夜怒撕DeepSeek、月之暗面、MiniMax，1600万次交互引争议

新浪财经· 2026-02-24 09:28

Anthropic指控事件核心 - 著名大模型平台Anthropic发文传言称，中国AI公司DeepSeek、Moonshot AI和MiniMax，使用**24,000个账号**，与Claude进行了**1,600万次交互**以蒸馏其模型 [1][15] 舆论反应与争议 - 传闻引发网友激烈讨论，评论超**2,000**条，但舆论风向并未一边倒支持Anthropic，多数人对其做法持怀疑和指责态度 [2][11][16][27] - 普遍观点认为，用户付费使用产品，只要不违法即可自由使用，类比为购买汽车后有权进行逆向工程研究 [2][16] - 大量评论反指Anthropic自身训练数据来源的合法性与道德性，质问其模型是否合法取得数据及同意 [3][6][7][17][22][23] - 有观点认为Anthropic是一家散布恐慌、游说反对开源AI的公司，旨在通过监管设限以实现垄断 [5][21] - 部分网友将此事件解读为技术竞争的积极信号，例如期待DeepSeek V4即将上线 [4][19] - 涉事公司月之暗面（Moonshot AI）已针对Anthropic的“恶意诽谤”向律师寻求法律咨询 [4][20] 模型蒸馏技术背景 - 大模型蒸馏是AI训练中常见且正常安全的技术方法，旨在为超级大模型减负 [11][27] - 技术原理是让大模型作为“老师”，将其处理问题时的思考逻辑、判断方式及结果记录下来，供小模型学习，使其效果接近大模型，但体型小几十倍甚至上百倍 [13][31] - 蒸馏技术的作用是让模型能装在手机、普通电脑中运行，降低成本和资源消耗，实现技术普惠 [13][29][31] 行业竞争与核心议题 - 事件折射出AI行业日益激烈的竞争态势，模型开发者投入巨资希望保护核心竞争力，而技术普惠与降低使用门槛是行业发展趋势 [14][32] - 行业需要共同面对的课题是如何界定数据使用的边界，以及如何平衡版权保护与技术创新 [14][32]

Seek .(US:SKLTY)

大模型蒸馏

开源人工智能

Artificial Intelligence

Claude

大模型蒸馏

开源人工智能

Artificial Intelligence

Claude

Qwen3家族训练秘籍公开：思考/非思考融进一个模型，大模型蒸馏带动小模型

量子位· 2025-05-14 12:57

模型架构创新 - Qwen3系列包含6个密集模型(0.6B/1.7B/4B/8B/14B/32B)和2个MoE模型(30B/235B)，其中MoE模型的激活参数量分别为3B和22B [5] - 密集模型移除Qwen2的QKV偏置并引入QK-Norm机制提升训练稳定性 [6] - MoE模型取消共享专家设计，采用全批次负载均衡损失促进专家专业化 [8] - 采用双模式架构实现思考/非思考模式自动切换，支持不同复杂度任务处理 [7][10] 训练方法论 - 预训练分三阶段：基础语言能力(4096 token)、推理能力(STEM领域数据)、长文本处理(32768 token) [15][16][17][18][19][20] - 后训练分四阶段：长思维链冷启动(数学/编程标注数据)、推理强化学习(3995个筛选问题)、思维模式融合(SFT混合数据)、通用强化学习(20+任务场景) [23][24][25][27][28][31][32][34][35] - 采用"大带小"蒸馏策略：Off-policy阶段用235B/32B教师模型生成监督信号，On-policy阶段通过输出分布比对动态优化 [37][40][41][42][43][44][47][48] 核心技术突破 - 引入thinking budget概念，根据问题复杂度动态分配计算资源 [11][12][13] - 通过特殊标记(<think>/</think>)实现模式切换，非思考模式响应速度提升 [14] - MoE模型Qwen3-30B含48层/32Q头/4KV头/128专家(激活8个)，Qwen3-235B含94层/64Q头/4KV头 [10] 产品化应用 - Qwen Chat上线深度研究功能，8分半可生成带表格的行业研究报告(如医疗保健数字化趋势分析) [49][50] - 提供技术报告和在线体验平台(Github报告地址及Chat演示链接) [51]

大模型蒸馏

双模式架构

Artificial Intelligence

Artificial Intelligence

Qwen3

Qwen Chat