Workflow
Qwen Chat
icon
搜索文档
Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
量子位· 2025-05-14 12:57
模型架构创新 - Qwen3系列包含6个密集模型(0.6B/1.7B/4B/8B/14B/32B)和2个MoE模型(30B/235B),其中MoE模型的激活参数量分别为3B和22B [5] - 密集模型移除Qwen2的QKV偏置并引入QK-Norm机制提升训练稳定性 [6] - MoE模型取消共享专家设计,采用全批次负载均衡损失促进专家专业化 [8] - 采用双模式架构实现思考/非思考模式自动切换,支持不同复杂度任务处理 [7][10] 训练方法论 - 预训练分三阶段:基础语言能力(4096 token)、推理能力(STEM领域数据)、长文本处理(32768 token) [15][16][17][18][19][20] - 后训练分四阶段:长思维链冷启动(数学/编程标注数据)、推理强化学习(3995个筛选问题)、思维模式融合(SFT混合数据)、通用强化学习(20+任务场景) [23][24][25][27][28][31][32][34][35] - 采用"大带小"蒸馏策略:Off-policy阶段用235B/32B教师模型生成监督信号,On-policy阶段通过输出分布比对动态优化 [37][40][41][42][43][44][47][48] 核心技术突破 - 引入thinking budget概念,根据问题复杂度动态分配计算资源 [11][12][13] - 通过特殊标记(<think>/</think>)实现模式切换,非思考模式响应速度提升 [14] - MoE模型Qwen3-30B含48层/32Q头/4KV头/128专家(激活8个),Qwen3-235B含94层/64Q头/4KV头 [10] 产品化应用 - Qwen Chat上线深度研究功能,8分半可生成带表格的行业研究报告(如医疗保健数字化趋势分析) [49][50] - 提供技术报告和在线体验平台(Github报告地址及Chat演示链接) [51]
Qwen上新AI前端工程师!一句话搞定HTML/CSS/JS,新手秒变React大神
量子位· 2025-05-10 10:39
核心功能 - Qwen推出"AI前端工程师"Web Dev功能,可一句话生成网页应用,涵盖HTML、CSS、JavaScript三大前端技术,并默认使用React框架[1][2] - 支持快速生成个人网站,布局美观且带特效,用户仅需修改内容后上传至GitHub Pages即可完成部署[3] - 开发者反馈该功能实现文本到像素级渲染,能快速搭建项目脚手架,显著加速开发流程[6] 技术实现 - 系统强制使用React框架,即使明确要求更换其他框架也无法调整,输出内容统一为单个静态jsx文件[15][21] - 深度思考模式可提升网页生成质量(如小红书风格社交网站),但会消耗38,912 tokens并延长响应时间[18][20] - 底层采用预设系统提示词,包含设计原则和最佳实践,部分用户尝试逆向工程获取完整提示词[23][24] 应用案例 - 已实现水果电商网站、防晒产品介绍页等商业场景的一键生成[11] - 网友成功复刻GitHub界面,验证复杂UI的还原能力[7] - 支持语义化表单创建,例如包含姓名、邮箱、问题类型等字段的客服联系表单[14] 扩展功能 - 新增Canvas/Artifact模块,可制作复杂动画效果[9] - 即将推出MCP模式(目前处于灰度状态),具体功能未披露[26][27] 使用方式 - 功能集成于Qwen网页版,所有模型均可调用,需单独开启"网页开发"模式[18] - 支持网页内容解析,AI能根据现有网页自动创建适配的展示方案[15] - 官方提供在线试玩入口,用户可直接体验完整功能链[28]