Workflow
AIME'25满分炸场!Qwen一波七连发,全家桶大更新
量子位·2025-09-24 14:28

Qwen3-Max旗舰模型发布 - 新一代旗舰模型Qwen3-Max正式发布,参数量保持超万亿规模[3] - 国产大模型首次在AIME25和HMMT数学评测榜单获得满分100分[1] - 模型划分为思考版和指令版两个版本,思考版在数学评测中取得满分成绩[4][5] - 指令版在SWE-Bench评测中获得69.6分,位列全球第一梯队[6] - 指令版在Tau2 Bench测试中获得74.8分,超过Claude Opus4和DeepSeek V3.1[7] Qwen3-VL视觉理解模型 - 视觉理解模型Qwen3-VL重磅开源,属于多模态模型重要突破[12][13] - 指令版本在多项主流视觉感知评测中性能达到甚至超过Gemini 2.5 Pro[16] - 推理版本在众多多模态推理评测基准下取得SOTA表现[16] - 支持手绘网页转HTML/CSS代码生成,展示强大视觉理解能力[20] - 具备复杂目标检测能力,能够以JSON格式输出边界框坐标[23][24] - 支持复杂视频理解任务,展示全频覆盖的视频处理能力[27] 技术架构创新 - 采用MRoPE-Interleave技术,实现时间、高度、宽度交错分布,提升长视频理解能力[31] - 引入DeepStack技术,融合ViT多层特征,增强视觉细节捕捉和图文对齐[32] - 视频时序建模升级为文本时间戳对齐机制,改进事件定位和动作边界检测精度[32] - 支持原生动态分辨率设计,在结构设计上进行重要更新[29] Qwen3-Omni全模态模型 - Qwen3-Omni作为首个原生端到端全模态AI模型,统一文本、图像、音频和视频处理[33] - 在22个音视频基准测试中达到SOTA水平,展示全面多模态能力[33] - 衍生出Qwen3-LiveTranslate视听说全模态同传大模型,覆盖18种语言翻译[36] - Qwen3-LiveTranslate-Flash准确率超过Gemini-2.5-Flash、GPT-4o-Audio-Preview等竞品[37] - 具备视觉增强翻译能力,能根据上下文准确区分同音词含义[42] Qwen3-Coder编程模型升级 - Qwen3-Coder-Plus采用Qwen Code、Claude Code系统联合训练的组合拳策略[49] - 性能效果得到显著提升,在各项基准测试中分数均有增长[50] - 编程产品Qwen Code增加对多模态模型和sub-agent支持,可输入图像进行编程[52][53] - 实际测试展示强大的3D代码生成能力,可生成复杂三维结构[56] 下一代模型架构 - 新一代基础模型架构Qwen3-Next正式发布,模型总参数量约80B[68] - 仅激活3B参数情况下,性能可与Qwen3-235B媲美,计算效率大幅提升[68] - 与密集模型Qwen3-32B相比,训练成本降低超90%,长文本推理吞吐量提升超过10倍[69] 行业战略布局 - 公司在云栖大会期间发布、开源近十款模型,展示快速的技术迭代能力[58] - 明确提出实现AGI是确定性事件,终极目标是发展超级人工智能(ASI)[62] - 规划AI发展四阶段:智能涌现、自主行动、自我迭代、超级人工智能[63] - 认为大模型将是下一代操作系统,自然语言是未来的源代码,AI Cloud是下一代计算机[65] - 预测未来全球可能只有5-6个超级云计算平台[66]