通义万相2.5
搜索文档
国内大模型全面被“万亿参数”卷进去了?
36氪· 2025-09-29 12:46
阿里通义千问Qwen3-Max发布 - 阿里云栖大会宣布通义千问Qwen3-Max达到超万亿参数规模,训练数据量达36T tokens,为国内首个万亿级大模型 [1] - 周靖人称其为"通义家族最强",参数规模跨越象征行业新纪元,对标GPT系列发展历程(GPT-2 15亿参数、GPT-3 1750亿参数、GPT-4近万亿参数) [1] 性能表现与产品分化 - 数学推理测试AIME25准确率86.4%位列全球前三,编程基准SWE-Bench Verified得分69.6%仅次于GPT-4.1(71.2%)居全球第二,Chatbot Arena综合榜单进入前五 [2] - 推出多版本分化:Thinking版专注复杂推理(科研/数学/金融分析),Instruct版擅长指令遵循(日常应用),Omni版支持实时语音交互与多模态(自然对话/视频即时反馈) [2] 国内万亿参数竞赛动因 - 2024年超50家大模型公司融资总额突破300亿元,投资人以技术指标追平国际巨头为敏感指标,参数数值成市场安抚工具 [4] - 企业采购逻辑将模型规模等同于可靠性,客户将92%与93%准确率差距放大为决定性差别,厂商被迫迎合认知 [4] - 高端GPU获取受限,国内厂商通过"以量补质"用工程手段换性能,以算力堆叠追赶国际水平 [4] 算力成本与边际效益 - 训练万亿参数模型能耗达2000-5000万度电,电费成本超千万元,全流程成本可能超数十亿元 [6] - 推理阶段单次调用开销为百亿模型的2-4倍,性能提升仅个位数(如准确率92%至93%),但训练成本可能翻倍,存在边际效益递减 [9][10] 阿里云生态战略布局 - Qwen3-Max目标成为阿里云"操作系统",通过百炼平台开放API按Token计费,Qwen3-Coder在OpenRouter调用量暴涨1474%跃居全球第二 [11] - 配套推出Qwen3-VL、通义万相2.5、通义百聆覆盖视频生成/语音交互/视觉编程场景,通过工具链绑定企业工作流至阿里云生态 [11][13] 行业技术路线对比与挑战 - 国际厂商转向轻量化与灵活性:OpenAI聚焦多智能体协作与API工具调用,Anthropic强调长文本与安全性,Meta通过开源Llama构建开发者生态 [3][14] - 国内"闭源+堆参数"路线面临长期灵活性风险,需从参数竞赛转向"智能密度"竞争(单位算力/成本下的有效智能输出) [14] - 万亿参数需验证产业价值:企业是否愿为高昂算力买单、开发者是否留存生态、用户能否感知省钱省力 [14]
七连发!阿里多款重磅发布亮相云栖大会
搜狐财经· 2025-09-24 19:32
大语言模型技术突破 - 阿里云发布通义旗舰模型Qwen3-Max 性能超过GPT5和Claude Opus 4 跻身全球前三 [3] - Qwen3-Max预训练数据量达36T 总参数超过万亿 在SWE-Bench Verified测试中获69.6分位列全球第一梯队 [3] - 在Tau2-Bench测试中获得74.8分 超过Claude Opus4和DeepSeek-V3 在AIME 25和HMMT数学推理测试中均获满分100分 [3] 下一代基础模型架构 - 发布Qwen3-Next基础模型架构 总参数80B仅激活3B 性能媲美235B模型 [4] - 采用混合注意力机制和高稀疏度MoE结构 训练成本较密集模型Qwen3-32B降低超90% [4] - 长文本推理吞吐量提升10倍以上 为模型训练推理效率设立新标准 [4] 编程模型升级 - 千问编程模型Qwen3-Coder与Qwen Code、Claude Code系统联合训练 推理速度更快且代码安全性提升 [4] - 开源后API调用量在OpenRouter平台激增1474% 位列全球第二 [4] - 具备一键完成项目部署和问题修复能力 广受开发者和企业好评 [4] 多模态模型突破 - 视觉理解模型Qwen3-VL在32项核心能力测评中超过Gemini2.5-Pro和GPT5 [9] - 支持百万tokens上下文 视频理解时长扩展到2小时以上 具备3D Grounding能力 [10] - 全模态模型Qwen3-Omni音视频能力获32项开源SOTA 支持多模态混合训练 [10] 视觉基础模型进展 - 通义万相Wan2.5-preview系列涵盖文生视频/图生视频/文生图/图像编辑四大模型 [13] - 视频生成时长从5秒提升至10秒 支持24fps的1080P高清视频生成并实现音画同步 [13] - 图像生成能力全面升级 支持中英文文字和图表生成 具备一句话图像编辑功能 [13] 语音模型新产品 - 发布语音大模型通义百聆 包含语音识别模型Fun-ASR和语音合成模型Fun-CosyVoice [15] - Fun-ASR基于数千万小时真实语音数据训练 具备强大上下文理解能力 [15] - Fun-CosyVoice提供上百种预制音色 适用于客服、直播电商、消费电子等场景 [15] 模型生态与市场地位 - 通义大模型家族包含300个模型 覆盖全尺寸全模态 全球下载量突破6亿次 [17] - 衍生模型突破17万个 成为全球第一开源模型 服务超100万客户 [17] - 2025年上半年中国企业级大模型调用市场位列第一 客户包括苹果、英伟达、微软等知名企业 [17]
刚刚,阿里CEO吴泳铭发布「ASI宣言」:超级智能才是终局!
搜狐财经· 2025-09-24 19:25
阿里巴巴ASI战略蓝图 - 公司首次公开超级人工智能(ASI)发展路线图 明确AGI将解放人类80%日常工作 ASI将创造超级科学家以解决癌症 能源危机等重大问题[6][9][11] - 公司CEO吴泳铭提出三阶段智能进化论:智能涌现(学习人类) 自主行动(辅助人类) 自我迭代(超越人类) 当前处于自主行动阶段[24][26][30] - ASI实现需满足连接真实世界全量原始数据与自主学习两大条件 通过持续交互实现自我进化[30][33] 通义千问模型性能突破 - 旗舰语言模型Qwen3-Max性能超越GPT-5和Claude Opus 4 跻身全球前三 预训练数据达36T token 参数量超万亿[36][38] - Qwen3-Max在AIME 25和HMMT测试获双满分 SWE-Bench测试获69.6分 Tau2-Bench工具调用测试获74.8分[38][39] - 多模态模型Qwen3-VL在32项核心测评中全面超越Gemini 2.5-Pro和GPT-5 支持百万级token上下文窗口[36][41][42] 全模态与视觉技术进展 - Qwen3-Omni突破多模态"跷跷板效应" 实现音视频与文图能力协同提升 音频对话延迟低至211毫秒 可处理30分钟音频[36][45] - Qwen3-VL具备视觉编程能力 可根据草图生成代码或复刻游戏程序 增强3D空间感知能力以支持具身智能应用[42][43] - 通义万相2.5实现音画同步视频生成 时长提升至10秒 支持1080P高清画质 累计生成3.9亿张图片和7000万个视频[45] 下一代计算架构战略 - 公司认定大模型为下一代操作系统 自然语言成为编程语言 Agent成为新软件 Context成为新Memory[33] - 阿里云定位全栈人工智能服务商 2032年数据中心能耗规模较2022年提升10倍 目标成为全球5-6个超级云计算平台之一[33][34] - 通义千问选择开源路线 打造AI时代Android系统 AI能力将以Token形式在云平台输送 成为最重要商品[33]
通义App接入通义万相2.5 免费生成10秒高清视频
新华财经· 2025-09-24 15:41
产品发布 - 阿里在云栖大会上发布通义万相Wan2.5 preview系列模型 通义App第一时间接入视频生成功能 [2] - 用户可通过主对话界面输入指令免费体验视频生成 每日最多生成15次且支持导出无水印视频 [2] 技术能力 - 视频生成模型实现音画同步 可生成匹配的人声 音效和音乐BGM 视频时长从5秒提升至10秒 [2] - 支持24帧每秒的1080P高清输出 画面质量满足电影级场景创作需求 [2] - 模型指令遵循能力提升 可完成运镜等复杂连续变化的控制 [2] 开源进展 - 自今年2月以来连续开源文生视频 图生视频 首尾帧生视频和全能编辑等多款模型 [2] - 相关功能均可在通义App直接体验 [2]