大模型开源动态 - 阿里巴巴开源新一代通义千问模型Qwen3,参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能全面超越DeepSeek-R1、OpenAI-o1等全球顶尖模型,并迅速成为全球最强开源模型 [1] - 小米开源首个为推理而生的大模型Xiaomi MiMo,联动预训练到后训练,全面提升推理能力 [1] - Deepseek在开源社区Hugging Face上正式发布DeepSeek-Prover-V2,并同步上线模型卡及示例代码 [1] 模型性能与技术特点 - Qwen3包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,阿里云开源了两个MoE模型的权重,六个密集模型也已开源,每款模型均斩获同尺寸开源模型SOTA [2] - 千问3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升,仅激活3B就能媲美上代Qwen2.5-32B模型性能 [2] - 阿里云开源的千问3是国内首个"混合推理模型",即将"快思考"与"慢思考"集成进同一个模型,对简单需求可低算力"秒回"答案,对复杂问题可多步骤"深度思考",大大节省算力消耗 [5] - 小米最新开源的Xiaomi MiMo在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,仅用7B的参数规模,超越了OpenAI的闭源推理模型o1-mini [6] - DeepSeek-Prover-V2-7B支持最长32K上下文输入,DeepSeek-Prover-V2-671B在DeepSeek-V3-Base基础上训练达到了推理性能最强,新模型主要专注数学定理证明,大幅刷新了多项高难基准测试 [8] 公司战略与行业影响 - 阿里云的开源逻辑是通过开源模型切入AI应用并在算力、软件工具等方面实现盈利,开源对阿里整个云服务生态有利 [6] - 开源不是目的而是手段,中国企业可借助开源形成技术优势,深化场景应用,实现技术普惠与商业共赢 [8] - 中国自研顶尖开源模型展示了AI训练自主创新的"第二路径",用"多快好省"的模型训练路径极大节省了算力,挑战了OpenAI领衔的"巨量投入才获增长"的"暴力美学" [8] - 开源模型进一步让大模型价格接近普惠点,促进了AI平权,让中国自主创新的模型技术赋能更多公司,穿透千行百业 [8] 行业竞争格局 - 在大模型时代,互联网大厂正在遵循各自的优势进行布局:阿里以通义大模型为底座布局C端应用,百度布局B端智能云和C端AI搜索,字节押注全域多个模型应用,腾讯采取"核心技术自研+积极拥抱开源"的多模型策略 [9] - 中国大模型领域未来可能会收敛至DeepSeek、阿里巴巴、字节跳动三家,其中DeepSeek势头最猛 [10] - 万亿参数以上的超大模型往后会更偏向"教师模型"角色,用来训练轻量化、性能优秀的产业大模型 [10] - DeepSeek背靠资源雄厚的幻方量化,资金充足,团队工程能力强,能在不过度烧钱的前提下持续训练优质模型 [10] - 阿里和字节拥有巨大用户量和商业化空间来支撑超大模型的训练,投入产出比对于这些公司而言是健康良性的生态闭环 [11] - 字节在牌桌上优势最大因为用户多为内容创作者,腾讯借助微信用户流量以移动应用工具为主,阿里以开源打造AI生态并通过云服务变现,百度主要将AI和搜索结合 [11]
互联网大厂五一前密集开源新模型,布局各异谁将留在牌桌?