互联网大厂五一前密集开源新模型，布局各异谁将留在牌桌？

大模型开源动态 - 阿里巴巴开源新一代通义千问模型Qwen3，参数量仅为DeepSeek-R1的1/3，成本大幅下降，性能全面超越DeepSeek-R1、OpenAI-o1等全球顶尖模型，并迅速成为全球最强开源模型 [1] - 小米开源首个为推理而生的大模型Xiaomi MiMo，联动预训练到后训练，全面提升推理能力 [1] - Deepseek在开源社区Hugging Face上正式发布DeepSeek-Prover-V2，并同步上线模型卡及示例代码 [1] 模型性能与技术特点 - Qwen3包含2款30B、235B的MoE模型，以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型，阿里云开源了两个MoE模型的权重，六个密集模型也已开源，每款模型均斩获同尺寸开源模型SOTA [2] - 千问3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升，仅激活3B就能媲美上代Qwen2.5-32B模型性能 [2] - 阿里云开源的千问3是国内首个"混合推理模型"，即将"快思考"与"慢思考"集成进同一个模型，对简单需求可低算力"秒回"答案，对复杂问题可多步骤"深度思考"，大大节省算力消耗 [5] - 小米最新开源的Xiaomi MiMo在数学推理（AIME 24-25）和代码竞赛（LiveCodeBench v5）公开测评集上，仅用7B的参数规模，超越了OpenAI的闭源推理模型o1-mini [6] - DeepSeek-Prover-V2-7B支持最长32K上下文输入，DeepSeek-Prover-V2-671B在DeepSeek-V3-Base基础上训练达到了推理性能最强，新模型主要专注数学定理证明，大幅刷新了多项高难基准测试 [8] 公司战略与行业影响 - 阿里云的开源逻辑是通过开源模型切入AI应用并在算力、软件工具等方面实现盈利，开源对阿里整个云服务生态有利 [6] - 开源不是目的而是手段，中国企业可借助开源形成技术优势，深化场景应用，实现技术普惠与商业共赢 [8] - 中国自研顶尖开源模型展示了AI训练自主创新的"第二路径"，用"多快好省"的模型训练路径极大节省了算力，挑战了OpenAI领衔的"巨量投入才获增长"的"暴力美学" [8] - 开源模型进一步让大模型价格接近普惠点，促进了AI平权，让中国自主创新的模型技术赋能更多公司，穿透千行百业 [8] 行业竞争格局 - 在大模型时代，互联网大厂正在遵循各自的优势进行布局：阿里以通义大模型为底座布局C端应用，百度布局B端智能云和C端AI搜索，字节押注全域多个模型应用，腾讯采取"核心技术自研+积极拥抱开源"的多模型策略 [9] - 中国大模型领域未来可能会收敛至DeepSeek、阿里巴巴、字节跳动三家，其中DeepSeek势头最猛 [10] - 万亿参数以上的超大模型往后会更偏向"教师模型"角色，用来训练轻量化、性能优秀的产业大模型 [10] - DeepSeek背靠资源雄厚的幻方量化，资金充足，团队工程能力强，能在不过度烧钱的前提下持续训练优质模型 [10] - 阿里和字节拥有巨大用户量和商业化空间来支撑超大模型的训练，投入产出比对于这些公司而言是健康良性的生态闭环 [11] - 字节在牌桌上优势最大因为用户多为内容创作者，腾讯借助微信用户流量以移动应用工具为主，阿里以开源打造AI生态并通过云服务变现，百度主要将AI和搜索结合 [11]