全模态融合
搜索文档
MiniMax稀宇科技薛子钊:AI大模型不是"砸钱游戏",国内大模型被严重低估|Alpha峰会
华尔街见闻· 2025-12-22 15:55
文章核心观点 - AI大模型行业与移动互联网有本质区别 其市场空间完全由模型智能水平驱动 且增长呈跳跃式而非连续性 每次智能跃升都会解锁全新应用场景和市场 [5][11][13] - 行业增长迅猛 全球头部模型层公司年化总收入已接近300亿美元 且月度环比保持双位数增长 但能持续发布全球领先模型的玩家数量却在减少 目前全球仅约10家 国内从“百模大战”演变为个位数公司竞争 [19][20][23] - 成功的核心壁垒并非单纯依赖资源堆砌 而在于能否构建高效的研发组织并持续创新 以跟上行业每3-6个月一次的快速迭代 资源雄厚的大厂若无法持续创新也会被淘汰 [6][20][22][23] - MiniMax是全球仅有的四家在语言、视频、声音三个模态均达到全球领先水平的公司之一 另外三家是OpenAI、谷歌和字节跳动 公司认为未来竞争将是全模态融合 [3][39] - MiniMax将超过80%的资源投入模型层和基础设施 视模型本身为核心产品 应用只是展示窗口 其战略是提供更高的“每块钱智能水平” 用更少资源做出更领先的模型 [3][30][38][40] 行业特点与趋势 - **市场驱动因素独特**:行业市场空间唯一的核心驱动因素是模型的智能水平 其提升是非连续性的跳跃 例如GPT-3.5到GPT-4的跃升 每次跃升都会解锁此前不可行的新场景 [11][13] - **增长飞轮效应**:模型智能提升解锁新场景 带来商业化收入 收入再投入研发推动智能进一步攀升 形成独特闭环 [14] - **颠覆性影响**:随着模型智能水平从L2提升至接近智能体的L3级别 许多传统软件工作流程可能被模型自主完成 导致部分SaaS公司从AI受益者变为潜在被替代对象 其市场被划入大模型范畴 [16] - **多模态渗透加速**:在视频生成领域 模型已用于辅助短剧制作和广告行业 在图像领域 专业修图场景正被AI取代 这些市场的渗透都随模型智能提升而进行 [17] - **玩家集中化**:尽管市场高速增长 但能留在模型层持续竞争的玩家数量在减少 全球仅约10家 国内从“百模大战”的百家公司减少到个位数 [20][23] MiniMax公司战略与成果 - **全模态布局**:公司自创立第一天起就同时研发语言、视觉和声音三个模态的大模型 旨在构建能通过图灵测试的全模态智能体 [25][26] - **研发高效性**:作为独立创业公司 其资源消耗与美国头部公司相差两个数量级 但通过更高的研发和资金使用效率 实现了快速迭代和突破 [38] - **全球化运营**:公司从第一天就是全球化公司 所有产品均服务全球用户 目前大部分商业化收入来自海外 [3][38] 各模态技术突破与市场地位 - **语言模型**:2024年10月发布的M2语言模型是全球开源模型中真实token用量最大的AI编程模型 成为首个真正切入该领域的国产模型 其用量相当于其他所有国产模型的总和 在该场景用量份额排全球第三 [3][32][34] - **视频模型**:海螺视频生成模型是全球用量最大的模型之一 与谷歌Veo、OpenAI Sora同属第一梯队 每天生成接近200万条视频 超过谷歌Veo上个季度公布的每日100多万条 [32][33] - **语音模型**:公司的语音模型已实现从文字生成语音的突破 技术表现曾达到全球第一 驱动了大量智能硬件、虚拟主播及有声书内容 在国内市场与字节跳动合计占据几乎全部份额 [31] 产品与应用 - **核心产品为模型**:公司认为底层模型是核心产品 而面向C端、B端和开发者的应用只是模型打包集成的渠道或展示窗口 [30] - **智能体应用**:公司推出的Agent智能体产品在调研、写报告等任务上已超越普通实习生水平 内部HR、财务、商务分析等部门已高度依赖 未来可能自主完成简历筛选、联系候选人甚至面试 [3][39] - **代表性产品**:包括海螺视频生成平台、陪伴类产品Talkie/星野 以及面向企业和开发者的开放平台 [30][38] 行业竞争与估值观察 - **技术差距缩小**:国内大模型公司在技术上已接近甚至在某些领域超越美国同行 且差距持续缩小 [3] - **估值严重低估**:国内公司与美国同行在估值上相差两个数量级 例如美国头部公司估值可能是中国公司的100倍 但技术领先可能只有5% 而投入却在50至100倍之间 相比之下国内公司研发效率更高但被严重低估 [3][38]
AI产业速递:从DeepSeek V3
2025-12-03 10:12
**行业与公司** * 行业涉及人工智能与大模型领域 重点包括强化学习 合成数据 稀疏化技术 注意力机制优化等方向[1] * 核心公司包括 Deepseek DeepMind OpenAI 以及提及的谷歌 阿里等大型科技公司[1][7][9] **Deepseek V3 2 模型的核心技术特点与改进** * 架构上引入 DSA 机制取代 MLA 机制 通过位置编码计算索引选取关键注意力参数 优化推理效率 尤其在复杂任务中减少冗长思维链的计算负担[1][3] * 后训练阶段的 C9 版本投入约10%的预训练计算量 显著提升模型在复杂任务(如代码调试)中的强化学习能力 达到全球领先水平[1][3][5] * 采用高效的上下文管理策略 智能处理用户频繁开启新任务 多轮对话及模糊输入 有效降低推理成本[1][3] * 使用大量人类专家编写并增量训练生成的高难度合成数据 比例较之前增加一倍以上 对后续强化学习阶段至关重要[1][3][4][6] * DSA 机制结合筛选和缓存技术 将 KV 缓存量降至50%以下 筛选机制可减少90%的 KV 缓存占比[18] * 在稠密阶段冻结部分参数 仅用少量参数(例如7 000亿参数模型中用20亿参数)进行初步规律提取 再进行稀疏训练 提高效率[18] **强化学习技术的最新发展与影响** * DeepMind 的新框架结合 Rubik‘s 规则提示机制 使系统能边思考边执行并根据环境反馈调整策略 提高了强化学习效率[8][9] * 该框架促使大型科技公司加速探索多模态视频和图像领域的应用 推动2025年相关模型发展[1][9] * 强化学习所需算力受数据条目数量 数据采样系数(简单任务为2-4倍 高难度任务可达128倍) 思维链输入输出长度等因素影响 浮动范围可达50倍[13][14] * 预计到2026或2027年 强化学习所需算力将接近预训练算力的一半 国内模型该比重可能达到20%至30%[15] **合成数据的作用与优势** * 合成数据比例大幅增加 其效果与难度系数密切相关 高难度 高质量的合成数据极大提升了模型在强化学习阶段的性能[6] * 在缺乏真实数据的极罕见长尾场景(如汽车高速碰撞)中 合成数据尤为重要 可通过智能体思维生成新个体和模拟环境来提升模型性能[16] **开源与闭源模型的趋势变化** * Deepseek 完成了全面的后训练过程并将结果开源 支持 Agent 调用能力 使得开源模型在功能上可与闭源模型媲美 可能引领开源项目新趋势[7] **稀疏化技术与未来模型价格趋势** * 稀疏化技术降低了训练算力要求并提升了训练上限 激发开发更大参数模型的动力[2][19] * 预计到2026年模型价格将大幅下降 可能降至现在的1/5 这将激发更多创业公司参与大模型开发[2][20] **预训练算力消耗现状与发展** * 全球主要厂商预训练算力需求显著提升 美国一些领先企业算力达10^25到10^26 FLOPS 相比 DeepMind(10^24 FLOPS)增长50到100倍[7] * 预训练算力需求增速趋缓 但通过基础设施效率提升(如TPU集群优化) 大规模预训练依然有发展潜力[17] **下一代大模型发展方向** * 发展方向集中在全模态融合(文本 图片 视频 音频) 与物理世界数据交互 以及具备更自适应推理机制 更强人机交互和长时间记忆能力[22] * V4 模型将基于现有高版本推进 重点验证和增强 Agent 功能[25] **大模型能力上限的迁移** * 后训练的潜力越来越大 模型能力上限正从预训练向后训练迁移 尤其在人文创意等没有固定答案的领域 其能力逐渐被打开将吸引更多应用厂商[10][11] **垂直场景中的应用示例** * 以电商平台AI万能搜索为例 通过多轮对话机制 基于用户历史数据 prompt响应和反馈数据 不断优化推荐结果 满足个性化需求[12]