MiniMax海螺 - 财报，业绩电话会，研报，新闻

MiniMax海螺

搜索文档

智通财经网· 2026-01-26 08:07

核心观点 - 多模态AI技术正从娱乐工具演变为生产力工具，商业化进程加速，并开始重塑下游产业格局 [1] 技术进展与厂商动态 - **全球领先厂商**：谷歌通过Veo、Gemini等系列模型在超长上下文理解与原生音视频融合领域建立壁垒 [2] - **国内头部玩家**：快手可灵、MiniMax海螺、阿里通义万相及智谱等通过架构和技术革新，重点解决了视频生成中的角色一致性失控、物理逻辑崩坏及分镜不可控等工业化生产难题 [2] - **MiniMax海螺AI**：其Hailuo2.3系列模型解决了大动态运镜下的物理崩坏问题，对光影、明暗及物理碰撞的模拟已接近实拍质感，海螺Media Agent可将视频、语音及语言模型封装为统一智能体，支持通过自然语言完成从脚本到视频渲染的全流程 [2] - **快手可灵AI**：其发布的o1模型是首个将多种创作任务整合进统一引擎的视频大模型，在图片参考任务中的胜负比达247%，在指令变换任务中的胜负比达230% [3]；可灵视频2.6模型强化了音频同步与动作控制，支持长达30秒的复杂武打动作控制并维持音色一致 [3] - **阿里通义万相**：其2.6系列模型实现了国内首个商业化角色扮演功能，通过提取参考视频特征确保角色一致性，并引入专业分镜控制公式，支持单次生成15秒高清视频，为国内公开测试最高指标 [4] - **智谱AI**：其与华为发布的GLM-Image是首个在国产全栈算力底座上完成全流程训练的SOTA图像生成模型，解决了汉字渲染乱码难题，支持1024x1024至2048x2048任意比例输出，API调用生成一张图片仅需0.1元 [5] 商业化落地与市场表现 - **用户与收入增长**：快手可灵AI的月活跃用户数在2026年1月已突破1200万，截至2026年1月20日，其App端付费用户规模环比增长达350%，1月日均收入较12月日均高出约30% [6]；2025年12月可灵单月收入超过2000万美元，2025年全年收入预计达1.4亿美元，其中专业生产者贡献近70% [6] - **应用场景拓展**：AI漫剧成为继短剧之后视频生成应用的新场景，字节跳动等平台通过激励政策推动内容精品化，例如抖音“漫剧创作激励计划”为使用豆包大模型制作漫剧的机构提供15%技术成本补贴，并对S+漫剧提供保底激励5000元/分，单部剧保底50万-75万 [7] - **市场规模潜力**：2025年9月红果短剧月活用户约2.36亿，超过了B站和优酷，接近芒果TV；短剧市场规模今年有望突破千亿，漫剧有望突破200亿 [7] 未来技术演进方向 - **技术路径**：多模态技术一方面向视频、音频、图像、文本统一的原生多模态发展，另一方面向具备物理常识与逻辑推理的世界模型演进 [7] - **原生多模态**：强调AI能在一套框架下对各种模态进行统一处理 [7] - **世界模型**：意味着AI能够像人类大脑一样根据当前画面预测下一帧会发生什么 [7] 下游产业影响与机遇 - **营销领域**：搜索营销可能从SEO、GEO进一步发展为生成式视觉检索，用户可直接获得AI实时生成的定制化视频作为回答 [8] - **文娱产业**：短剧、漫剧呈现快速放量趋势，小说IP与AI视频结合能加速IP影视化进程 [8] - **游戏产业**：生成式AI已应用于美术资产辅助生产，未来在世界模型加持下，实时游戏引擎将成为可能，带来类“头号玩家”的元宇宙开放世界游戏体验 [8]

AI多模态

世界模型

Artificial Intelligence

Artificial Intelligence

腾讯研究院· 2025-12-23 00:08

生成式AI模型性能与架构创新 - 谷歌Gemini 3 Flash模型在SWE-Bench Verified测试中获得78%的分数，超越了Pro版的76.2%，其速度是Gemini 2.5 Pro的3倍，且Token消耗量减少30% [1] - Gemini Flash集成了大量Agentic RL研究成果，通过后训练算法实现小模型“降维打击”，而Pro版的主要作用是蒸馏Flash [1] - 帕累托前沿反转现象表明，参数规模不再是衡量模型性能的唯一标准，更便宜、更快的模型现在也可以是更聪明的模型 [1] - MiniMax开源其海螺视频底层技术VTP（视觉分词器预训练框架），在AI视觉生成领域发现了Scaling Law，破解了“第一阶段训练越好第二阶段反而变差”的悖论 [3] - VTP通过重建、CLIP图文对比和自监督学习三管齐下的训练方案，使视觉分词器学会理解而非只会重建，算力扩大10倍性能提升65.8% [3] - 通义千问推出Qwen-Image-Layered图像生成模型，采用自研架构将图片拆解成多个RGBA图层，每层可独立操作而不影响其他内容 [4] - 该模型核心技术包括RGBA-VAE和VLD-MMDiT，支持重新着色、物体替换、缩放移动、干净删除等操作，分层结构天然支持高保真编辑 [4] 自动驾驶技术路线与挑战 - 旧金山一场大停电导致红绿灯熄灭，Waymo无人驾驶出租车因系统无法确认安全边界而集体停摆，秒变路障 [2] - 事件凸显了Waymo与特斯拉技术路线的差异：Waymo依赖多传感器融合和高精地图，而特斯拉FSD依赖视觉和AI，后者在此次事件中完全未受影响 [2] - 该事件暴露了L4级无人驾驶在突发城市基础设施异常状况下的脆弱性 [2] AI公司发展与资本市场动态 - AI公司MiniMax正式冲刺港股“大模型第一股”，公司成立于2022年初，拥有385人团队，平均年龄29岁 [5] - 公司累计消耗5亿美元，约为OpenAI开销的不到1% [5] - 2025年前9个月，MiniMax营收达5344万美元，同比增长超170%，海外收入占比超70% [6] - MiniMax拥有超2.12亿个人用户和13万家企业客户 [6] - 公司股东阵容包括米哈游、阿里、腾讯、小红书、高瓴、红杉等，董事会平均年龄32岁 [6] - MiniMax是全球唯四全模态进入第一梯队的大模型公司 [6] 前沿硬件与计算技术突破 - 上海交大陈一彤团队推出全光生成式AI芯片LightGen，首次将光子计算拓展至大模型语义媒体生成领域，研究登上《Science》 [7] - LightGen由光子编码器、光学潜在空间和光子生成器构成，能实现512×512高分辨率图像生成、3D生成、高清视频生成及语义调控 [7] - 该系统速度达3.57×10^4 TOPS，能效达6.64×10^2 TOPS/W，计算密度达2.62×10^2 TOPS/mm²，整体性能比英伟达A100高出两个数量级以上 [7] AGI发展路径与安全框架 - DeepMind发布研究提出，AGI极可能通过多个次级AGI智能体协作与拼凑率先涌现，而非单一庞大模型 [8] - 论文提出了包含市场设计、基线智能体安全、监控与监督、监管机制的四层深度防御框架 [8] - 研究强调“拼凑型AGI”假设此前受关注甚少，建议构建虚拟智能体沙盒经济以解决智能体共谋等分布式风险 [8] 创业经验与团队管理 - ElevenLabs和Lovable的CEO建议创业前积累7-8年工作经验，包括在优秀公司的任职经历和对用户痛点的深刻理解 [9] - 高速扩张的关键在于保持“创始人模式”与“管理模式”的平衡，团队构成建议一半内部培养一半外部资深人士，并采用高强度工作模式 [9] - 欧洲创业虽缺乏成熟创业网络和资深高管，但人才优秀且忠诚度高，时区优势可同时对接全球市场 [9]

爱诗王长虎、谢旭璋：“不会创业” 的创始人，怎么做出用户量第一的 AI 视频产品

晚点LatePost· 2025-06-06 19:05

公司概况 - 爱诗科技由80后王长虎与90后谢旭璋联合创立，团队组合打破"35岁以下更适合大模型创业"的行业偏见 [3][4] - 公司定位为AI视频生成领域，同时开发底层模型与to C应用产品，全球用户超6000万，是竞品可灵的3倍 [4] - 核心产品PixVerse移动端上线6个月月活达1600万，国内版"拍我 AI"于6月6日正式发布 [4][6] 产品与技术 - 差异化路径：聚焦普通人需求，通过模板化设计（如毒液变身、科目三跳舞等）实现零Prompt操作，用户首条视频即可获万至百万点赞 [4][8][9] - 技术迭代：模型V3将生成成功率提升至近100%，V3.5将等待时间压缩至10秒内，累计更新7版模型 [6][9] - 生成效率：V4模型实现5-7秒生成5秒视频，正在探索实时生成技术以模糊创作与消费界限 [16][17] 市场表现 - 病毒式传播案例：毒液变身模板全球播放量超10亿次，咧嘴笑模板推动PixVerse登顶美国iOS下载榜前五 [6][12] - 商业化进展：订阅收入已覆盖绝大部分成本，现金流接近转正 [7] - 全球化布局：视频内容天然跨语言传播，高GDP国家贡献主要收入，暂未精细化运营区域市场 [12] 行业竞争 - 视频生成第一梯队：国内为爱诗、快手可灵、MiniMax海螺，海外Google表现突出，认为Sora实际效果与demo差距显著 [14] - 对抗大厂逻辑：视频行业持续分化（长/短视频、直播等），新内容形态需增量供给，非存量替代 [10] - 技术壁垒：毒液模板半年未被复现，依赖高质量生成模型与持续用户洞察能力 [12] 战略决策 - 关键转折：2023年6月All in视频生成，抓住当时行业非共识机会 [23][24] - 资源分配：Sora发布后坚持原定技术路线，未盲目追加资源追赶，最终验证模型实效优于Sora [26] - 双引擎驱动：前期以模型技术为核心，后期产品与模型协同进化，产品需求反哺技术方向 [20] 行业趋势 - 技术架构：主流仍为DiT，自回归+Diffusion混合架构显现潜力但存在帧间误差挑战 [15][16] - 交互革命：实时生成将改变视频线性叙事，用户可动态改变剧情走向，视频与游戏界限模糊化 [17][18] - 价值认知：视频生成领域整体被低估，较之大语言模型更少舆论关注但实际商业落地更快 [24][25]

国产AI技术加速重构行业格局快手可灵系列大模型市场份额超30%

证券日报· 2025-05-17 00:39

公司表现 - 快手可灵系列市场份额超30% 彰显技术实力与商业化落地能力 [1] - 可灵大模型基于DiT架构提供文生视频和图生视频双模式支持最长3分钟、1080p、30fps高质量视频输出 [1] - 可灵AI全球用户规模突破2200万月活用户量增长25倍累计生成1.68亿个视频及3.44亿张图片 [1] - 可灵2.0大师版发布3周后在Poe平台拿下20.9%份额 [1] - 可灵AI累计营业收入超1亿元前3个月营收超2024年总和 [1] 行业竞争 - 视频生成大模型市场呈多极竞争腾讯混元上线130亿参数视频模块阿里巴巴开源万相2.1 字节跳动推出即梦AI [2] - Poe平台数据显示可灵占据视频生成模型30%以上份额美国Runway以23.6%份额位列单个模型第一 [4] - 国产视频大模型在生成时长、分辨率等性能持续提升已展现竞争力 [2] 技术应用 - 可灵帮助客户短视频营销制作成本下降60%-70% 释放更多广告预算 [2] - 长期看好可灵在视频内容制作产业链渗透包括电视剧、电影、短剧、UGC内容、动画等 [2] - AI视频生成技术将拓展至医疗、建筑、设计等领域例如医疗领域可生成虚拟手术场景视频 [3] 战略定位 - 快手通过深耕技术深水区加速构建从工具到生态的完整闭环 [5] - AI不仅是效率提升工具更是驱动平台流量增长与商业生态价值创造的核心引擎 [5]

AI视频生成技术

Artificial Intelligence

Artificial Intelligence