MiniMax海螺
搜索文档
中信建投:AI多模态和世界模型或重塑多个行业的业务逻辑
智通财经网· 2026-01-26 08:07
核心观点 - 多模态AI技术正从娱乐工具演变为生产力工具,商业化进程加速,并开始重塑下游产业格局 [1] 技术进展与厂商动态 - **全球领先厂商**:谷歌通过Veo、Gemini等系列模型在超长上下文理解与原生音视频融合领域建立壁垒 [2] - **国内头部玩家**:快手可灵、MiniMax海螺、阿里通义万相及智谱等通过架构和技术革新,重点解决了视频生成中的角色一致性失控、物理逻辑崩坏及分镜不可控等工业化生产难题 [2] - **MiniMax海螺AI**:其Hailuo2.3系列模型解决了大动态运镜下的物理崩坏问题,对光影、明暗及物理碰撞的模拟已接近实拍质感,海螺Media Agent可将视频、语音及语言模型封装为统一智能体,支持通过自然语言完成从脚本到视频渲染的全流程 [2] - **快手可灵AI**:其发布的o1模型是首个将多种创作任务整合进统一引擎的视频大模型,在图片参考任务中的胜负比达247%,在指令变换任务中的胜负比达230% [3];可灵视频2.6模型强化了音频同步与动作控制,支持长达30秒的复杂武打动作控制并维持音色一致 [3] - **阿里通义万相**:其2.6系列模型实现了国内首个商业化角色扮演功能,通过提取参考视频特征确保角色一致性,并引入专业分镜控制公式,支持单次生成15秒高清视频,为国内公开测试最高指标 [4] - **智谱AI**:其与华为发布的GLM-Image是首个在国产全栈算力底座上完成全流程训练的SOTA图像生成模型,解决了汉字渲染乱码难题,支持1024x1024至2048x2048任意比例输出,API调用生成一张图片仅需0.1元 [5] 商业化落地与市场表现 - **用户与收入增长**:快手可灵AI的月活跃用户数在2026年1月已突破1200万,截至2026年1月20日,其App端付费用户规模环比增长达350%,1月日均收入较12月日均高出约30% [6];2025年12月可灵单月收入超过2000万美元,2025年全年收入预计达1.4亿美元,其中专业生产者贡献近70% [6] - **应用场景拓展**:AI漫剧成为继短剧之后视频生成应用的新场景,字节跳动等平台通过激励政策推动内容精品化,例如抖音“漫剧创作激励计划”为使用豆包大模型制作漫剧的机构提供15%技术成本补贴,并对S+漫剧提供保底激励5000元/分,单部剧保底50万-75万 [7] - **市场规模潜力**:2025年9月红果短剧月活用户约2.36亿,超过了B站和优酷,接近芒果TV;短剧市场规模今年有望突破千亿,漫剧有望突破200亿 [7] 未来技术演进方向 - **技术路径**:多模态技术一方面向视频、音频、图像、文本统一的原生多模态发展,另一方面向具备物理常识与逻辑推理的世界模型演进 [7] - **原生多模态**:强调AI能在一套框架下对各种模态进行统一处理 [7] - **世界模型**:意味着AI能够像人类大脑一样根据当前画面预测下一帧会发生什么 [7] 下游产业影响与机遇 - **营销领域**:搜索营销可能从SEO、GEO进一步发展为生成式视觉检索,用户可直接获得AI实时生成的定制化视频作为回答 [8] - **文娱产业**:短剧、漫剧呈现快速放量趋势,小说IP与AI视频结合能加速IP影视化进程 [8] - **游戏产业**:生成式AI已应用于美术资产辅助生产,未来在世界模型加持下,实时游戏引擎将成为可能,带来类“头号玩家”的元宇宙开放世界游戏体验 [8]
腾讯研究院AI速递 20251223
腾讯研究院· 2025-12-23 00:08
生成式AI模型性能与架构创新 - 谷歌Gemini 3 Flash模型在SWE-Bench Verified测试中获得78%的分数,超越了Pro版的76.2%,其速度是Gemini 2.5 Pro的3倍,且Token消耗量减少30% [1] - Gemini Flash集成了大量Agentic RL研究成果,通过后训练算法实现小模型“降维打击”,而Pro版的主要作用是蒸馏Flash [1] - 帕累托前沿反转现象表明,参数规模不再是衡量模型性能的唯一标准,更便宜、更快的模型现在也可以是更聪明的模型 [1] - MiniMax开源其海螺视频底层技术VTP(视觉分词器预训练框架),在AI视觉生成领域发现了Scaling Law,破解了“第一阶段训练越好第二阶段反而变差”的悖论 [3] - VTP通过重建、CLIP图文对比和自监督学习三管齐下的训练方案,使视觉分词器学会理解而非只会重建,算力扩大10倍性能提升65.8% [3] - 通义千问推出Qwen-Image-Layered图像生成模型,采用自研架构将图片拆解成多个RGBA图层,每层可独立操作而不影响其他内容 [4] - 该模型核心技术包括RGBA-VAE和VLD-MMDiT,支持重新着色、物体替换、缩放移动、干净删除等操作,分层结构天然支持高保真编辑 [4] 自动驾驶技术路线与挑战 - 旧金山一场大停电导致红绿灯熄灭,Waymo无人驾驶出租车因系统无法确认安全边界而集体停摆,秒变路障 [2] - 事件凸显了Waymo与特斯拉技术路线的差异:Waymo依赖多传感器融合和高精地图,而特斯拉FSD依赖视觉和AI,后者在此次事件中完全未受影响 [2] - 该事件暴露了L4级无人驾驶在突发城市基础设施异常状况下的脆弱性 [2] AI公司发展与资本市场动态 - AI公司MiniMax正式冲刺港股“大模型第一股”,公司成立于2022年初,拥有385人团队,平均年龄29岁 [5] - 公司累计消耗5亿美元,约为OpenAI开销的不到1% [5] - 2025年前9个月,MiniMax营收达5344万美元,同比增长超170%,海外收入占比超70% [6] - MiniMax拥有超2.12亿个人用户和13万家企业客户 [6] - 公司股东阵容包括米哈游、阿里、腾讯、小红书、高瓴、红杉等,董事会平均年龄32岁 [6] - MiniMax是全球唯四全模态进入第一梯队的大模型公司 [6] 前沿硬件与计算技术突破 - 上海交大陈一彤团队推出全光生成式AI芯片LightGen,首次将光子计算拓展至大模型语义媒体生成领域,研究登上《Science》 [7] - LightGen由光子编码器、光学潜在空间和光子生成器构成,能实现512×512高分辨率图像生成、3D生成、高清视频生成及语义调控 [7] - 该系统速度达3.57×10^4 TOPS,能效达6.64×10^2 TOPS/W,计算密度达2.62×10^2 TOPS/mm²,整体性能比英伟达A100高出两个数量级以上 [7] AGI发展路径与安全框架 - DeepMind发布研究提出,AGI极可能通过多个次级AGI智能体协作与拼凑率先涌现,而非单一庞大模型 [8] - 论文提出了包含市场设计、基线智能体安全、监控与监督、监管机制的四层深度防御框架 [8] - 研究强调“拼凑型AGI”假设此前受关注甚少,建议构建虚拟智能体沙盒经济以解决智能体共谋等分布式风险 [8] 创业经验与团队管理 - ElevenLabs和Lovable的CEO建议创业前积累7-8年工作经验,包括在优秀公司的任职经历和对用户痛点的深刻理解 [9] - 高速扩张的关键在于保持“创始人模式”与“管理模式”的平衡,团队构成建议一半内部培养一半外部资深人士,并采用高强度工作模式 [9] - 欧洲创业虽缺乏成熟创业网络和资深高管,但人才优秀且忠诚度高,时区优势可同时对接全球市场 [9]
爱诗王长虎、谢旭璋:“不会创业” 的创始人,怎么做出用户量第一的 AI 视频产品
晚点LatePost· 2025-06-06 19:05
公司概况 - 爱诗科技由80后王长虎与90后谢旭璋联合创立,团队组合打破"35岁以下更适合大模型创业"的行业偏见 [3][4] - 公司定位为AI视频生成领域,同时开发底层模型与to C应用产品,全球用户超6000万,是竞品可灵的3倍 [4] - 核心产品PixVerse移动端上线6个月月活达1600万,国内版"拍我 AI"于6月6日正式发布 [4][6] 产品与技术 - 差异化路径:聚焦普通人需求,通过模板化设计(如毒液变身、科目三跳舞等)实现零Prompt操作,用户首条视频即可获万至百万点赞 [4][8][9] - 技术迭代:模型V3将生成成功率提升至近100%,V3.5将等待时间压缩至10秒内,累计更新7版模型 [6][9] - 生成效率:V4模型实现5-7秒生成5秒视频,正在探索实时生成技术以模糊创作与消费界限 [16][17] 市场表现 - 病毒式传播案例:毒液变身模板全球播放量超10亿次,咧嘴笑模板推动PixVerse登顶美国iOS下载榜前五 [6][12] - 商业化进展:订阅收入已覆盖绝大部分成本,现金流接近转正 [7] - 全球化布局:视频内容天然跨语言传播,高GDP国家贡献主要收入,暂未精细化运营区域市场 [12] 行业竞争 - 视频生成第一梯队:国内为爱诗、快手可灵、MiniMax海螺,海外Google表现突出,认为Sora实际效果与demo差距显著 [14] - 对抗大厂逻辑:视频行业持续分化(长/短视频、直播等),新内容形态需增量供给,非存量替代 [10] - 技术壁垒:毒液模板半年未被复现,依赖高质量生成模型与持续用户洞察能力 [12] 战略决策 - 关键转折:2023年6月All in视频生成,抓住当时行业非共识机会 [23][24] - 资源分配:Sora发布后坚持原定技术路线,未盲目追加资源追赶,最终验证模型实效优于Sora [26] - 双引擎驱动:前期以模型技术为核心,后期产品与模型协同进化,产品需求反哺技术方向 [20] 行业趋势 - 技术架构:主流仍为DiT,自回归+Diffusion混合架构显现潜力但存在帧间误差挑战 [15][16] - 交互革命:实时生成将改变视频线性叙事,用户可动态改变剧情走向,视频与游戏界限模糊化 [17][18] - 价值认知:视频生成领域整体被低估,较之大语言模型更少舆论关注但实际商业落地更快 [24][25]
国产AI技术加速重构行业格局 快手可灵系列大模型市场份额超30%
证券日报· 2025-05-17 00:39
公司表现 - 快手可灵系列市场份额超30% 彰显技术实力与商业化落地能力 [1] - 可灵大模型基于DiT架构 提供文生视频和图生视频双模式 支持最长3分钟、1080p、30fps高质量视频输出 [1] - 可灵AI全球用户规模突破2200万 月活用户量增长25倍 累计生成1.68亿个视频及3.44亿张图片 [1] - 可灵2.0大师版发布3周后在Poe平台拿下20.9%份额 [1] - 可灵AI累计营业收入超1亿元 前3个月营收超2024年总和 [1] 行业竞争 - 视频生成大模型市场呈多极竞争 腾讯混元上线130亿参数视频模块 阿里巴巴开源万相2.1 字节跳动推出即梦AI [2] - Poe平台数据显示 可灵占据视频生成模型30%以上份额 美国Runway以23.6%份额位列单个模型第一 [4] - 国产视频大模型在生成时长、分辨率等性能持续提升 已展现竞争力 [2] 技术应用 - 可灵帮助客户短视频营销制作成本下降60%-70% 释放更多广告预算 [2] - 长期看好可灵在视频内容制作产业链渗透 包括电视剧、电影、短剧、UGC内容、动画等 [2] - AI视频生成技术将拓展至医疗、建筑、设计等领域 例如医疗领域可生成虚拟手术场景视频 [3] 战略定位 - 快手通过深耕技术深水区 加速构建从工具到生态的完整闭环 [5] - AI不仅是效率提升工具 更是驱动平台流量增长与商业生态价值创造的核心引擎 [5]