多模态
搜索文档
时隔5年半,程一笑再谈快手与字节竞争
21世纪经济报道· 2026-03-26 23:51
2025年全年及第四季度财务业绩 - 2025年全年总收入同比增长12.5%至人民币1428亿元 [1] - 2025年全年经调整净利润达到人民币206亿元,同比增长16.5% [1] - 全年经调整净利润率提升至14.5% [1] AI业务商业化进展 - 2025年第四季度,可灵AI营业收入达到3.4亿元人民币 [1] - 截至2026年1月,可灵AI的年化收入运行率(ARR)已超过3亿美元 [5] - 公司对可灵AI在2026年实现收入同比翻倍以上增长保持较强信心 [5] AI技术发展路径与竞争格局 - 公司认为视频生成大模型在技术和产品层面均未成熟,众多参与者可共同推进行业进步 [5] - 字节跳动Seedance 2.0支持多模态输入的技术路线,与可灵在2025年12月推出的O1模型一致 [6] - 公司技术演进路径:从可灵2.0阶段提出多模态视觉语言理念,到O1模型深化多模态指令输入,再到2.6模型实现“音画同出”输出能力,最终在2026年2月推出基于All-in-One理念的可灵3.0系列模型 [6] 2026年AI投入规划 - 预计2026年集团整体资本性支出将达到约260亿元人民币,较2025年增加约110亿元 [2][9] - 资本性支出增长包含可灵大模型及其他基础大模型的算力投入,以及服务器采购、数据/算力中心建设等 [2][9] - 可灵大模型资本性支出增长源于用户规模及收入增长带来的推理算力需求,以及模型升级所需的训练算力储备 [10] AI应用场景与未来方向 - 除多模态/视频生成外,公司将在生成式推荐大模型、多模态理解大模型及Agent能力应用上加大投入 [9] - Agent能力是2026年重要方向,计划在线上营销场景为电商商家打造覆盖全流程的AI Agent,并在电商场景通过搜推Agent改善搜索体验以提升订单量 [9] 现金流与财务状况 - 2025年在资本性支出约150亿元的情况下,集团层面实现近120亿元自由现金流流入 [10] - 期末广义现金余额增至1049亿元 [10] - 2026年目标是在资本性支出明显增加的同时,继续保持集团层面健康稳健的自由现金流增长 [10]
时隔5年半,程一笑再谈快手与字节竞争
21世纪经济报道· 2026-03-26 11:22
公司2025年财务业绩 - 2025年全年总收入同比增长12.5%至人民币1428亿元 [1] - 2025年全年经调整净利润达到人民币206亿元,同比增长16.5% [1] - 2025年全年经调整净利润率提升至14.5% [1] 公司AI业务商业化进展 - 2025年第四季度,可灵AI营业收入达到3.4亿元人民币 [1] - 截至2026年1月,可灵AI的年化收入运行率(ARR)已超过3亿美元 [3] - 公司对可灵AI在2026年实现收入同比翻倍以上增长保持较强信心 [3] 公司AI战略与投入规划 - 2026年集团整体资本性支出(Capex)预计将达到约260亿元人民币,较2025年增加约110亿元 [2][7] - 2025年集团Capex投入约150亿元,全年实现近120亿元自由现金流流入,期末广义现金余额增至1049亿元 [7] - 2026年Capex投入将包含可灵大模型和其他基础大模型的算力投入,以及服务器采购和数据/算力中心建设 [2][7] - 可灵大模型Capex增长源于用户规模及收入增长带来的推理算力需求,以及模型升级所需的训练算力储备 [7] - 2026年公司仍以继续保持全年集团层面健康稳健的自由现金流增长为目标 [7] 公司AI技术发展路径 - 公司始终围绕统一原生多模态方向持续推进模型迭代 [5] - 在可灵2.0阶段首次提出多模态视觉语言(MVL)理念,以弥补纯文本交互的局限 [5] - 2025年12月推出的可灵O1模型深化应用MVL交互架构,实现文字、图像、视频等多模态指令输入 [5] - 同步推出的可灵2.6模型实现了“音画同出”的多模态输出能力 [5] - 2026年2月上线的可灵3.0系列模型基于All-in-One理念升级,将多模态输入与输出纳入同一模型框架 [5] 公司AI未来应用方向 - 除了多模态/视频生成方向,公司还将在生成式推荐大模型、多模态理解大模型以及Agent能力上加大投入 [6] 1. Agent能力是2026年的重要方向之一 [6] - 在线上营销场景,公司将打造覆盖智能选品、创意编辑、AI素材生成、智能投放、AI客服及投后数据分析全流程的AI Agent,以降低电商商家投放门槛并提升效果 [6] - 在电商场景中,公司将通过搜推Agent改善用户搜索体验,提升搜索订单量 [6] 行业竞争与格局 - 公司认为视频生成大模型在技术和产品层面都远未成熟,众多参与者一起可以加速行业进步,更好地满足用户需求 [3] - 字节跳动Seedance2.0等视频大模型的更新加速,在降低普通用户创作门槛的同时,提升了AI视频生成在更多应用场景的渗透率,让行业蛋糕变大 [5] - 公司指出Seedance2.0支持多模态输入的技术路线,与可灵在2025年12月推出的O1模型一致,印证了公司围绕多模态进行模型迭代的前瞻性 [5]
——GenAI系列报告之73:从MiniMax看国产大模型出海投资机遇
申万宏源证券· 2026-03-24 18:06
报告行业投资评级 **看好** [3] 报告的核心观点 看好国产大模型出海投资机遇,重点关注具备多模态能力和极致性价比优势的厂商MiniMax [3][5][89]。核心逻辑在于:大模型技术路径已收敛,国产模型在性能上虽与海外头部厂商有差距但距离不远,主要优势在于性价比 [4][12][14]。随着OpenClaw等类Agent应用的涌现,编程、办公等高频刚需场景的token消耗大幅增长,为具备成本优势的国产模型提供了广阔的应用空间 [4][6][67][68]。 根据相关目录分别进行总结 1. 行业:海外性能领先、国产模型提供性价比优势 - **技术路径收敛**:世界主流基座模型的预训练范式已收敛至Decoder-Only+MoE架构,竞争重心转向中后期的算法工程与推理侧优化 [4][12] - **海外格局与商业模式**:海外头部厂商(Anthropic、OpenAI、谷歌)在多模态性能上交替领先,并已通过企业级API、编程工具订阅等跑通商业模式 [4][13][20]。例如,Anthropic和OpenAI已实现200亿美元级别的年化收入,Anthropic预计2026年乐观营收可达550亿美元 [20][21][28] - **国产模型定位**:受算力等因素限制,国产模型在文本、编程等能力上相对海外有一定差距,但距离不远且2026年后加速追赶,核心优势体现在性价比上 [4][14]。例如,在编程能力排名中,国产模型MiniMax M2.5的Arena Score为1422,而海外头部模型Claude Opus 4.6为1555 [15][16] 2. MiniMax:自研模型+商业化应用双轮驱动 - **公司概况与战略**:MiniMax成立于2021年,是自研全模态大模型的先行者,坚持全球化战略,2025年中国大陆以外地区收入占比高达73% [4][39]。公司拥有扁平化的AI原生组织架构,研发人员占比超过70% [4][38] - **财务表现强劲**:2025年公司实现总收入7904万美元,同比增长159%;2026年2月年度经常性收入(ARR)突破1.5亿美元 [4][40]。随着推理边际成本下降,毛利率已提升至25.4%,经调整净亏损率大幅缩窄 [4][40] - **产品生态完整**:构建了覆盖B端和C端的应用生态。B端通过API开放平台输出多模态能力;C端聚焦泛娱乐与内容创作,如情感陪伴应用Talkie用户日均使用时长超70分钟,视频生成应用海螺AI处于多模态生成第一梯队 [4][53][85] 3. MiniMax:模型快速迭代驱动收入增长 3.1 MiniMax 模型:全模态、性价比 - **全模态战略**:坚持文本、语音、视频、音乐全模态并行研发的两阶段战略,预计2026年上半年推出融合各模态的M3模型及海螺3.0模型 [4][55] - **模型迭代迅速**:M系列模型迭代速度快,例如在108天内更新了M2、M2.1和M2.5 [56]。M2.5在编程评测集SWE-Bench Verified上达到80.2%的通过率 [58] - **极致性价比**:M2.5采用稀疏MoE架构,推理生成速度达100 TPS,其API输出价格仅为海外头部模型(如Opus、Gemini 3 Pro、GPT-5)的1/10至1/20,具有显著成本优势 [4][56][62]。例如,M2.5每百万Token输出价格低至1.2美元,而Anthropic Opus4.6为25美元 [62][66] 3.2 MiniMax 业务:模型能力提升,token消耗多线激增 - **编程场景爆发**:OpenClaw等类Agent应用拉动token消耗高增。MiniMax M2.5凭借编程领域的领先性能(SOTA)和极致性价比,成为开发者优选。截至2026年3月8日,其在全球Token消耗份额达11.4%,编程细分领域份额达34.1%,位居全球前列 [68][69][71][74] - **办公场景潜力**:办公场景是高频刚需市场,对模型的长上下文处理能力、专业深度和性价比要求高。MiniMax通过与领域专家合作构建训练数据,其模型在内部办公Agent评测中取得59.0%的平均胜率,有望在该场景复制性价比优势 [75][77][81] - **多模态应用协同**:视频生成应用海螺AI、语音工具Speech以及情感陪伴应用Talkie共同构建了多场景、多模态能力。例如,Talkie在2025年9月实现收入1875万美元,拥有139万付费用户 [82][85]。多模态能力未来有望与Agent入口打通,创造新的商业化曲线 [7][8][88] 4. 投资分析意见 - **核心结论**:重申看好国产大模型出海机遇,重点推荐MiniMax。其凭借多模态能力、快速迭代的模型(尤其是M2.5展现的极致性价比),在由Agent应用驱动的编程、办公等token消耗激增的场景中具备强大竞争力 [5][89] - **估值参考**:根据报告中的重点公司估值表,对应2026年3月23日数据,MiniMax市值为2533亿人民币,对应2026年预期营收15.1亿美元,市盈率(PS)为167倍 [91]
Meta又一AI大将跟LeCun跑了
量子位· 2026-03-22 14:28
文章核心观点 - Meta人工智能研究部门(FAIR)的资深研究员John Nguyen被其前领导、Meta AI研究创始负责人Yann LeCun新创立的公司AMI挖走,这反映了Meta在人工智能领域面临的人才流失和内部动荡,而LeCun的创业公司因聚焦“世界模型”等前沿方向并获得巨额融资,正吸引着原Meta核心人才[1][6][27][38] 关键人物背景与动向 - John Nguyen在Meta(FAIR)任职6年零3个月,是团队中坚力量,其研究路径完整跟随了Meta从联邦学习、大模型训练到多模态的技术演进主线[3][15][18][20] - John Nguyen拥有加州大学戴维斯分校统计学和计算机双学士及计算机硕士学位,自大学时期起便在亚马逊、Meta等公司实习,毕业后即加入Meta[12][13][14] - 此次挖角事件是LeCun创业后一系列人才追随的延续,此前已有谢赛宁、Mike Rabbat等FAIR前成员加入AMI[6] - 行业中存在顶尖人物创业并带走核心团队的先例,如乔布斯离开苹果、李飞飞创立公司、Ilya离开OpenAI等,这背后是人才对技术方向和方法论的追随[21][22][23][24][25] 技术研究方向与行业趋势 - John Nguyen在Meta的研究始于联邦学习,关注分布式训练效率与隐私保护,相关论文引用量达数百次(如547次、200次、177次)[16][18] - 随着大语言模型兴起,其研究重心转向大规模深度学习训练,解决大模型训练在工程层面的挑战[18][19] - 其后研究方向扩展至多模态模型,关注应用与能力构建[20] - 行业观点认为,当下稀缺的是既懂底层训练、又跨越多模态并能承接“世界模型”的人才,而“预测下一个token”的范式正逼近上限,行业开始转向对现实世界的建模[20][26] - LeCun创立的AMI及其追随者(如谢赛宁)认为,大语言模型主导的现状存在局限,担忧“语言对视觉的污染”,并将“世界模型”视为下一阶段的解决方案[8][9][10] 公司现状与竞争格局 - LeCun创立的AMI成立仅4个月,团队25人,在无产品、无收入、无客户的情况下获得了10.3亿美元(约合人民币71亿元)的种子轮融资,投前估值高达35亿美元(约合人民币241亿元),投资方包括英伟达、三星、丰田、淡马锡等,被称为“AI领域有史以来规模最大的种子轮”[28] - Meta面临内部动荡,FAIR部门被逐渐边缘化,且近期有传闻称其首席AI科学家(亚历山大王)可能被更换,尽管公司已辟谣,但形象已受损[5][31][32] - Meta在新模型开发上进展不顺,原计划去年底发布的新模型“牛油果”已推迟至2026年第一季度,截至3月底仍无正式消息[33][34][35] - Meta在追赶行业热点(文中喻为“龙虾”)时出现运营问题,包括高管邮件被误删以及内部数据未经授权泄露两小时,进一步强化了公司当前“不顺”的印象[36][37]
DeepSeek V4迟迟不发,中国开源王者为何越来越慢?
阿尔法工场研究院· 2026-03-17 17:35
DeepSeek V4发布延迟与行业动态 - 文章核心观点:DeepSeek V4发布多次延期,从2026年1月推迟至4月,引发社区对其迭代速度放缓的担忧,而同期OpenAI与Anthropic则进入“月更模式”,行业竞争加剧[5][6][8][14][15][18] - 2025年是DeepSeek的“高光之年”,V3系列、R1推理模型、V3.2等版本平均每1-2个月有一次大更新,在数学和代码基准上多次局部超越闭源模型,API价格极具竞争力,其App累计下载量突破1.1亿次,周活跃用户最高逼近9700万[8][9][10][11] - 然而自2025年12月V3.2发布后,DeepSeek的迭代明显放缓,仅进行了上下文扩展至1M、API微调等小修小补,无新权重或重大功能跃升,GitHub和API更新日志也停滞不前[8][12] DeepSeek迭代放缓的潜在原因 - 技术挑战从“模型发布”升级为“系统工程”,难度陡增:V4的目标是成为Agent时代的主力,需解决模型连续执行任务的能力,其训练重点已转向Tool-Use和Agent,引入了覆盖1800+真实环境、8.5万+复杂指令的Agent训练数据,研发进入更复杂、更重的阶段[21][22][23][25] - 作为全球开源社区的标杆,DeepSeek背负巨大预期,没有犯错空间:任何一次平庸的迭代都可能引发口碑反噬,公司必须确保每次发布都是“杀招”,维持“用1/10成本达到GPT同等性能”的市场效率预期至关重要,因此一个没有明显代际差异的V4不如不发[26][27][28][29][30][31][32] - 面临资源与组织天花板的挑战,并需进行硬件生态重构:大模型竞争已进入工业化比拼阶段,比拼算力供给、数据流水线、工程团队规模等闭环能力,而DeepSeek V4据传将深度适配国产芯片,有望成为首个完全跑在国产算力生态上的大模型,这种底层适配拉长了研发周期[33][34][36][37][38][39][40] 竞争对手的快速迭代与行业格局 - OpenAI与Anthropic进入“月更模式”,持续给市场带来新能力与确定感:2025年4月至2026年3月,OpenAI迭代了4次,Anthropic迭代了2次以上,而DeepSeek大版本更新为0次[15][18] - Anthropic打法高度聚焦,将资源密集砸向Coding、Agent和企业工作流等易形成壁垒的方向,更新节奏清晰[42][43] - OpenAI采用平台化推进节奏,模型、产品和API接口同步更新,小步快跑,使用户体感始终在更新[35][42] - 短期看DeepSeek与头部厂商的差距在拉大,但V3.2在数学/代码基准上仍具竞争力,且V4传闻方向(多模态、长期记忆、代码能力跃升、国产芯片适配)具有足够杀伤力,若兑现则长期仍可一战[42]
优化胜率而非赔率,把一件事做到理论上该有的样子|42章经
42章经· 2026-03-15 21:09
创业策略与思维模式 - 创业者的思维模式经历了从“优化赔率”到“优化胜率”的根本性转变,即从追求潜在巨大回报转向解决真实、可控的用户问题[4][7] - 真正一流的企业家如张一鸣、黄峥、王兴均采用“优化胜率”策略,他们在上一个时代积累核心能力,待时机成熟时抓住结构性机会,而非追逐“下一个抖音”这类伪命题[8][9][10][11][12] - “优化胜率”在行为上体现为选择变量更少、自身能控制更多的事情,避免不可预测性过高的领域[13] - 对于个人职业选择,优化自身能力、视野和信息质量本质上是优化胜率,这反而能提高获得高赔率机会的概率,仅因融资或上市传闻加入公司则是典型的优化赔率[14] - 字节跳动代表“强者思维”,强调第一性原理和完美主义,而段永平代表“弱者思维”或“平常心”,强调在好的商业模式和文化下,普通人也能创造巨大价值,其哲学更贴近普通创业者[15] AI行业分析与创业方向 - AI在应用层面可分为“想象力”(多模态生成,如图像、视频)和“智能”(语言模型,完成任务)两类场景,分别对应“杀时间”的娱乐体验和“省时间”的效率工具[16] - 对于创业者,工具型产品是目前商业化路径最清晰、确定性最高的方向,而陪伴、互动娱乐类产品的商业化效率尚难判断,因其商业模式难以支撑长期使用最先进的模型[17] - 在内容领域,创造门槛越高的内容形态,供给越稀缺,用户只消费头部1%的内容,AI生成的60-80分内容对消费端而言价值有限[5] - 互动、娱乐类内容的破局点可能不在于内容本身,而在于承载内容的“容器”(即新的交互形式或产品形态),若容器无创新,仅提升内容生成能力,内容最终仍会流向变现效率最高的现有平台(如抖音、Netflix)[18][19] - 一个成功的内容产品形态需要用户、内容类型和媒介模态三者形成闭合,例如小红书(图文、有用内容、一二线女性)、抖音(短视频、卡点音乐、表现力强的创作者),这是产品能冷启动并泛化的关键[20][21][22] AI视频生成领域的竞争与机会 - 视频生成领域呈现“多超多强”的竞争格局,第一梯队包括Sora、Seedance、Veo、可灵等,各自在不同场景和阶段占据技术领先地位[25] - 在模型能力分布不均、需求高度分散且普遍(从社媒到商业应用)的背景下,聚合多种模型服务的“全家桶”式产品存在明确机会,旨在以更低成本为用户提供更多模型服务[26] - 由于创意人才有限且语言与想象画面存在差距,通过模板化定义审美、降低用户成本成为关键产品方向,Higgsfield是该方向的典型代表[26] - Higgsfield成功的关键在于其卓越的“交付能力”与“展示能力”,能精准地将某一阶段模型可实际交付的能力(如一致性、拖拽生成视频、灯光控制)封装并包装成在社交媒体上极具吸引力的产品卖点,尽管用户实际体验可能不及展示效果[27][28] - 在应用层,“套壳”并非问题核心,关键在于能否深刻理解模型进展、具备优秀的产品与内容审美、并拥有快速执行力,以率先将新模型能力转化为用户价值[29][30] AI技术发展趋势与未来展望 - AI发展仍处于长周期,当前的重点之一是“多模态理解能力”的显著提升(如Gemini 3),这由算力优势及可扩展的方法驱动,将解锁更多应用场景[34][35] - 理解能力的大幅提升可能反过来抬高模型本身的“智能”水平,即“当眼睛带了脑子”,其发展前景被看好[35] - 除多模态外,“编程平权”是另一重要趋势,即通过改进交互方式,让编码能力更易被普通人使用,模型智能需通过编码才能突破单纯问答与理解的界限,此能力在模型达到类似Claude 3.5 Sonnet阶段后才真正变得可用[36][37] - 从长远看,若技术完全成熟且成本足够低,最酷的产品可能是能整合世界已知约束(如物理学原理)并进行推演预测未来的超级系统,这引发了对现实本质与未来预测的哲学思考[38][39][40][41][43]
Jeff Dean最新访谈:未来开发者人均50个智能体,写需求成核心技能
量子位· 2026-03-10 10:13
谷歌的AI战略与模型发展路线 - 公司遵循**帕累托前沿策略**,同时推进两条模型路线:一方面是用于深度推理、复杂数学问题等**高端前沿模型**;另一方面是用于低延迟场景的**高性价比模型**[3][19] - **蒸馏技术**是实现模型高效能的关键,通过该技术,**小模型可以非常接近大模型性能**,实现“下一代Flash ≈ 上一代Pro,甚至更好”[5][6][8][25][27] - 公司认为**低延迟**具有巨大价值,如果延迟降低**20-50倍**,将彻底改变用户体验,低延迟对于未来完成更复杂任务(如编写整个软件包)至关重要[9][29][30][153] 模型能力与多模态发展 - 公司从设计之初就希望Gemini是**多模态模型**,其多模态不仅包括文本、图像、视频、音频等人类感知模态,还包括理解**非人类的模态**(如LIDAR传感器数据、机器人数据、医疗影像、基因组信息等),世界上可能有**数百种不同的数据模态**[9][42][44][45][46] - 模型在**长上下文能力**上取得显著进展,已从“大海捞针”式单针测试转向更复杂的多针检索或真实任务(如从数千页文本或数小时视频中提取信息)[36] - **统一模型时代已经到来**,通用模型的能力已大幅提升,在许多场景下不再需要专用系统,**通用模型会胜出**[105][107][110] 硬件、系统与能效协同设计 - 在硬件与机器学习研究之间必须进行 **“协同设计”** ,硬件设计需预测未来 **2–6年** 的模型趋势,研究团队的洞察能指导在芯片中加入可能带来**10倍提升**的“投机性功能”[13][82][84] - 系统设计以**能量消耗**为第一性原则,从内存搬运数据的能量成本(如从SRAM搬运需**1000皮焦耳**)远高于计算本身(小于**1皮焦耳**),这自然引导出通过**批处理(batching)** 来摊薄成本的设计选择[13][73][76][77] - 公司早期在搜索系统架构上的演进(如2001年将索引**全部放进内存**)本质是从“精确词匹配”走向“语义理解”,这与大语言模型(LLM)的逻辑一脉相承[63][65] 未来研究方向与行业影响预测 - 未来最重要的技能将是 **“写清楚需求”** 或 **“清晰表达需求”** ,因为智能体(Agent)的输出质量完全取决于如何定义问题,这将成为一种**核心技能**[2][144][145][146] - 未来工程师的工作模式可能演变为人均管理**50个智能体实习生**,完成大量并行任务,这种组织沟通效率可能比管理真人团队更高[1][138][139] - 两个关键预测:1) **真正“个性化”的模型**会极其重要,它能访问并理解用户的全部授权历史信息;2) 专用化硬件将推动**模型延迟大幅下降**,从而改变许多应用场景[13][156][158] - 重要的开放研究方向包括:让模型更可靠地完成**更长、更复杂的任务**(可能涉及模型间协作),以及将强化学习扩展到**“不可验证”的领域**[91] 公司内部项目复盘与组织策略 - 公司反思了早期在AI资源分配上的问题,将算力和人才分散在多个团队和方向被内部认为是 **“愚蠢的”** ,这直接促成了整合资源、打造**统一多模态模型Gemini**的项目起点[13][131][133] - 公开基准测试(benchmark)有价值,但理想的生命周期是初始分数在 **10%–30%** ,通过改进提升到**80%–90%** ,超过**95%** 则意义不大[35] - 垂直领域模型(如医疗、法律LLM)仍有意义,应基于强大的基础模型在特定领域数据上强化,理想情况是模块化,通过“可安装知识包”或检索来增强基础模型能力[113][114][116][117]
MINIMAX-WP:领先的大模型开发公司,产品商业化迅速推进-20260309
国信证券· 2026-03-09 11:00
投资评级 - 报告给予MINIMAX-WP(00100.HK)“优于大市”评级,并维持该评级 [1][2][4][78] 核心观点 - 报告认为,MINIMAX是领先的大模型开发公司,其产品商业化正迅速推进 [1] - 公司自创立之初即聚焦全模态大模型研发与AI原生应用构建,通过持续迭代形成了涵盖文本、语音等能力的多模态模型体系 [4] - 公司采取“C端验证能力、B端实现放大”的双轮驱动路径,通过C端高频互动场景验证模型能力,再向B端开放平台和企业服务延伸,实现用户规模和调用量快速提升 [4][64] - 公司多模态产品商业化和出海均处于国内领先地位,低价模型切合中小企业和个人用户需求,预计未来业绩增长空间有望进一步打开 [4][78] 公司概况与发展历程 - MINIMAX成立于2021年,自创立之初即布局全模态大模型方向 [4][5] - **创业初期(2021-2023年)**:2022年发布首个文本模型abab1;2023年发布百亿参数预训练大模型abab5.5并与首位API客户合作,后续发布AI原生全模态交互平台Talkie、全模态交互平台星野、语音模型Speech-01 [5] - **快速发展阶段(2024年至今)**:2024年发布多语言语音生成模型Speech-02、MiniMax MCP;2025年发布首个开源、大规模混合注意力推理模型MiniMax M1、智能Agent应用,并发布Hailuo-02、MiniMax M2、Music 2.0等,形成完备产品矩阵;2026年在港交所成功上市 [5] 公司治理与股权 - 公司核心决策权高度集中于创始团队 [7] - 创始人兼董事会主席、CEO/CTO闫俊杰统筹公司整体战略与核心技术路线 [7][8] - 核心技术人员在技术研发、经营管理与产品商业化等方面形成互补合力 [7] - 创始人及联合创始人团队通过Alpha Exp平台合计持有28.25%股份,为公司实际控制人;阿里巴巴持股13.66%,为第一大外部机构股东;米哈游持股6.40%;IDG资本持股2.80% [8] 产品与技术矩阵 - 公司产品涵盖基础模型、应用产品及平台服务,形成完备矩阵 [12] - **基础模型(M系列)**:构建了以M系列为核心的通用大语言模型体系,包括M1、M2、M2.1及最新发布的M2.5等版本 [12] - **M2.5模型表现突出**:在MiniMax内部真实业务场景中,整体任务的30%由M2.5自主完成,覆盖研发、产品、销售、HR、财务等职能,且渗透率持续上升 [3][15] - 在编程场景,M2.5生成的代码已占新提交代码的80% [15] - 在编程、工具调用和搜索、办公等生产力场景达到或刷新行业SOTA,例如SWE-Bench Verified(80.2%)、Multi-SWE-Bench(51.3%)、BrowseComp(76.3%) [15] - 在SWE-Bench Verified测试中,M2.5比上一版本M2.1完成任务速度快了37% [15] - 成本优势显著:在每秒输出100 token的情况下,M2.5连续工作一小时只需花费1美金;每秒输出50 token的情况下,只需0.3美金 [15][16] - 在OpenRouter Programming最新统计中,M2.5以约29.7%的调用份额位列第一,调用规模超过1.21T tokens [60] 1. **视频生成模型(Hailuo系列)**:Hailuo-02支持文本生成视频及图像生成视频,在指令理解、复杂动作表达及画面物理一致性方面表现突出 [19][21] 2. **语音模型(Speech系列)**:Speech-02系列包括面向高保真语音生成的Speech-02-HD与面向高效率实时生成的Speech-02-Turbo,在自然度、情感表达与语音稳定性方面实现显著提升 [22] 3. **商业闭环**:公司构建起模型、应用、平台协同发展的商业闭环 [25] - **C端**:以订阅制与应用内付费为核心变现方式,产品包括MiniMax、海螺AI、MiniMax语音、Talkie/星野等 [25][28] - **B端**:通过开放平台API调用收费及定制化企业服务收费,向企业客户输出多模态能力 [27][28] 财务表现与预测 - **历史财务**: - 2025年实现收入7904万美元,同比增长159% [29] - 2025年AI原生产品收入5308万美元,占比67.2%;开放平台及其他服务收入2596万美元,占比32.8% [29] - 2025年实现净亏损18.72亿美元 [29] - 2025年毛利率为25.40% [31] - 2025年销售/管理/财务费用率分别为46.58%/65.66%/319.81% [31][32] - **盈利预测**: - 预计公司2026/2027/2028年营业收入分别为2.5/6.5/12.9亿美元,分别同比增长218.7%/156.4%/100.2% [4][77] - 预计2026/2027/2028年毛利率分别为32.4%/38.2%/43.8% [76][77] - **AI原生产品(C端)**:预计2026/2027/2028财年收入增速分别为130.0%/110.0%/70.0%,占公司总收入比重分别为48%/40%/34% [75][76] - **开放平台及其他服务(B端)**:预计2026/2027/2028财年收入增速分别为400.0%/200.0%/120.0%,占公司总收入比重分别为52%/60%/66% [75][76] 行业趋势 - **趋势一:大模型能力不断提升,应用边界快速扩展** [34] - 纵向:智能水平跨越式提升,Agentic AI兴起使模型具备主动执行能力 [34] - 横向:多模态融合加速,构建涵盖视觉、听觉及视频的统一语义空间 [35] - 模型迭代速率加快,从以年为单位的代际演进进入以季度甚至月度为周期的竞速时代 [38][39] - **趋势二:供给侧技术进步推动算力成本结构性下降** [40] - 机器学习专用GPU的算力性价比(FLOPs/$)平均每2.1年翻倍 [40] - 推理成本快速下探,以GPT-4 level为例,2025年每百万token成本仅为2024年的1/40 [42] - 全球大模型市场规模(按基于模型的收入计)预计从2024年的146亿美元增长至2029年的2065亿美元,CAGR达80.7% [44] - 头部企业商业化迅速,例如OpenAI年化营收从2023年的0.2亿美元增长至2025年的200亿美元 [46] - **趋势三:竞争格局海外暂时领先,国内外差距逐渐缩小** [50] - 大模型应用主要赛道包括生产力、娱乐、视觉生成、音频生成和通用2B服务 [50] - 中美前沿模型性能差距已从ChatGPT发布后的超过一年,缩小到不到三个月 [54] 公司核心优势 - **多模态布局形成平台级技术优势**:公司构建起覆盖“文本理解—视觉生成—语音生成”的多模态能力矩阵,具备长期演进潜力 [4][58] - **采取“C端验证能力、B端实现放大”的双轮驱动路径**:通过C端高黏性场景打磨模型并实现商业化,再将能力向B端平台化输出,形成技术能力与产品体验的正向循环 [4][64] - **全球化推进迅速**:公司确立“首日即全球”的发展锚点,产品上线即面向全球200多个国家和地区发布 [71] - 截至2025年前三季度,公司海外收入占比高达73.1% [71] - 付费用户数从2023年的约12万飙升至177万,付费用户平均支出(ARPU)翻倍至15美元 [71] - 旗下Talkie构建了累计超2.12亿用户的全球社区,日均使用时长超70分钟 [71]
MINIMAX-WP(00100):领先的大模型开发公司,产品商业化迅速推进
国信证券· 2026-03-09 09:23
投资评级 - 报告给予MINIMAX-WP(00100.HK)“优于大市”评级,并维持该评级 [1][2][4][78] 核心观点 - 报告认为,MINIMAX是一家领先的全模态大模型开发公司,其技术路线使其具备长期演进潜力,而非阶段性能力领先 [4][58] - 公司采取“C端验证能力、B端实现放大”的双轮驱动路径,调用量和用户规模快速提升 [4][64] - 公司低价模型切合中小企业和个人用户需求,多模态产品商业化和出海均处于国内领先地位,未来业绩增长空间有望进一步打开 [4][78] - 预计公司2026/2027/2028年营业收入分别为2.5/6.5/12.9亿美元,分别同比增长218.7%/156.4%/100.2% [4][77] 公司概况与发展历程 - MINIMAX成立于2021年,自创立之初即布局全模态大模型方向,聚焦基础模型研发与AI原生应用构建 [4][5] - 公司发展历程分为两个阶段:1)创业初期(2021-2023年),产品逐步丰富,发布了首个文本模型abab1、百亿参数模型abab5.5、AI交互平台Talkie/星野及语音模型Speech-01 [5];2)快速发展阶段(2024年至今),产品快速迭代,发布了多语言语音模型Speech-02、开源模型MiniMax M1、智能Agent应用、Hailuo-02、M2系列模型及Music 2.0等,形成完备产品矩阵,并于2026年在港交所成功上市 [5] 公司治理与股权结构 - 公司核心决策权高度集中于创始团队,创始人兼CEO/CTO闫俊杰统筹公司整体战略与核心技术路线 [7] - 核心技术人员在技术研发、经营管理与产品商业化等方面形成互补合力 [7] - 创始人及联合创始人团队通过Alpha Exp平台合计持有28.25%股份,为公司实际控制人 [8] - 阿里巴巴持股13.66%,为第一大外部机构股东,米哈游持股6.40%,IDG资本持股2.80% [8] 产品与技术能力 - **基础模型(M系列)**:公司构建了以M系列为核心的通用大语言模型体系,包括M1、M2、M2.1及最新发布的M2.5等版本 [12] - **M2.5模型表现突出**:在内部真实业务场景中,整体任务的30%由M2.5自主完成,覆盖研发、产品、销售等职能,其中生成的代码已占新提交代码的80% [3][15] - **性能领先**:在编程、工具调用和搜索、办公等生产力场景达到或刷新行业SOTA水平,例如在SWE-Bench Verified测试中达到80.2% [15] - **效率与成本优势显著**:完成任务速度比上一代M2.1快37%;在每秒输出100 token的情况下,连续工作一小时仅需1美元,成本仅为Opus、Gemini 3 Pro及GPT5等模型的1/10-1/20 [15][16] - **市场认可度高**:在OpenRouter Programming统计中,M2.5以约29.7%的调用份额位列第一,调用规模超过1.21T tokens [60][62] - **视频生成模型(Hailuo系列)**:Hailuo-02支持文本生成视频及图像生成视频,在指令理解、复杂动作表达及画面物理一致性方面表现突出,基于该模型推出的海螺AI视频生成平台处于全球视频生成模型第一梯队 [19][21][26] - **语音模型(Speech系列)**:Speech-02系列包括面向高保真生成的HD版本和面向高效率实时生成的Turbo版本,在自然度、情感表达与语音稳定性方面实现显著提升,发布后处于全球领先位置 [22][23] - **多模态能力矩阵**:公司已构建起覆盖“文本理解—视觉生成—语音生成”的完整多模态能力矩阵,技术边界完整,具备长期演进潜力 [4][58] 商业模式与商业化进展 - 公司构建了模型、应用、平台协同发展的商业闭环 [25] - **C端业务**:以订阅制与应用内付费为核心变现方式,产品包括MiniMax、海螺AI、MiniMax语音、Talkie/星野等,满足情感陪伴、角色互动、内容创作等高频高粘性场景 [25][28][64] - **B端业务**:通过开放平台API调用收费及定制化企业服务收费,向企业客户输出多模态能力 [27][28] - **财务表现**: - 收入跨越式增长:2025年实现收入7904万美元,同比增长159% [29] - 收入结构:2025年AI原生产品收入5308万美元,占比67.2%;开放平台及其他服务收入2596万美元,占比32.8% [29] - 毛利率改善:2025年毛利率为25.40%,由负转正并逐步提升 [31] - 仍处亏损阶段:2025年净亏损18.72亿美元,销售/管理/财务费用率分别为46.58%/65.66%/319.81% [29][32] - **全球化进展迅速**: - 确立“首日即全球”策略,产品上线即面向全球200多个国家和地区发布 [71] - 截至2025年前三季度,海外收入占比高达73.1% [71] - 付费用户数从2023年的约12万飙升至177万,付费用户平均支出(ARPU)翻倍至15美元 [71] - Talkie产品日均使用时长超70分钟,累计拥有超2.12亿全球用户 [71] 行业趋势与竞争格局 - **趋势一:大模型能力提升,应用边界扩展** - 纵向:模型智能水平跨越式提升,Agentic AI兴起使模型具备主动执行复杂任务的能力 [34] - 横向:多模态融合加速,AI正突破单一文本局限,构建涵盖视觉、听觉及视频的统一能力 [35] - 迭代加速:全球大模型行业进入以季度甚至月度为周期的竞速时代,国内外头部厂商模型迭代速度均加快 [38][39] - **趋势二:算力成本结构性下降,市场空间打开** - 机器学习专用GPU的算力性价比平均每2.1年翻倍,推动推理成本快速下探 [40] - 2025年GPT-4 level模型的每百万token成本仅为2024年的1/40 [42] - 成本下降激活下游需求,推动行业进入爆发增长期,预计全球大模型市场规模将从2024年的146亿美元增长至2029年的2065亿美元,CAGR达80.7% [44] - 头部企业商业化加速,例如OpenAI年化营收从2023年的0.2亿美元增长至2025年的200亿美元 [46] - **趋势三:竞争格局海外暂时领先,中外差距缩小** - 主要应用赛道包括生产力、娱乐、视觉生成、音频生成和通用ToB服务 [50] - 在生产力赛道,公司M2.5模型在编程等场景表现突出;在娱乐赛道,公司Talkie(星野)是头部厂商之一;在视觉生成赛道,公司是头部玩家之一 [51] - 中美前沿模型性能差距已从ChatGPT发布后的超过一年,缩小到不到三个月 [54] 盈利预测 - **总收入**:预计2026E/2027E/2028E分别为2.52亿/6.46亿/12.93亿美元,增速分别为218.7%/156.4%/100.2% [76][77] - **收入结构**: - AI原生产品(C端):预计2026E/2027E/2028E收入分别为1.22亿/2.56亿/4.36亿美元,增速分别为130.0%/110.0%/70.0%,占总收入比重分别为48%/40%/34% [75][76] - 开放平台及其他服务(B端):预计2026E/2027E/2028E收入分别为1.30亿/3.89亿/8.57亿美元,增速分别为400.0%/200.0%/120.0%,占总收入比重分别为52%/60%/66% [75][76] - **毛利率**:预计2026E/2027E/2028E分别为32.4%/38.2%/43.8% [76] - **费用率**:预计随着收入规模扩大,各项费用率将逐步下降,2026E/2027E/2028E销售费用率分别为30.9%/16.9%/11.0%,管理费用率分别为21.9%/11.1%/6.7%,研发费用率分别为141.2%/74.5%/47.4% [76]
Z Tech|清华吴翼:离开OpenAI,我有后悔过吗?
Z Potentials· 2026-03-06 11:17
OpenAI早期文化与发展历程 - OpenAI在2018年时被业界视为非常非主流的“草台班子”,其团队构成与Google Brain、Facebook AI Research等由知名PhD组成的“全明星阵容”形成鲜明对比[2] - 早期OpenAI团队人员背景极其多样化,包括本科生、神经科学家、英语不流利的俄罗斯开源开发者和Unity游戏开发者,正儿八经的科班CS PhD较少[4] - 与同期其他研究机构不同,OpenAI最大的优势在于其统一的使命和极致的工程化能力,这帮助它将一群背景各异的人凝聚在一起并坚持下来[5] - 早期OpenAI的一些项目,如用AI玩Dota,在当时学术界看来是为了“学术PR”而做的“非主流”项目,并不被认为是一个顶级研究组织[3][4] 中美大模型产业现状与竞争策略 - 中国大部分大模型厂商都在进行模型蒸馏,这是一个比例很高的现象[15] - 蒸馏要做好并不容易,涉及资金、人才、算力以及如何获取用户反馈等多重挑战[15] - 国内厂商的明确目标是保持每一代模型都能在特定有价值的基准测试或能力上与世界最好的模型保持同等水平,只要不掉队即可[15] - 这是一个非常合理的短期生存策略,保持生存和持续迭代至关重要,就有机会实现赶超[17] - 美国头部企业(如Claude)能做好部分原因在于其拥有极强的用户反馈飞轮,例如几乎所有最高质量的AI编程用户数据都流向了Claude[15] - 在编程等领域,由于很多是后训练阶段的工作,通过蒸馏追赶相对更容易一些[15] - 但完全依赖蒸馏的观点不被赞同,公司依然需要一个合理的基础模型,基础模型不好,蒸馏效果也有限[16] - 后训练数据是难题,特别是在智能体编程场景下的任务拆分数据并不好获取[16] - 如果没有自己数据边界清晰的基础模型和良好的强化学习基础设施,后续的泛化工作会非常困难[16] AI技术发展趋势与研究方向 - 强化学习的范式尚未结束,与预训练一样,在架构和训练方式上仍有很大探索空间,例如多模态的引入[31] - 让强化学习继续扩大规模肯定有空间,当前智能体编程任务的训练成本虽重,但尚未到无法承受的地步[32] - 未来的范式转变可能从人类努力的角度考虑,从预训练到后训练,人类体力劳动的付出在持续降低数量级[33] - 训练AI如同培养运动员,后期人类提供的高质量、有价值的数据会越来越少,介入将变得更精细和微妙[34] - 多模态是一个“新大陆”,多模态甚至视频模型的预训练可能为机器人等领域带来全新可能性,并可能解锁新的能力[37] - 将生成和理解统一放到预训练阶段去做是一个新的技术可能性,谷歌大概率走通了这条路线[37] - 如果追求通用人工智能,那么继续深耕编程能力是关键;但如果多模态的新可能性走通,也一定会出现新的机会[37] 智能体与多智能体系统的应用前景 - 真正需要多智能体系统的情况主要有两种:一是大规模并行分布式处理任务;二是处理节奏不同的异步任务[23] - 随着长上下文大模型的出现,许多之前提出的多智能体场景已被证伪,因为一个能力强大的模型可以直接处理,无需拆分角色[24] - 在公司工作流中,强行拆分成多智能体并不被看好,一个集中式的超级智能AI进行后台决策更为合适,除非是特别关键的研究任务[24] - 像Claude Code辅助编程这类需要大量并行尝试和验证的工作,是天然适合多智能体(如智能体编排、集群)的场景[25] - 另一种场景是去中心化系统,例如为不同地点(家、公司、车)或不同功能(回微信、刷社交媒体、看新闻)部署独立的智能体[26] - 在这些需要相互隔离或执行不同功能的场景下,分布式、不同上下文的智能体才有意义[26] 强化学习的挑战与数据飞轮 - 强化学习面临的核心挑战之一是奖励信号不清晰,特别是在创意写作或现实案例等难以验证的领域[27] - 解决问题的底线是至少要能做到“人类可验证”,如果一个领域最专业的人都无法判断好坏,那可能就不存在科学解法[28] - 存在从“机器自动可验证”到“人类可验证”的谱系,可以通过人机协同反馈的模式来扩大可训练范围并降低成本[28] - 与推荐系统拥有天然的用户行为数据飞轮不同,强化学习的数据需要专家进行清洗和构造,本质上是“人在回路”的数据飞轮[29] - 直接从普通用户收集反馈信号(如代码补全接受度)噪声会很大,公司肯定会在后台进行数据清洗,而非纯粹的无脑在线强化学习[30] AI时代的企业组织形态 - 新兴的AI原生团队需要更少但更精英的人员,包袱小,迭代速度非常快,AI工具(如Claude Code)能大幅减少对基础代码维护人员的需求[19] - 这导致团队规模可以很小,从而自然避免了许多大团队常见的组织管理问题[19] - 对于老牌企业或传统企业的AI转型则更为复杂,可能演变为一种类似咨询的方式,需要自上而下地改变组织的评估和运作模式,这对领导层要求极高[20] - 像Meta、字节这样拥有强势且年富力强CEO的公司,可能通过自上而下的绩效和组织变革来实现转型[20] 学术界的定位与价值 - 在算力被大厂垄断的背景下,学术界的价值不在于复刻大厂的规模,而在于提供系统性的科学训练和从零构建系统的机会[21] - 学术界99%的工作可能最终没有直接商业价值,但这正是科学精神的体现,允许伟大的想法在自由环境中缓慢演化[22] - 学术界应致力于思考大厂不敢想的创意,去做那些有趣但看似无意义、甚至可能行不通的东西[22] - 伯克利AMPLab模式是成功的典范,孵化出了Databricks、AnyScale、vLLM、SGLang等改变行业的工具,学术界可以作为一个更安全的创新避风港,以前瞻性实验捕捉产业创新空隙[22][23] 对通用人工智能的看法 - 通用人工智能的定义是一个“移动的球门”,当前AI的能力(例如在经济性文职工作替代上已接近80%)其实已接近早期设定的目标,但公众的期望门槛被拉高了[35] - 目前AI在编程领域已取得巨大突破,但由于普通人不接触代码,导致存在巨大的感知差距,这本身是一个巨大的产品机会[36] - 衡量AI进步的一个具体标准是看其能否独立完成耗时数周的工作,如果能做到,那它必然具备自我进化和持续学习的能力[36]