2026 年AI 应用的胜负手：多模态，从AI视频到机器人

会议纪要核心要点总结 一、涉及的行业与公司 * 核心行业：人工智能（AI），特别是多模态大模型及其应用领域，包括AI视频生成（短剧/漫剧）、自动驾驶、机器人[1][2][3]。 * 提及的海外公司/产品：谷歌（Gemini）、OpenAI（GPT-4O, Sora）、特斯拉、Meta、李飞飞团队[3][5][17][29]。 * 提及的国内公司/产品： * 大模型公司：MiniMax（海螺模型）、字节跳动（豆包）、快手（可灵）、昆仑万维（Skyreels）[13][22][26][27]。 * A股投资标的：兆驰股份（旗下风行）、昆仑万维、富博集团、万兴科技、中文在线、掌阅科技[25][26][30]。 * 港股投资标的：MiniMax、快手[27][30]。 二、核心观点与论据 1. AI应用行情进入“聚焦”阶段：计算机及AI应用行情进入2.0阶段，核心是聚焦到能够明确放量的核心AI应用场景[1]。 2. 多模态是2026年AI应用的“胜负手”：大模型正从文本向多模态快速演进，多模态技术的成熟将驱动应用爆发，是空间最大、最明确的放量方向[1][2][29]。 3. 多模态大模型的技术演进路径： * 动态理解：从GPT-4O开始，向“原生多模态”发展，旨在直接从动态数据中学习，对机器人、智能硬件至关重要。但目前动态理解准确率（约90%多）仍远未达到文字理解的成熟度，且存在理解因果关系能力不足等问题[5][6][8][9]。 * 动态生成：视频生成以扩散模型（Diffusion Model） 为主流。Sora采用的DiT（Diffusion Transformer）结构是关键突破，使模型参数可扩展（scalable），显著提升了生成质量和细节[10][19]。当前视频生成模型参数已达千亿级别[20]。 * 理解与生成一体化：趋势是将大语言模型（LLM）置于生成模型前端，以更好地理解用户意图，从而提升生成内容的可控性、遵循指令能力，并降低“抽卡率”（生成多次选择最优）。案例包括Luma、GPT-4等[11][12][15][16]。 * 向世界模型演进：世界模型旨在直接从像素点等动态内容中学习物理规律（如重力），而非通过文字描述。技术路径尚未收敛（涉及JEPA-3、高斯扩散等不同方法），但对自动驾驶和机器人是长期利好[3][16][17][18]。 4. 核心应用场景一：AI视频（短剧/漫剧）已进入生产环境 * 产业现状：一致性、画质、物理合理性等问题已得到较好解决，达到工业生产级应用。AI生成视频与真人视频的界限预计在半年内将难以分辨[14][15][21][23]。 * 市场空间与增长：受多模态技术成熟驱动，市场自2025年10月起爆发。当前整体市场规模约1000亿出头，其中AI漫剧约200亿出头。预计2026年将实现倍数增长[24]。 * 成本与需求：高品质（1080P以上）AI视频生成成本已降至千元级（一两千元），较好画质成本在两三千元级别，且成本仍在快速下降[23]。C端需求旺盛，类似游戏，用户易投入。以字节跳动“红果短剧”APP为代表的平台流量正在快速崛起[23][24]。 5. 核心应用场景二：自动驾驶与机器人（主题性机会） * 多模态理解及未来的世界模型发展将利好该领域。目前世界模型尚处科研向早期应用过渡阶段，预计2026年下半年进入试验环境，2027年上半年进入生产环境。当前投资机会更偏主题性[3][21][28][30]。 三、投资机会与建议 1. AI视频产业链投资机会： * IP与内容方：偏传媒行业机会（如中文在线、掌阅科技）[25][30]。 * 平台与AI工具方：寻找“AI视频时代的Midjourney”，即基于底层大模型（如Sora、豆包、海螺模型）封装成优秀AI工具或平台的公司[25]。 * 重点推荐：兆驰股份（风行，预期差大）、昆仑万维（Skyreels）、富博集团、万兴科技[25][26][30]。 * 港股：首推MiniMax（海螺模型迭代），关注快手[27][30]。 * 业绩预期：跟踪的核心公司2026年在AI视频方向的收入增速均呈翻倍趋势[27]。 2. 自动驾驶与机器人：作为主题性机会，关注在相关领域有布局的公司[28][29][30]。 3. 算力与存储：多模态应用落地爆发将利好底层算力和存储需求[29][30]。 四、其他重要信息 * 国产大模型进展：国产多模态大模型（如MiniMax海螺、快手可灵）通常落后海外约半年。随着海外Sora、Gemini等确立领先地位，预计国产模型将在2026年一季度末至二季度全面跟上[22]。 * 关键时间节点判断： * AI视频生成：目前已进入生产环境，成本快速下降[23]。 * 世界模型：2026年下半年进入试验环境，2027年上半年进入生产环境[28]。 * 风险提示：世界模型的技术路径尚未完全收敛，自动驾驶与机器人领域的应用落地时间晚于AI视频[17][28]。