多模态模型 - 财报，业绩电话会，研报，新闻

多模态模型

搜索文档

2025-09-28 22:57

行业与公司 * 行业为人工智能大模型，特别是中国国内的大模型行业，涉及的公司包括阿里巴巴、字节跳动、腾讯、百度、快手、Meta、谷歌、OpenAI等 [1][2][4][5][7][15][18] 核心观点与论据 **国内外大模型差距** * 国内大模型在基础架构上依赖海外提出的Transformer、MoE等，缺乏自研突破性架构创新 [1][2] * 国内AI大厂的GPU算力远低于海外巨头，受中美贸易战影响，差距通常高出一个量级 [1][2] * 商业模式差异导致模型上限存在差距：国外如GPT追求顶级性能（例如OpenAI的GPT Pro月费200美元，号称媲美博士级别），而国内模型更侧重推理成本控制和性价比，以适应国内用户消费习惯 [1][2] * 在多模态商业化落地方面，海外具有先发优势，用户量和收入领先国内一个量级，例如音乐生成领域海外最好模型Suno的收入大约是国内最好产品的10倍 [18] * 国产多模态模型在长文本理解、多样化场景处理及泛化性方面与海外领先水平存在差距 [7][8] **国内大模型的优势与特点** * 国内数据法律相对宽松，成为追赶海外大模型的一项优势 [1][3] * 国产多模态模型聚焦国内场景（如电商广告、短视频等），生成内容更贴近国人需求，在性价比和成本控制上优于海外模型 [1][7][8] * 国内模型更注重实际应用和成本效益 [1][2] **公司战略与布局** * 阿里巴巴采取几乎全开源策略，包括完整的模型权重、代码及训练数据，以扩大影响力，并整合其云服务系统形成闭环互利模式 [1][4][15] * 阿里巴巴通过提供不同参数大小版本和公开打榜测试来提高可信度，因此开源认可度较高 [1][4] * 字节跳动依靠独占基础模型优势，在C端商业化同时加固技术壁垒 [15] * 百度侧重B端技术落地与整合，不参与开源及C端竞争 [15] * 部分前期投入基础模型但无法追赶上的公司转向应用开发，并将之前的架构和细节开源 [15] **技术架构与发展** * MoE（Mixture of Experts）架构已成为大模型标配，通过门控系统分配输入内容给对应专家系统处理，降低计算成本和推理时间 [1][10] * MoE架构未来优化方向包括精准入口分层、专家系统结构差异化和训练稳定性（解决某些专家系统过劳或躺平的问题） [1][10] * 2025年开始，Agent技术成为重点发展目标，其优势在于整合完整链路（前置用户理解、调用工具、结合自身能力生成完整系统） [16][22] * 到2026年，MCP（Multi-Chain Protocol）概念将普及，解决不同上下游数据输入输出连接问题，降低工具集成成本 [2][22] * 未来模型算力尺寸将大幅缩小，实现降本增效，并部署在端侧设备上，自监督模型强化将减少对人为参与和数据标注的依赖 [2][22] **多模态模型发展** * 国内各大厂商（阿里、字节、腾讯、百度、快手等）均在积极布局多模态模型，涵盖文本、图像、音频、视频、3D生成等领域 [5][6][7] * 代表性产品包括阿里的天工GL、OMI和通义万象，快手的可灵，腾讯的混元，字节的豆包等 [7] * 3D生成是国内新兴领域，但数据处理和训练成本高，下游应用尚不明确，目前主要集中于VR场景生产 [18] **行业经济性与商业化** * 从2024年中期开始，大模型API和C端定价降低，原因是前期大量企业投入预训练导致GPU算力资源稀缺，后期部分厂商放弃训练，算力资源释放，加上技术进步（如云浮加速优化），导致成本下降 [2][13] * 尽管用户付费减少，但由于成本降低，对企业收入仍产生正向影响，行业整体成本转化率增加 [13] * C端主要采用订阅制，B端API市场较为混乱，不同厂商的API被下游公司整合成C端产品出售，增加了用户选择但也提升了大厂运营推广成本 [14] * 国内用户对收费服务接受度低，付费转化率大约在3%至5%，30日留存率仅为3%至6% [20] * 成功的AI产品案例（如AI陪玩对话系统）通过结合情感陪伴和专业功能来吸引用户付费 [21][22] **挑战与未来展望** * 端侧AI设备（如机器人、眼镜）融合面临挑战：模型部署在设备上需解决成本、重量、续航问题；部署在云端需克服互动性、延时性及网络问题 [19] * 预计眼镜或头戴式运动装备将优先实现端侧AI融合 [19] * 国内免费的大厂对话机器人及多模态产品月活跃用户数达数千万，但免费策略的可持续性待观察，未来需探索付费转化路径 [19] * 幻觉问题的改善主要依赖数据质量和训练方法（如让模型识别自身不了解的信息），预计到2026年底通用大模型幻觉率将有显著改善 [10][11][12] * 展望2026年，关键技术突破可能包括Agent技术普及、模型算力尺寸缩小、自监督模型强化，目标是实现ASI（Artificial Super Intelligence） [22] 其他重要内容 * 短剧内容与AI剪辑工具融合方面，生成与编辑是不同方向，部分厂商转向编辑功能，但目前编辑功能仍处于辅助地位 [9] * 海外市场目前尚未有一键生成短剧或剧本内容的AI视频多模态工具，未来可能需要剧本大模型与agent链路结合来实现 [9] * 在基于剧本大模型做落地产品方面，可灵和奇梦两家公司已进行相当成熟的系统研究（但涉及机密信息未透露具体厂商） [10]