Workflow
多模态大模型
icon
搜索文档
MiniMax首次覆盖报告:全栈多模态能力突出,全球商业化落地高效
国泰海通证券· 2026-02-11 19:12
公司业务与财务表现 - MiniMax是一家港股稀缺的全球化多模态大模型公司,构建了C端订阅与B端企业服务的双轮驱动体系[3] - 2025年前三季度公司收入达5344万美元,同比增长175%,其中国际市场收入占比达73.1%[22] - 公司预计2025/2026/2027年营业收入分别为0.85亿、2.2亿、4.0亿美元,同比增长率分别为177%、160%、80%[36] - 公司预计2025/2026/2027年归母净利润分别为-6.1亿、-4.7亿、1.2亿美元,净亏损率持续收窄[36] - 2025年前三季度,AI原生产品与开放平台收入占比分别为71%和29%,毛利率分别为4.7%和69.4%[22] 市场地位与竞争优势 - 按2024年全球基于模型的收入计,MiniMax市占率为0.3%,在pureplay大模型技术公司中排名第四[14] - 公司核心模型MiniMax M2性能接近海外顶尖模型,其API定价仅为Claude 4.5 Sonnet的8%,推理速度接近其两倍[20] - 截至2025年第一季度,公司产品覆盖200多个国家和地区,累计触达超2亿个人用户,服务超10万家企业与开发者[17] - 2025年前三季度,公司AI原生产品平均MAU达2762万,付费用户数达177万;开放平台付费客户数为0.25万[25] 行业前景与估值 - 全球大模型市场规模预计从2024年的107亿美元增长至2029年的2065亿美元,复合年增长率达80.7%[12] - 报告给予MiniMax目标价620港元,基于2026年113倍市销率的估值,首次覆盖给予“增持”评级[38]
详细拆解Seedance2
2026-02-11 13:58
电话会议纪要分析 涉及的行业与公司 * **行业**:多模态人工智能(AIGC)、视频生成、算力基础设施、存储与网络、具身智能(自动驾驶、机器人)、短剧/漫剧/短视频内容创作、电商广告[1][9][10][11] * **公司**: * **国内**:字节跳动(CDS/CIDES 2.0、LLaMA生态、火山引擎)、极梦(JIMU)、可灵(Keling)、阿里巴巴(图像生成模型)、腾讯(混元3D模型)、Deepseek、GLM、MinMax、微度[1][2][5][6][7][11][14][17] * **国外**:谷歌(VIVO 3.1、Gemini、Nano Banana Pro)、OpenAI(Sora)、VO[1][2][5][7] 核心观点与论据 1. 国内多模态模型技术进展迅速,与海外差距缩小 * 国内多模态模型在技术和商业化方面取得显著进展[2] * 在物理规则理解方面,随着C端3.0版本发布,国内模型能力正在快速赶超海外水平[1][8] * 进展得益于国内数据产线、基础设施建设等生态系统的快速推进[1][8] * 国产多模态模型有望在未来1-2年内超越国外头部模型[8] 2. 主要模型技术架构与产品能力对比 * **字节跳动 CDS/CIDES 2.0**: * 采用**双分支 DIT (Diffusion Transformer)** 架构,创新在于视频和音频**同步生成**,而非分别生成再拼接[1][3] * 融合C位和Pixel Dance模型优点,提升音频定型和多运镜理解能力[1][4] * 产品能力:生成**10-15秒**高清原声视频;角色一致性出色;音画同步性及原声支持最强;多镜头叙事(智能分镜)能力突出;受益于字节跳动LLaMA生态系统,在提示词理解、可控性及后期编辑方面具有优势[1][5] * **谷歌 VIVO 3.1**: * 基于**Gemini Transformer**架构,结合**Latent Diffusion**方法进行3D空间理解[1][5] * 优势在于更好地解决角色一致性问题,在虚拟空间和现实世界理解方面有大量优化[1][5] * **可灵 3.0**: * 在动作流畅度(物理引擎)上有所优势[1][5] * **综合对比**: * CIDES 2.0与可灵3.0均支持1,080P高清,但风格各异[1][5] * 字节跳动凭借火山引擎等资源,成本控制较好,用户使用费用相对较低[5] 3. 商业化前景广阔,定价策略显现市场把握 * 多模态大模型未来商业化前景广阔,国内外主要企业均已推出产品并向C端开放[1][6] * **定价策略示例**:极梦会员包月**69元**,可灵会员包月**66元**,两者相差不大;但极梦提供阶梯会员服务,更高档次会员收费**499元/月**[1][6] * 定价策略显示出企业对市场需求的细致把握,以及通过规模效应降低成本、吸引用户并实现盈利的意图[6] * 将在**短剧、漫剧**等已有成熟盈利模式的领域继续拓展应用场景[6][9] 4. 国内外模型在关键性能指标上存在差异 * **生成速度**:国内极梦生成速度约为**60秒至80秒**;国外Sora和VO通常需要**100秒以上**[7] * **分辨率**:国内模型分辨率已达**2K**;国外模型仍停留在**1,080P**[1][7] * **生成时长**:国内单条视频最长可达**15秒**;国外为**25秒**[1][7] * 总体来看,国内模型在生成速度和分辨率等技术指标上具有一定优势[1][7] 5. 对算力、存储及基础设施产生巨大需求与影响 * C.3.0版本大规模应用将**显著增加算力需求**,推动OpenAI等公司加紧建设算力中心[3][11] * 未来几年内算力消耗将呈**指数级增长**,以满足全民级别使用廉价可达的多模态生成需求[3][11] * 这对于**存储、推理芯片以及云服务**相关企业是重要利好[3][11] * **Diffusion Transformer架构趋势**:参数量越来越大,但每次推理调用参数更少,使得未来在**端侧设备**(AI电脑、手机)本地部署成为可能,推动端侧推理设备和存算一体芯片发展[12] * 算力需求增长推动市场从千卡发展到**万卡甚至十万卡**级别,高性能网络连接和存储配置重要性提升[16] * 图像视频生成AI进步预计将导致**网络加速领域需求增加50%以上**,尤其在数据中心高速固点和高性能网络方面,2027年增长将非常显著[18] 6. 将重塑多个行业并催生新机会 * **直接影响行业**:**短视频、短剧、漫剧**(降低入行门槛,高效生产)、**电商和广告行业**(降低创意实现成本,打破传统生产模式)[9] * **积极影响领域**:**自动驾驶和机器人等具身智能场景**,多模态大模型能力提升将推动这些行业的数据采集与迭代,形成良性飞轮效应[10] * **物理世界数据**重要性将在2026年显著提升,带动相关基建投入,值得关注具身智能领域的数据基建公司[15] 7. 产业竞争格局:大厂未必完全垄断 * 大厂在算力、人力和数据量级上具有优势,但**不会完全垄断**所有AIGC产品市场[11] * 中小型公司可通过自训模型或接入大厂API保持竞争力,打出差异化[11] * 自训模型的中小公司未来融资压力可能更大,而直接接入大厂模型生态的小型企业可能迎来利好[11] * 目前市场上尚未出现像抖音那样压倒性的产品,各方都有机会[11] 8. 其他厂商进展与市场动态 * **阿里巴巴**:在多模态领域有扎实布局,最新图像生成模型可对标Nanbanana[14] * **腾讯**:整体技术实力有所落后,但其**混元3D模型**仍处于全球领先地位[14] * **创业公司**:如MinMax,在多模态方面表现出色,其语音生成和海螺等模型能力领先[14] * **市场期待**:GLM 5的架构(传言参考Deepseek);Deepseek新版本将重点优化agent能力和多模态能力,若成功可能取得市场领先[17] 其他重要内容 技术优化路径 * 提高生成效率方面,**模型架构优化**(基础层面,提升稀疏化、减少调用参数量)与**工程上的网络加速**(高性能计算资源利用)相结合才能达到最佳效果,但模型架构优化可能更为本质[3][19] * Deepseek和R1通过大量工程创新实现了显著的性能提升[3][19] 发展趋势总结 * 2026年,多模态AI模型及其商业化正在**明显加速发展**[20] * 国内外差距逐步缩小,技术进步将推动短剧、慢剧、广告等市场变革[20] * 今年,多模态AIGC产业有望迎来蓬勃发展,是值得重点关注的方向[20]
超越CLIP!北大开源细粒度视觉识别大模型,每类识别训练仅需4张图像
量子位· 2026-02-11 09:55
行业背景与问题 - 当前多模态大模型在复杂多模态任务上表现出色,但在细粒度视觉识别任务上明显落后于其所依赖的视觉编码器(如CLIP)[1] - 真实世界具有细粒度特性,对象包含极其丰富的类别层次,例如“飞机”大类可细分为“波音707”等上百种子类,民用飞机数据库收录全球固定翼飞机种类超过500种[3] - 细粒度视觉识别大模型旨在利用多模态大模型的丰富细粒度知识,突破传统方法在封闭域中识别有限类别的局限,实现开放域中任意类别的细粒度识别[5] - 多模态大模型的细粒度识别能力依赖大量训练数据,但细粒度标注数据收集难度高、成本大,无法满足大模型训练所需的数据规模,且在有限数据上训练后难以泛化到训练集外的子类别[5] 技术方案与创新 - 北京大学彭宇新教授团队提出了思维链推理增强的细粒度视觉识别大模型Fine-R1,通过思维链监督微调与三元组增强策略优化,提升模型运用已有知识推理未见子类别的能力[5] - Fine-R1构建包含两个主要步骤:1) 思维链监督微调,模拟人类思考过程,为模型快速构建推理能力;2) 三元组增强策略优化,通过引入正负样本提升模型对类内差异的鲁棒性和类间差异的辨识性[7] - 思维链监督微调基于Qwen2.5-VL-32B构建结构化思维链,将推理过程拆解为视觉分析、候选子类别生成、对比分析及最终预测四个步骤,并利用该数据对基础模型进行监督微调[8] - 三元组增强策略优化针对“类内差异大、类间差异小”的问题,为每张输入图像匹配同一子类别的正样本和外观相似但不同子类别的负样本,构成三元组进行类内与类间增强[8] - 类内增强利用输入图像及其正样本的思考轨迹,捕获更广泛的类内变化,当模型对两者产生不同预测时,奖励差异会促使模型仅关注判别性特征[8][10] - 类间增强通过最大化输入/正样本图像与负样本图像之间输出分布的KL散度,促进模型对来自不同子类别的相似图像生成不同响应,增强判别性[10][11] 性能表现与结果 - 在每类仅需4张训练图像的情况下,Fine-R1对训练集内外子类别的识别准确率均超越了OpenAI的CLIP、谷歌DeepMind的SigLIP等判别式模型[5] - 在6个权威细粒度图像分类数据集上的封闭式识别(多选题)结果显示,Fine-R1-7B模型在已见类别上的平均准确率达到91.71%,在未见类别上达到85.70%,总体平均为88.71%,显著优于对比模型[14][15] - 在开放式识别(问答题)任务中,Fine-R1-7B模型在已见类别上的平均准确率达到82.62%,在未见类别上达到66.97%,总体平均为74.80%,超越了主流的通用多模态大模型与推理大模型[16][17] - 实验分析表明,Fine-R1主要通过提升“模型运用细粒度子类别知识的能力”提高了识别准确率,而非优化视觉表征或增加知识储备[19] - 案例展示表明,Fine-R1能通过将思考过程拆分为视觉分析、候选子类别生成、对比分析、最终预测,利用知识逐步推理以准确识别细粒度子类别[21] 研究影响与资源 - 该研究相关论文已被ICLR 2026接收,并已开源[2] - 论文标题为“Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning”,论文、开源代码及模型地址均已公开[22] - 该研究展现了生成式多模态大模型在解决判别式任务上的巨大潜力[5]
中盛集团:首次覆盖云知声(09678)予“买入”评级 目标价750.58港元
智通财经网· 2026-02-09 11:06
核心财务预测与评级 - 预计公司2025至2027年营收分别为12.36亿元、19.23亿元、29.18亿元,对应增速分别为31.6%、55.6%、51.7% [1] - 预计公司将于2026年实现盈利 [1] - 基于大模型业务增长验证及医疗应用潜力,给予2026年25倍PS估值,目标价750.58港元,首次覆盖给予“买入”评级 [1] 公司技术定位与优势 - 公司是中国AGI技术先驱,较早实现深度学习语音技术产业化、多模态技术融合及大模型商业化落地 [2] - 已打造多模态大模型与专业行业大模型矩阵 [2] - 其自研医疗大模型UniGPT‑Med在MedBench4.0测评中,于医疗智能体、医疗大语言模型、医疗多模态大模型三个项目获得第一,幻觉率低于3% [2] 医疗业务壁垒与布局 - 通过医疗大模型与各类Agent切入诊疗核心场景,与北京协和、北京友谊、湖南湘雅等顶级三甲医院合作 [3] - 业务已覆盖全国40%的百强三甲医院 [3] - 垂直领域的海量专业数据资产构成核心竞争优势,并形成高效数据飞轮 [3] - 其优质海量数据在医保及商业健康险降费领域应用潜力巨大 [3] 商业化战略与平台 - 采用“MaaS+SaaS”双平台高低搭配战略加速商业化扩张 [4] - MaaS平台通过区域/行业大模型私有化部署,服务政府及大型企业等高端客户,搭建专属算力与知识底座 [4] - SaaS平台打造标准化场景应用,面向中小客户实现轻量化、规模化交付 [4] 智慧生活业务进展 - 交通领域:多模态交互方案已在厦门地铁、南宁火车东站、福州长乐机场等多地落地 [5] - 家电领域:与TCL、格力等龙头企业深度合作 [5] - 汽车领域:智慧座舱解决方案已广泛应用于上汽智己L6、吉利星瑞等主流车型 [5]
多模态大模型将为特定应用带来爆发式增长机会,软件ETF(159852)备受资金关注
新浪财经· 2026-02-06 11:06
板块与指数表现 - 2026年2月6日盘中,软件开发板块拉升翻红,中证软件服务指数下跌0.45% [1] - 成分股涨跌互现,中科星图、奇安信领涨1.27%,朗新科技上涨1.21%,石基信息领跌,卫宁健康、达梦数据跟跌 [1] 行业权重构成 - 截至2026年1月30日,中证软件服务指数前十大权重股合计占比60.27% [2] - 前十大权重股包括科大讯飞、金山办公、同花顺、恒生电子、指南针、三六零、深信服、拓维信息、润和软件、软通动力 [2] 科技巨头业绩与行业趋势 - 谷歌2025年第四季度财报显示,Google Cloud收入达176.64亿美元,同比增长48%,是驱动整体增长的核心引擎之一 [1] - Gemini App月活用户超7.5亿,AI模型深度融入搜索、YouTube及订阅服务等多元场景 [1] - 全球科技巨头正集体转向“云+AI”重资产模式,短期盈利承压背后是对AI商业化及算力网络的长期押注 [1] - 软件产业价值重心正加速从许可证销售向智能服务订阅与生态协同迁移 [1] 技术发展与投资机会 - 海外大模型技术快速迭代将持续为国内应用创新提供方向和催化剂 [1] - 多模态大模型的突破将极大拓宽应用边界,特别是在需要理解物理世界的场景 [1] - 应密切关注AI PC、AI手机等新型硬件入口的崛起,其软硬件一体的生态将为特定应用带来爆发式增长机会 [1] 相关投资工具 - 软件ETF(159852)跟踪中证软件服务指数,是掘金计算机软件行业的便利工具 [2] - 场外投资者可通过软件ETF联接基金(012620)布局AI软件投资机遇 [3]
锦秋被投生数科技完成超过6亿元人民币A+轮融资|Jinqiu Spotlight
锦秋集· 2026-02-05 12:33
融资与投资方 - 生数科技完成超过6亿元人民币A+轮融资 [2][6] - 本轮融资由中关村科学城公司和星连资本领投,万兴科技、视觉中国、拓尔思进行战略投资,原有股东启明创投、北京市人工智能产业投资基金等加码跟投 [6] - 锦秋基金是生数科技天使+轮独家投资方,于2023年年中投资,是其早期机构投资人 [3] 公司技术与模型能力 - 公司是全球最早研究多模态生成算法的团队之一,2022年9月提出U-ViT架构,比OpenAI的DiT架构早三个月 [7] - 2024年4月发布中国首个全面对标Sora的文生视频大模型Vidu,并于2024年7月全球上线 [7] - Vidu全球首创“参考生视频”技术,解决了商业级视频需求中的多主体连续一致性难题 [3][7] - 近期发布的Vidu Q3模型是全球首个“为剧而生”的视频模型,支持16秒声画同出、1080P高清画质、丰富的镜头语言、精准切镜、多国文字渲染和多语言输出 [7] - 在Artificial Analysis最新榜单中,Vidu Q3排名中国第一、全球第二,比肩xAI Grok,超越Runway Gen-4.5、Google Veo3.1和OpenAI Sora 2 [7] - Vidu在全球“商业内容生成级”模型中保持最快生成速度,较OpenAI Sora2快10倍,比Google Veo 3 Fast和Grok-imagine-video快2倍 [8] - 公司于2025年12月开源TurboDiffusion框架,在单张RTX 5090显卡上仅需1.9秒即可生成5秒视频,将视频生成效率提升100-200倍 [8] 商业化进展与市场地位 - 2025年公司实现用户和收入超10倍增长 [9] - 已构建Vidu MaaS、Vidu SaaS、Vidu Agent、Vidu APP的应用矩阵,用户和业务覆盖全球200多个国家和地区 [9] - Vidu已成为全球创作者、内容机构和企业首选用于商业内容创作的模型之一 [9] - 在影视行业,Vidu覆盖全行业超过九成的内容方、工具方与制作机构,合作客户包括索尼电影、腾讯动漫、阅文集团、央视动漫、爱奇艺等 [10] - 在互联网和智能硬件行业,客户涵盖字节跳动、三星、万兴科技、好未来、支付宝、荣耀等 [10] - 在广告行业,合作对象包括京东集团、阿里1688、亚马逊、美团、分众传媒、蓝色光标、欧莱雅、安踏等 [10] - 在游戏行业,已服务莉莉丝、三七互娱、海艺、贪玩游戏等企业 [10] - 在海外市场,受到Pollo AI、PhotoGrid、OpenArt、Hubx、Fal.ai等众多创作者及机构的采用 [10] 公司愿景与行业观点 - 公司CEO认为“参考生视频”是多模态变革的核心支点,公司追求的是回到落地应用的本质,而非单纯在模型参数、数据量或算法上的堆叠 [3] - 公司探索表明,中国团队有机会在这一轮AI内容革命中率先定义新的创作范式 [4] - 公司CEO认为多模态大模型会跨越式地成为新一代生产范式和核心生产力,重构全球内容的生产流程、生态关系和产业格局 [10] - 公司创始人认为多模态视频模型的上限无限大,不仅能应用于数字内容创作,更能够构建起理解真实世界规律的世界模型,端到端支持机器决策 [10]
专访王仲远:智源多模态大模型登上《自然》,背后有群年轻人
新京报· 2026-02-03 22:17
文章核心观点 - 智源人工智能研究院研发的多模态大模型Emu3在《自然》正刊发表,标志着公司在原始创新上取得里程碑式突破,并押注以自回归统一架构为核心的技术路线,该路线被认为具有架构极简、扩展潜力大和研发门槛低的优势,为人工智能迈向物理世界和具身智能提供了关键基础 [1][3][5] - 公司认为2025-2026年将是多模态模型实现重大突破并开始产业化的关键阶段,同时预判AI发展将从单智能体向多智能体协同演进,而世界模型和具身智能是未来的重要研究方向 [1][11] 技术路线与模型优势 - **技术战略选择**:公司在2024年初判断语言模型技术成熟,但人工智能发展远未到尽头,因此将多模态模型和具身智能列为未来重点科研方向,并选择了以视频为主进行训练的“终极技术路线” [2][3] - **核心架构优势**:Emu3采用极其简单、统一的架构,仅使用一个Transformer模型并遵循“预测下一个token”的基础学习原则,统一处理文本、图像、视频,避免了当前主流方案中组合不同模型带来的效率损耗和性能不稳定 [3] - **带来的益处**:这种统一路线带来了巨大的扩展潜力和更低的研发门槛,能够充分利用大语言模型的成熟基础设施,使能力随数据算力增长可预测地提升,同时降低了技术复杂性和成本,让更多研究者能参与前沿探索 [3] - **原生多模态能力**:模型从训练伊始就将多模态数据统一处理,能更深刻理解不同模态间的内在关联,并自然地完成图文并茂的教程等交错生成任务 [4] 模型迭代与性能提升 - **Emu3.5的升级**:后续版本Emu3.5在超过10万亿token的大规模多模态数据集上训练,视频数据训练时长从15年提升至790年,参数量从80亿(8B)上升至340亿(34B) [6] - **能力跃迁**:Emu3.5展示出通过长视频学习物理世界演变规律的能力,实现了从“预测下一个词或帧”到“预测下一个状态”的跃迁,能够对时空、因果关系进行初步模拟 [6] - **达到产品级**:Emu3.5相比Emu3各方面能力大幅提升,已从科研级系统达到产品级多模态模型系统 [6] 研发团队与人才理念 - **团队构成**:Emu3研发团队非常年轻,负责人当时仅29岁,体现了公司“青年人挑大梁”的核心理念,公司认为AI是年轻人的事业,年轻人是推动颠覆性创新的关键力量 [1][7] - **研发过程**:研发过程是一场“技术豪赌”,2024年初团队约五十人押注了与当时行业焦点(扩散模型和组合式架构)不同的自回归统一路线,并顶住了内外的质疑压力 [7][8] - **人才吸引与培养**:公司对人才不看资历和“帽子”,更看重“代表作”,如高影响力论文或开源项目,公司现有230名全职研究员,团队(包括实习生)约500人,研究员平均年龄仅30岁 [8] - **资源支持**:对于青年人才提出的、通过评估的项目,公司会直接给予大量算力和资金等充足资源支持,这些支持是青年学者在高校难以获得的 [9] 公司运营与体制机制 - **经费管理**:公司作为新型研发机构,实行科研经费“包干制”,科研经费的自主权和使用权完全在公司,除规定红线外,从立项到购买设备再到实施完全自主,类似企业化运作但无盈利压力 [9] - **机制优势**:这种体制机制创新使公司能敏锐捕捉AI发展趋势并早于其他机构进行先期布局,过往的成功案例也吸引了更多AI人才加入 [10] 行业趋势与未来展望 - **多模态发展阶段**:多模态模型正处于技术开始收敛的阶段,2025年和2026年将是其实现重大突破并开始逐步进入产业化的阶段 [1][11] - **智能体演进**:大语言模型已进入基座模型相对成熟、赋能千行百业的阶段,AI落地速度加快,并从单智能体向多智能体发展,多智能体通过协作能达到产品级落地效果 [11] - **前沿研究方向**:世界模型的研究和重大突破正在酝酿,但其定义和技术路线尚未收敛,而模型与硬件结合的具身智能虽然火热,但在稳定性、安全性、耐用性和高质量数据方面仍面临挑战,需要扎实解决 [11]
星宸科技:自研的端侧SoC芯片支持各类多模态大模型在端侧的本地化部署与流畅运行
证券日报网· 2026-02-03 18:45
公司产品与技术 - 公司自研了端侧SoC芯片,该芯片搭载了AI算力 [1] - 该芯片能够支持各类多模态大模型在端侧进行本地化部署与流畅运行 [1] 行业发展趋势 - 端侧AI芯片的发展是行业重要方向,旨在支持大模型在终端设备本地运行 [1]
DeepSeek之后,智源大模型登Nature:事关“世界模型”统治路线
36氪· 2026-02-02 08:22
核心观点 - 北京智源人工智能研究院研发的“悟界·Emu3”多模态大模型在《自然》正刊发表,这是中国首篇围绕多模态大模型路线的Nature论文,标志着中国在AI基础研究领域的原始创新获得国际顶级学术认可 [1] - 该模型的核心突破在于仅采用“预测下一个token”的自回归路线,实现了文本、图像和视频的统一学习与生成,其性能可与针对特定任务设计的专用模型相媲美,为构建统一、可扩展的多模态智能系统提供了新范式 [3][10] - 该技术路线因其架构极简,被认为具备强大的扩展潜力,能有效降低大模型研发门槛和成本,对推动原生多模态助手、世界模型及具身智能等产业发展具有重大意义 [4][34] 技术突破与架构创新 - **统一的技术路线**:Emu3开创性地仅采用“预测下一个token”的自回归路线,将图像、文本和视频统一离散化到同一表示空间,并联合训练单一的Transformer,实现了多模态的统一学习与生成 [10] - **极简的架构优势**:模型保留了Llama-2等大语言模型的解码器架构,主要修改在于扩展嵌入层以容纳离散视觉标记,这种极简架构简化了多模态AI设计,减少了研发复杂性和潜在错误 [4][35] - **框架核心组件**:包含五个紧密集成的组件:1)大型混合多模态训练数据集;2)统一的标记器(视觉分词器);3)基于Transformer的仅解码器架构;4)两阶段优化方案(预训练与后训练);5)高效的推理后端 [35][37] 模型性能表现 - **图像生成**:在MSCOCO-30K23等基准测试中,Emu3得分70.0,超越了SD-1.5(59.3)和SDXL(66.9)等扩散模型 [3][4] - **视觉语言理解**:在相关测评中得分62.1,略高于LLaVA-1.6(61.8) [3][4] - **视频生成**:在VBench评分中达81.0,超过Open-Sora-1.2(79.8) [3][4] - **综合竞争力**:在文生图任务上,其CLIP-I得分0.689,CLIP-T得分0.313,综合得分(Overall)0.66,与DALL-E 3(0.67)和FLUX.1(Dev)(0.66)等先进模型相当 [13][14] - **视频扩展能力**:可原生生成24帧/秒的5秒视频,并通过自回归方式预测未来帧进行扩展,在与其他视频扩散模型的对比中展现出强竞争力 [25][29][30] 研发历程与产业影响 - **研发背景与挑战**:项目于2024年2月由约50人团队立项,旨在验证自回归路线能否统一多模态,面临技术路径质疑、资源竞争及“多模态能否提升模型智能”等未定论的挑战 [8][12] - **持续迭代与升级**:“悟界·Emu”系列持续迭代,2024年10月发布的Emu3实现了统一多模态理解与生成;2025年10月发布的Emu3.5进一步升级为多模态世界模型,实现了从“预测下一个token”到“预测下一个状态”的能力跃迁 [6][34][42] - **对产业的影响**:模型发布两年多以来,已对多模态领域产生显著影响,推动了产业发展脉络,其极简统一的架构有望降低研发门槛和成本,具有重大的产业应用前景 [12][34] 机构背景与行业地位 - **智源研究院的贡献**:智源研究院自2018年创立以来,持续聚焦大模型原始创新,2021年发布中国首个大语言模型“悟道1.0”,被称为“大模型的黄埔军校” [40] - **开源开放理念**:智源始终坚持开源开放,已开源200多款模型,全球下载量超7.6亿次,并开源180多个数据集,下载量超500万次,有力促进了开源生态和产业链发展 [43] - **北京AI产业生态**:作为“大模型第一城”和“开源之都”,北京通过政策支持与扎实投入,培育了包括智源、智谱、百度、月之暗面等在内的领先AI机构,在AI基础研究领域展现出深远价值 [44][45]
格灵深瞳:2025年全年预计净亏损17,000万元—24,000万元
21世纪经济报道· 2026-01-30 17:16
核心财务表现 - 公司预计2025年度归属于母公司所有者的净利润为亏损,区间在-24,000万元到-17,000万元之间 [1] - 2025年度非经常性损益主要来源于持有的结构性存款和其他理财产品等交易性金融资产产生的投资收益及公允价值变动损益 [1] 业绩预亏原因分析 - 2025年是公司改革与稳健转型的关键之年,为巩固技术领先优势,公司持续围绕多模态大模型对重点领域进行研发投入 [1] - 报告期内,智慧金融领域客户预算因宏观经济环境等因素有所收紧 [1] - 公司与大客户中国农业银行股份有限公司的框架合同已于2025年9月到期,导致相关产品需求放缓 [1] 业务多元化进展 - 公司聚焦于市场开拓与业务多元化发展,重点深耕智慧金融、城市管理、政务及特种以及智慧教育领域 [1] - 公司在城市管理、政务及特种、智慧教育等其他领域的综合收入金额较上年有所增长,业务多元化取得初步进展 [1] - 市场拓展初显成效,且2024年11月收购深圳市国科亿道科技有限公司,本年度合并国科亿道进一步扩大了收入规模 [1] 战略与研发重点 - 公司着力提升商业落地能力并优化客户结构,围绕行业赛道重建销售团队 [1] - 公司开展符合国产信创标准的行业级大模型产品研发 [1] 收购影响与收入规模 - 国科亿道于2024年11月26日纳入公司合并范围 [1] - 公司2025年度合并报表中包含了国科亿道2025年全年营业收入,从而扩大了公司2025年度合并报表的收入规模 [1]