可灵 AI 图片 O1 模型
搜索文档
AI 系列跟踪(84):可灵 AI“全能灵感周”连续上新,Gemini 3 Deep Think 推理能力再进阶
长江证券· 2025-12-11 22:13
行业投资评级 - 投资评级为“看好”,并维持此评级 [9] 报告核心观点 - 报告核心观点是看好AI技术演进带来的投资机会,重点关注四个细分赛道:受益于多模态加速的AI漫剧赛道及优质IP、具备流量&模型&数据优势的互联网大厂、海外已跑通商业模式且国内有望复制的垂直赛道(如广告、电商、教育)、以及AI+游戏厂商 [2][9] 事件描述总结 - 2024年12月1日至5日,可灵AI连续5天上新,发布了视频O1模型、图片O1模型、音画同出模型可灵2.6、可灵数字人2.0,以及可灵O1“主体库”和“对比模版”功能 [2][6] - 2024年12月5日,谷歌的Gemini 3 Deep Think正式上线 [2][6] 产品与技术分析总结 - **可灵图片O1模型**:以“自然语言+图像”多模态描述为交互入口,核心优势包括:1)特征高度保持,支持多达10张参考图特征提取,在多图参考任务上与Nano Banana/即梦4.0的效果胜负比分别为174%/123% [9];2)精准响应文字指令修改;3)统一风格调性,适用于品牌视觉统一等场景 [9] - **可灵2.6音画同出模型**:首次实现“所见即所闻”,直接生成包含语音、音效、环境音的完整视频,支持文生音画和图生音画两种路径 [9];支持生成5秒或10秒视频,音频类型包括对话、对白、唱歌、Rap、环境音效等 [9];价格方面,高品质模式下生成10秒非音画同步/音画同步视频分别消耗50/100灵感值 [9] - **谷歌Gemini 3 Deep Think**:采用“并行推理”机制,擅长处理复杂数学、科学推理与逻辑问题 [9];在ARC-AGI-1测试(基础抽象推理能力测试)中成绩为87.5%,超越GPT-5、Claude Opus 4.5等模型 [9];在ARC-AGI-2测试(“类人智慧”高阶推理能力测试)中成绩为45.1%,大幅领先于GPT-5 Pro的18.3% [9];目前已向Google AI Ultra订阅用户开放 [9] 建议关注的细分赛道总结 - **AI漫剧与优质IP**:看好受益于多模态加速的AI漫剧赛道,关注工具型实力领先且AI能力持续迭代升级的快手等公司 [2][9] - **互联网大厂**:大厂具备流量分发、模型、数据等优势,聚焦to C AI Agent打造商业闭环,关注腾讯控股等 [2][9] - **垂直赛道复制**:关注海外已跑通商业模式,国内有望复制的广告、电商、教育等垂直赛道 [2][9] - **AI+游戏**:关注AI布局积极的巨人网络、恺英网络等游戏厂商 [2][9]