Workflow
多模态模型
icon
搜索文档
阿里发布千问3.5:性能媲美Gemini 3,Token价格仅为其1/18
新浪财经· 2026-02-16 17:13
阿里巴巴发布千问Qwen3.5-Plus大模型 - 阿里巴巴于2月16日(除夕)开源全新一代大模型千问Qwen3.5-Plus,宣布其性能媲美Gemini 3 Pro,并登顶全球最强开源模型 [1][4] - 该模型实现了底层模型架构的全面革新,从纯文本模型跃迁为原生多模态模型,基于视觉和文本混合token进行预训练 [1][4] 模型性能与效率 - Qwen3.5-Plus总参数为3970亿,激活参数仅170亿,性能超过万亿参数的Qwen3-Max模型 [1][4] - 部署显存占用降低60%,推理效率大幅提升,最大推理吞吐量可提升至19倍 [1][4] - 以不到40%的参数量获得了超万亿参数Qwen3-Max基座模型的顶尖性能 [1][4] 成本优势 - Qwen3.5-Plus的API价格低至每百万Token 0.8元,仅为Gemini 3 Pro价格的1/18 [1][4] 技术升级与数据增强 - 相比千问3的纯文本预训练,千问3.5大幅新增了中英文、多语言、STEM和推理等数据 [1][4] - 技术升级使模型学会了更密集的世界知识和推理逻辑 [1][4] 基准评测表现 - 在MMLU-Pro知识推理评测中得分87.8分,超越GPT-5.2 [2][5] - 在博士级难题GPQA测评中斩获88.4分,高于Claude 4.5 [2][5] - 在指令遵循IFBench以76.5分刷新所有模型纪录 [2][5] - 在通用Agent评测BFCL-V4、搜索Agent评测Browsecomp等基准中,表现均超越Gemini 3 Pro和GPT-5.2 [2][5] - 在推理、编程、Agent智能体等全方位基准评估中均表现优异 [1][4]
这个春节,字节跳动杀疯了!Seedance2.0、豆包2.0接连问世,一文全看懂
搜狐财经· 2026-02-14 22:21
豆包2.0大模型系列发布概览 - 字节跳动发布豆包大模型2.0系列,包括Pro、Lite、Mini三款多模态通用模型及面向开发者的Code模型,以满足不同场景对延迟和成本的需求[4] - 该系列模型是支撑此前现象级产品Seedance2.0和Seedream模型的底层基座模型,完成了字节豆包大模型家族的布局[4][5] - 豆包2.0的价格仅为Gemini 3 Pro的四分之一,同时具备顶级的多模态理解和推理能力[3] 模型核心特点与能力 - 豆包2.0采用大一统的多模态原生框架,所有模态从训练初期就整合在一起,并原生支持多模态推理和Agent能力[10] - 模型视觉与多模态理解能力提升,针对易产生幻觉的场景进行优化,并增强了复杂指令执行、记忆、搜索及知识能力[9] - 模型展现出在复杂计算领域进行严格问题求解的能力,在处理真实复杂代码生成任务时,其解决方案策略不同于评测基准的官方参考实现[10] - 在基于视觉的推理能力上,豆包2.0展示出对GUI操作界面的强理解和推理能力,以及增强的实时反思能力,例如能完成高噪音的freeCAD环境中的语义GUI理解任务[10] 产品策略与市场反响 - 豆包模型系列的核心策略是解决真实世界问题,通过火山引擎、豆包App等与模型彻底连通,让真实用户需求直接影响基础模型的训练方向和标准[7][8] - 与以往模型发布不同,豆包系列未过度强调榜单排名,而是以被广泛、高频使用的形式流行,用户更关注其解决实际需求的产品体验而非技术指标[6] - Seedance2.0的成功部分源于豆包2.0基座模型提供的“参考”能力,该能力已进入风格层面,这是单纯视频模态模型无法具备的[12] - 豆包App作为国民级产品,其模型更新意味着为数亿活跃用户提供服务,这使得豆包系列成为少数直接面对海量真实用户进行训练和优化的模型[14][15] 技术基础设施与研发路径 - 字节跳动选择关键技术全自研、模型闭源、产品与研发全面打通的路线,与Google的路径相似[17] - 火山引擎作为模型对外的统一出口,其模型策略团队负责收集和抽象市场需求,并直接反馈至模型研发方向,确保以真实业务价值衡量模型能力[17] - 近期Seedance2.0等模型需求暴增,给火山引擎的算力基础设施带来巨大压力和更高要求,同时这一过程积累的真实经验也反向提升了模型训练的token利用率和算力效率[17] - 公司内部评估体系基于真实世界任务构建,并为此类工作分配了充足的算力资源,这是实现端到端任务的关键[9] 行业定位与战略意义 - 豆包2.0的发布被视为字节跳动的“Gemini 3时刻”,意味着其坚持的闭源、与规模化真实应用结合的路线正迎来证明时刻[19][20] - 与Google类似,字节将AI核心技术长在以AI为核心的机器学习平台和云服务上,再将“豆包同款”能力细化为产品提供给外界[18] - 豆包系列模型没有专注于“屠榜”顶尖任务,而是致力于在多模态智能维度扩展与处理广泛基础需求的能力之间寻找平衡[14] - 公司非常重视模型在基础科学任务中的表现,如数学猜想、广义相对论、量子编译器调试和计算化学等,以训练其理解抽象概念和发现并修复真实漏洞的能力[13][14]
Seedance 2.0全量上线,字节正式加入春节模型大战
36氪· 2026-02-12 17:53
核心观点 - 字节跳动提前发布其多模态视频生成模型Seedance 2.0,正式加入春节期间的AI模型竞争,该模型在多项基准测试中表现领先,并增强了在影视、广告等领域的应用潜力 [1][2][16] 产品发布与规划 - 公司原计划于2月14日发布Seedance 2.0、图像创作模型Seedream 5.0 Preview及豆包大模型2.0,但Seedance 2.0已提前亮相 [2] - 模型已整合至即梦APP端和PC端,但两端功能存在差异,移动端“出镜”功能默认采用Seedance 2.0,而PC端用户可在“全能参考”和“首尾帧”入口使用该模型 [10][11][14] 技术架构与核心能力 - Seedance 2.0采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入 [2] - 模型支持混合模态输入,允许用户同时输入多达9张图片、3段视频、3段音频以及自然语言指令 [3] - 核心能力包括解决物理规律遵循和长效一致性难题,依靠海量世界知识、稀疏架构效能优势及多模态联合训练的泛化能力 [6] - 模型具备视频编辑能力,支持对指定片段、角色、动作或剧情进行定向修改 [8] 性能表现与行业对比 - 在文生视频和图生视频覆盖的运动稳定性、指令遵循、音画同步等基准测试维度上,大幅领先于OpenAI的Sora 2 Pro、快手可灵3.0等产品 [16] - 在多模态任务方面,与生数的Vidu Q2 Pro、快手的可灵3.0相比,Seedance 2.0在提示词指令遵循、多模态遵循两个维度表现最为突出,在编辑一致性、参考对齐和动态质量上也处于行业第一梯队 [17] - 模型在多模态任务处理上指令响应更完整,生成画面更真实,在主体形象与声音还原方面表现较好 [18] 产品功能与应用 - 模型集成了业界最全面的多模态内容参考和编辑能力,用户可在交互界面选择“全能参考”生成模式,并使用@符号在提示词中标记参考图以保证生成一致性 [2][4] - 模型最长支持15秒的多镜头视频生成,旨在增加在影视、广告等领域的可用性,以降低内容制作成本 [9] - 移动端创作功能提供了Seedance 2.0 fast以及之前的模型,其中S2.0 Fast被描述为高性价比,支持音、视、文、图参考(暂不支持真人人脸) [11][12] 用户体验与现状 - 根据实测,生成一段5秒钟的视频需要扣除40个点数,由于大量用户排队,预计生成时间为2小时,系统提供免费加速2次的机会 [4] - 受限于版权等原因,一些名人相关的图片已无法用于生成内容 [4] - 公司承认模型仍需持续改善细节稳定性、拟真度以及多人口型匹配等问题,并在多主体一致性、文字还原精度及复杂编辑效果上有优化空间 [16][18]
AI产品测评体验系列报告:多模态模型迎来Deepseek时刻,供给革命将重新定义内容创作范式
华创证券· 2026-02-12 12:16
报告行业投资评级 - 行业投资评级:推荐(维持)[3] 报告核心观点 - 多模态模型迎来“Deepseek时刻”,供给革命将重新定义内容创作范式[3] - AI视频生成正在从盲盒式娱乐向精准工业化生产跨越,技术跨越使得AI视频正式具备了进入规模化B端工作流的基础[8] - 供给侧革命将重塑内容成本结构,内容生产的边际成本趋向于算力成本[8] - 看好视频生成技术显著降低视频生产门槛,提升成片率与稳定性,将直接催化下游内容IP方、内容版权、AI应用工具等,并拉动云服务与算力需求[8] 多模态模型年初迎来重磅更新,视频生成模型迈入高精度、高可控阶段 - 2026年1月31日,快手发布新一代视频生成模型可灵(Kling)3.0系列,涵盖图片3.0、视频3.0以及视频/图片一体化的Omni模式,在模型精度、主体一致性、复杂指令理解及视频编辑能力等方面进行了系统性升级[11] - 2026年2月6日,字节跳动发布新一代视频生成模型Seedance 2.0,在基础层面显著增强,物理规律更合理、动作表现更自然流畅、指令理解更精准、风格保持更稳定[11] - 2026年2月10日,字节与阿里同步更新图像生成基模,字节发布图像生成模型Seedream 5.0,阿里发布新一代图像生成及编辑模型Qwen-Image-2.0[11] - 全球多模态模型竞争激烈,截至2026年2月11日,根据Artificial Analysis模型排名,文生图和文生视频模型排名前列被谷歌和OpenAI占据,随着国内厂商新版本发布,有望看到排名提升[12] 可灵3.0:深耕物理拟真与长逻辑叙事 - **基础模型更新**:可灵3.0在视频生成质量和可控性方面重点优化,主要体现在主体一致性与连续性提升、复杂文本指令理解能力增强、实现文本与视觉角色的精准映射[16] - 视频3.0在人物、物体等主体的跨镜头一致性方面进行了重点优化,主体外观和行为稳定性显著增强[17] - 对文本提示词的解析更加细致,能更准确理解包含场景描述、动作顺序、情绪氛围等在内的复杂指令[17] - 在多人同框场景能够解决指代混乱难题,支持多语种及地道方言和口音的演绎,口型与神态自然流畅[19] - **图片模型升级**:围绕图像生成精度、一致性以及可控性展开,核心包括一致性强化升级、自由多参考图、全面效果升级[22] - 图片3.0支持最多10张参考图,可精准锁定各图的主体轮廓、核心元素与色调基调,实现高精度视觉一致性还原[22] - 融合风格转绘、人像参考、角色参考、多图融合、局部重绘等功能,实现无限制自由使用参考图[27] - 人像真实感全面升级,神态灵动自然,皮肤肌理等细节刻画更细腻,叠加电影级色调,整体画面元素细节更丰富[28] - **Omni一体化编辑能力**:推出生成和编辑一体化能力(Omni模式),可在已生成内容基础上对局部进行可控修改,无需反复生成完整内容[29] - 视频3.0 Omni相比O1,主体相似度进一步提升,对文本指令的响应敏锐度大幅跃升,画面更少崩坏,整体更可控、更灵动[29] - 支持创建视频主体,模型可提取核心角色特征与原声音色,完美还原角色的样貌、身形、神韵,实现精准口型匹配与神韵驱动[32] - 引入原生自定义分镜能力,并将单次生成时长提升至15秒,可进行镜头级别的精确掌控[32] - 图片3.0 Omni模式支持对已生成图像进行局部内容的新增、替换、删除等操作,保持整体风格一致[33] - 支持批量组图输出,围绕同一语义提示批量生成相关图像组,每张图像在构图、色调与主体表现上具备较强的内部一致性[36] - 强化影视级叙事画面表达,严格遵循影视镜头语言,精准把控画面构图、视角逻辑与创作预期的契合度[37] - 支持更高分辨率输出,在细节、光影、结构一致性层面提升控制力[39] Seedance 2.0:定义工业级精准控制标准 - **基础模型更新**:在基础层面显著增强,主要体现在一致性提升、高难度/可控的运镜和动作的精准复刻、创意模版/复杂特效的精准复刻[41] - 优化创作中常见的“一致性”问题,如画面中的物体出现变现、商品细节丢失、字体模糊、场景跳变等,新版本模型的整体一致性更稳、更准[50] - 支持高难度/可控的运镜和动作精准复刻,只需少量细节提示词或上传一段参考视频即可模仿电影里的走位、运镜或者复杂动作[44] - **定义多模态交互新范式**:AI视频生成正在从“开盲盒”向“精准工业化控制”跨越[48] - 可通过“@素材名”的方式指定每个图片、视频、音频的用途,模型可以精准提取@视频的运镜、@图片的细节或@音频的节奏,这种全新交互范式将大幅降低专业创作者的“废片率”[48] - 支持「首尾帧」和「全能参考」入口,支持上传文本、图片、视频、音频等多模态素材组合输入[53] 可操作性优化拓宽应用边界 - 本次更新后可灵和即梦视频和图片模型在语言理解能力和分镜能力提升明显[54] - 语言理解能力:对中文提示词的理解非常精准,能够细腻捕捉复杂的修辞和意境[54] - 分镜能力:在镜头平滑度、运动幅度及运镜逻辑上表现卓越,能够实现优秀的动态效果[54] - 精度的提升使得应用场景从单纯的娱乐内容向商业广告、电商营销、专业短剧预演等垂直领域扩充[54] - 应用场景的边际拓展将显著拉动积分消耗(API调用量)及付费订阅渗透率,从而带动整体货币化率持续走高[54] 产品格局与商业化推演 - **产品格局推演**:国内大厂的视频产品路径分化,字节走“效率基建”,快手走“专业叙事”[8] - 字节(即梦)沿袭超级APP逻辑,利用原生架构的通用性,旨在打造低门槛、低成本的视频生态基建[8] - 快手可灵强化物理模拟,壁垒在于复杂场景的真实感与角色一致性,更适合影视Demo、电影剧情等对连贯性要求高的专业内容[8] - 阿里千问更擅长垂直场景(电商),通过图像模型的高保真更新,强化在商品数字化的护城河[8] - **商业化推演**: - 短期看:营销/电商服务商的素材产出效率提升将带来毛利改善;漫剧、短剧行业或将迎来产能爆发[8][57] - 中长期:IP的稀缺性会进一步放大,头部IP及其衍生品的价值很高,腰部IP也能通过AI视频化实现价值重估[8][57] - 拥有强算力基础设施(云)和闭环流量场景(平台)的巨头或也将吃到技术红利[8][57] 投资机会梳理 - 视频生成技术显著降低视频生产门槛,提升成片率与稳定性,将直接催化至下游内容IP方、内容版权、AI应用工具等,视频模型在推理侧频繁调用形成对云服务与算力需求的拉动[58] - **建议关注**: - 内容IP:中文在线、阅文集团、上海电影、掌阅科技、欢瑞世纪等[58] - 内容版权:阜博集团、捷成股份、华策影视、视觉中国等[58] - AI视频制作工具/模型:中文在线、掌阅科技、万兴科技、美图、快手、Minimax[58] - 互联网平台/AI云服务:阿里巴巴、腾讯、百度、金山云等[59]
春节文娱+AI赋能,传媒板块全线爆发,关注游戏ETF(516010)、影视ETF(516620)
每日经济新闻· 2026-02-11 09:28
传媒板块行情核心驱动 - 2月10日,传媒板块全线爆发,游戏ETF(516010)涨超5%,影视ETF(516620)盘中一度涨停[1] - 行情核心驱动力为春节文娱消费预期升温叠加AI视频大模型催化[1] AI视频大模型的行业影响 - AI视频大模型催化下,影视漫剧直接受益,游戏中长期受益[3] - 字节Seedance 2.0上线即梦平台,可基于提示词自动规划分镜运镜并搭配声效,实现接近“真假难辨”的电影级输出[3] - 多模态模型对影视尤其AI漫剧已能直接赋能,漫剧对生成质量要求较低且商业化基本成熟[3] - 多家头部平台推出漫剧独立APP并升级分账扶持,制作公司利润空间有望增厚[3] - 多模态模型应用于游戏技术层面尚未完全到位,但中长期是重要受益方向[3] - AI视频能力已达极高水平,后续可能进一步规范调整,AI视频内容审核需求也有望随之放量[3] 影视行业现状与短期风险 - 2026年史上最长春节档票房预期向好[3] - 影视ETF(516620)近两日累计涨幅超15%,上涨斜率甚至超过2025年哪吒春节档票房大超预期后的节后行情[3] - 影视板块预期已有过度透支倾向,短期需关注预期修正带来的回调风险[3] 游戏行业投资逻辑与配置价值 - 综合估值性价比与催化节奏,当前时点更建议重点关注游戏ETF(516010)的配置价值[4] - 游戏板块具备估值尚处低位、春节旺季催化在即、2026年“产品大年”逻辑清晰三重优势[4] - 当前游戏板块核心公司PE估值未突破2025年和2026年两个前高,在所有成长板块中性价比较高[4] - 前期涨幅相对滞后,主因今年春节时间较晚、年轻人放假节奏靠后,游戏流水旺季启动相应延迟,安全边际反而更足[4] 游戏行业基本面与催化剂 - 2025年国内游戏市场销售收入首次突破3500亿元,同比增长7.68%[4] - 2025年全年发放版号1771款,创近七年新高[4] - 充足的版号储备为2026年产品大年奠定基础,据统计仅明确计划上线的新游就超25款,且多集中在一季度[4] - 2026年春节档为历史最长春节档,众多厂商备货充足,游戏行业有望正式开启旺季[4] - 产品端催化密集,《异环》三测留存和付费率数据好于预期[4] - 游戏科学发布《黑神话:钟馗》6分钟实机短片,再次拉升市场对国产3A大作的期待[4] - 游戏板块当前呈现估值性价比高、产品大年、春节旺季三重共振[5]
中信建投:多模态模型能力跃升 AI漫剧行业迎来战略机遇期
智通财经网· 2026-02-11 07:59
文章核心观点 字节跳动发布Seedance 2.0视频模型,多模态模型能力跃升,有望革新影视赛道,AI漫剧行业迎来战略机遇期,行业高增长且被大模型替代风险小,平台竞争激烈为制作公司带来利润空间 [1][4] 大模型技术迭代与行业影响 - 谷歌DeepMind于1月30日首次开放Genie3世界生成模型,用户可通过文本指令生成最长1分钟的可交互视频内容,短期有望重塑影视行业,长期有望重塑游戏行业 [2] - 字节跳动2月上线视频生成模型Seedance 2.0,可根据文本或图像创建电影级视频,支持自动规划分镜运镜、音画同步及多镜头叙事,能自动保持角色、视觉风格和氛围的一致性,适合创建完整、连贯的专业叙事序列 [4] - 大模型升级利好AI漫剧和AI互动剧,AI漫剧制作公司作为视频大模型的纯下游应用方和重要客户,被大模型替代的风险较小 [4] AI漫剧行业现状与增长动力 - 进入2026年,AI短剧继续高速增长,爆款数量大幅增加,2026年1月AI短剧单月播放增量超49.73亿,是2025年11月27.77亿播放增量的近2倍 [1] - 2026年1月日上新数量最高接近300部,当月有13部播放量过亿的AI短剧,大幅超过2025年10月的5部和11月的1部 [1] - 预计2025年漫剧市场规模接近200亿元,预计2026年将继续保持高速增长,快速缩短与短剧市场约670亿元的规模差距 [1] - 漫剧创作全流程已深度应用各类AI工具,动画生成环节主流工具包括字节跳动的即梦、快手的可灵、Runway等 [4] - 头部漫剧公司月产能已超百部且持续增长,以酱油动画为例,2025年12月人员规模超1000人,月产能达100-150部,较年中翻倍,预计人员规模有望扩充至2000-3000人 [8] 漫剧创作的Token需求与模型公司支持 - 漫剧创作各环节均需消耗token,其中动画/视频创作环节占总token消耗量的90% [5] - 根据不同漫剧类型,AI漫剧每分钟消耗的token在50万到数百万不等,单部漫剧创作需要消耗过亿token [1] - 视频生成token消耗量计算公式为:(宽度像素 × 高度像素 × 帧率 × 秒数时长) ÷ 1024 [7] - 动态漫常用720p分辨率(1280×720)、15fps低帧率,对于静态漫转动态漫、沙雕漫等,每分钟视频生成需约50万token,高品质AI动态漫每分钟需消耗数百万token,创作一部普通动态漫通常需消耗上亿token [7] - 大模型公司对漫剧行业给予各项倾斜和扶持,为行业带来战略机遇期 [1] 产业链布局与平台竞争 - 自2025年下半年,网文IP公司、出品公司、视频平台等漫剧全产业链参与方加速布局,投入持续增加 [11] - 上游网文IP公司双线布局:一方面直接下场利用网文资源参与创作;另一方面向第三方制作公司开放版权库 [11] - 中游出品公司中,众多短剧公司在2025年上半年切入漫剧赛道,下半年稳步扩大生产能力,从供给端驱动市场快速增长 [11] - 下游视频平台竞争激烈,抖音、腾讯视频、爱奇艺等长中短视频平台不断升级针对漫剧的流量扶持、分账比例等政策 [11] - 视频平台通过算法分发给予漫剧更多曝光,推动需求端快速增长 [11] - 平台相继推出独立频道或APP,如爱奇艺、优酷增加“漫剧”独立频道;腾讯、字节跳动、百度等发布漫剧独立APP(如腾讯的“火龙漫剧”、字节的“红果免费漫剧”、百度的“柚漫剧”和“七猫漫剧”) [12][13] - 据QuestMobile,2025年12月字节跳动的红果免费短剧的MAU为854万 [13] 平台扶持政策与制作公司利润空间 - 视频平台在漫剧行业发展早期的流量竞争激烈,对出品合作方的优惠力度极大 [14] - 分账比例方面,部分平台基于独家新片的会员激励分成比例最高可达100% [14] - 抖音、快手、腾讯视频、爱奇艺、优酷等平台均发布了持续升级的漫剧激励政策,涵盖保底激励、原创IP激励、分账比例提升等 [15] - 例如爱奇艺针对漫画与短剧结合的“漫剧”品类,独家首发内容的分账比例高达100% [15] - 伴随着更高的资金奖励、更优惠的分账比例、更多的流量扶持,上游和中游公司有望享受平台竞争带来的流量红利期,释放更多利润 [14] 行业重要参与者与项目 - 央视推出国家级AI漫剧项目,包括《中国AI漫剧大会》、《CMG首届中国AI漫剧之夜》及首部精品AI漫剧《山海经之破混沌记》 [17] - 2025年,多家上市公司在漫剧行业表现亮眼,据短剧自习室统计,2025年抖音漫剧累计播放量最高的制作公司中,阅文集团投资的酱油文化位列第2,中文在线第6,阅文集团自有漫剧、掌阅科技位列第23和24 [20] - 2026年1月以来,众多上市公司加速漫剧布局 [20]
粤开市场日报-20260210-20260210
粤开证券· 2026-02-10 16:00
核心观点 - 报告为2026年2月10日的市场日报,核心内容是对当日A股市场表现进行回顾,指出主要股指多数上涨,但市场呈现结构性分化,传媒、科技相关概念板块表现强势,而房地产、消费等板块则出现回调 [1][8][10] 市场回顾:主要指数表现 - 截至收盘,上证指数上涨0.13%,收于4128.37点;深证成指上涨0.02%,收于14210.63点;创业板指下跌0.37%,收于3320.54点;科创50指数上涨0.91%,收于1471.50点 [1] - 市场整体呈现涨少跌多格局,全市场2129只个股上涨,3122只个股下跌,159只个股收平 [1] - 沪深两市合计成交额为21055亿元,较前一交易日减少1439亿元 [1] 市场回顾:行业板块表现 - 申万一级行业中涨跌参半,传媒板块涨幅居首,达4.27%;综合板块上涨2.15%;家用电器板块上涨1.11% [1][10] - 跌幅靠前的板块包括房地产(下跌1.40%)、食品饮料(下跌1.31%)和商贸零售(下跌0.87%) [1][10] 市场回顾:概念板块表现 - 涨幅居前的概念板块包括谷子经济、短剧游戏、中文语料库、虚拟人、文化传媒主题、Kimi、网红经济、AIGC、网络游戏、多模态模型、WEB3.0、数据要素、抖音豆包、DeepSeek、稀土 [2][11] - 出现回调的概念板块包括BC电池、硅能源、白酒 [11]
一个大脑搞定所有模态,百度ERNIE 5.0技术报告公布
量子位· 2026-02-10 13:33
核心观点 - ERNIE 5.0是一个采用万亿参数超大规模稀疏MoE架构的统一自回归多模态模型,在推理时仅激活不到3%的参数,并在多项基准测试中取得领先成绩 [3][4] 核心架构创新 - 采用模态无关的专家路由机制,打破传统模型按模态分治的壁垒,不预先为数据标注模态标签 [7] - 构建共享专家池,让所有模态的数据在统一的巨大参数网络中流动 [8] - 基于统一Token表征进行专家调度决策,无论输入何种模态,都能转化为统一格式并匹配最合适的专家 [10][11] - 训练中涌现出专家专业化现象,在没有人工指令的情况下,专家自发分化为视觉、文本逻辑及跨模态对齐等不同角色 [12][13] 训练范式创新 - 首创弹性训练范式,通过构建超大超网络,仅需一次预训练即可通过权重共享抽取出一整套不同规格的子模型矩阵,实现零样本抽取 [15][16][20] - 引入弹性深度机制,训练中采用类似层丢弃的策略,随机跳过部分Transformer层,使浅层网络也能独立承担计算任务 [17] - 支持弹性宽度与稀疏度调节,可动态裁剪专家池总容量及调整每次推理激活的专家数,在万亿全量与轻量化部署间取得平衡 [18] 后训练优化技术 - 实施统一多模态强化学习策略,将逻辑推理、指令跟随与多模态生成任务纳入同一强化学习流水线进行协同优化 [21] - 引入无偏重放缓存技术,通过严格数据排序约束解决不同长度任务带来的计算负载不均问题,提升训练吞吐量 [21] - 应用多粒度重要性采样剪裁与已掌握样本掩码机制,抑制训练初期的熵崩塌现象,确保策略更新稳健性 [23] - 采用自适应提示强化学习,在训练初期注入“思维骨架”作为引导信号,并随训练进度逐步退火,以解决奖励稀疏的困难任务 [23] 性能表现 - 在VBench视频语义评分中取得83.40分 [4] - 在AISHELL-1语音识别任务中,字错率低至0.31% [4] - 在MATH推理任务中得分73.89 [4]
AI势不可挡:2026年模型升级有哪些预期差?
2026-02-10 11:24
纪要涉及的行业或公司 * AI(人工智能)行业,特别是大模型、多模态模型、世界模型(具身智能)及AI应用领域 [1] * 提及的海外公司:谷歌 [11] * 提及的中国公司:阿里巴巴、腾讯、字节跳动 [11] * 提及的行业:短剧、漫剧(文生视频应用)[8],医疗、司法、企业服务(To B高价值场景)[11],税务、工业、企业级服务(国内看好的To B方向)[12],IP、工具、内容分发(文生视频配套产业)[13] * 提及的产业链环节:AI算力、AI芯片、CPU、存储 [13][14] 核心观点和论据 AI模型技术演进路径与确定性提升 * 模型是AI产业的核心驱动力,2026年模型升级的原有范式(预训练)将继续向上,同时模型与场景融合将加速 [1] * 模型演进历程:2018年Transformer架构出现 -> 2022年ChatGPT引爆市场 -> 2023-2024年通过扩大参数量提升智力 -> 2024-2025年后训练(如指令微调、思维链)兴起,使模型更拟人化 -> 2024年后从文本向多模态演进 [2] * 2026年模型将迎来“世界模型”的新变革,对应未来物理AI(如机器人、具身智能)市场 [3] * 模型能力量化:当前文本模型平均分约80分,原生多模态模型综合能力约30-40分,未来多模态能力有望提升至80分 [3] * 模型每一次大规模商业化层级的开启(如文本、多模态、物理世界模型),都会带来10倍甚至更大的市场增量 [4] * 2025年4月AI行情调整主因是预训练数据遇到瓶颈,但后训练新范式(如post training, IL, COT)为AI发展续命 [5] AI商业化落地加速与关键场景 * 2026年AGI(通用人工智能)行业将进入“与环境交互”的年份,更复杂、高价值的场景将被开启,AI将进入“A进程元年” [7] * 过去制约AI的最大核心问题“如何落地和变现”将在2026年得到明晰答案,AI应用将迎来规模化、商业化爆发 [8] * **文本模态**:Coding(编程)场景因AI的泛化能力,已进化为可落地的变现应用,开启了市场对AI商业化的信心 [6] * **多模态(文生视频)**:2026年文生视频模型将迈入生产力工具阶段,开启多模态变现开端,复刻2025年Coding场景的商业化路径 [8][9][10] * 论据1:文生视频的时长和质量将迎来较大提升,从15秒向30秒甚至40秒迈进 [9] * 论据2:文生视频的编辑可操控性将因多模态模型对物理世界规则理解的加深而大幅提升 [9] * **To B高价值场景**:2026年海外医疗、司法、企业服务等场景将迎来大规模落地 [11] * 落地快的场景需具备条件:较好的数字化基础、明确的规则、高人力成本 [12] * 国内看好方向:税务、工业、企业级服务 [12] 投资建议与看好的方向 * **应用侧**: * **AI入口重构**:未来2-3年是AI to B/to C入口重构的黄金变革期,看好有模型云及入口先发优势的厂商,如谷歌、阿里巴巴、腾讯、字节跳动 [11] * **To B高价值场景**:看好医疗、司法、企业服务(海外),以及税务、工业、企业级服务(国内) [11][12] * **AI+视频**:文生视频将迎来商业化元年,带动从IP、工具到内容分发的配套产业链变革,大幅降低内容供给门槛,引发内容爆发 [13] * **算力侧**: * **AI算力**:应用推理开启后,推理需求可能是训练需求的3倍甚至10倍以上,将带动算力需求大幅增长 [13] * **CPU及存储**:未来在训练和推理范式上,CPU、AI芯片及存储环节将出现大规模新兴变化,建议积极关注 [14] 其他重要但可能被忽略的内容 * 分析师认为近期AI产业调整主因是:需求侧落地未见明显加速,以及海外宏观波动放大了AI板块的波动 [1] * 分析师所在机构(长江证券)联合长电科技举办了本次AI主题汇报 [14] * 分析师建议投资者不要因短期波动而丧失对AI产业长期进展的信心 [14]
seedance2.0火爆多模态能力提升百花齐放,内容IP漫剧短剧下游受益
2026-02-10 11:24
纪要涉及的行业或公司 * **行业**:多模态AI视频生成模型、AI漫剧(AI生成动画短剧)、影视娱乐内容制作、真人短剧[1][15] * **公司**: * **多模态模型公司**:字节跳动(即梦/CDS 2.0)、快手(可灵/K3.0)、阿里巴巴(万象)、智谱AI(Ashville Dominus Max)[1][11][13] * **AI漫剧出品/布局公司**:中文在线、掌阅科技、阅文集团、荣信文化、南方传媒、欢瑞世纪、网易(旗下工作室如奶酪星球、羚羊、樱桃派对)、酱油文化(阅文投资)[26][27][28][29] 核心观点和论据 * **多模态模型能力显著提升,将重塑影视制作工作流** * 字节CDS 2.0和可灵3.0在影视制作能力上有显著提升[2] * 能力提升体现在:1) 对多模态(文本、视频、图片、声音)的理解和跨模态联系建立能力增强[2];2) 跨模态逻辑推理能力增强,更遵循物理规律[2];3) 支持智能分镜规划、音画同步生成、多主体控制与一致性保持、视频平滑延长与编辑(如角色更替)[2][3];4) 参考能力提升,能精准还原参考素材的构图、主体细节、动作、创意特效和风格[3][4];5) 抽卡成功率从行业平均约20%提升至90%以上,降低制作成本和时间[4][5];6) 可灵3.0分辨率提升至4K电影级,支持组图生成[6] * 模型能力已强到需进行合规限制(如禁止上传真人图像生成视频),侧面印证其生成内容真实性高[7][8] * 能力提升的核心驱动力在于:1) 对训练素材进行了更细颗粒度的拆解和信息提取(如一帧画面标注6-8个主题,此前为3-4个)[8][9][10];2) 底层基础能力与强化学习训练能力提升[9][10] * 多模态工具应用场景广阔,包括影视、漫剧、短剧、中剧制作,以及To B的广告素材生成和自媒体短视频创作[11] * **国内多模态模型竞争格局:头部公司性能紧咬,共同做大市场** * 国内模型第一梯队包括:快手可灵、字节即梦、阿里万象[11] * 头部公司整体性能未出现代际差距,迭代速度快,竞争咬得较紧[11][13] * 市场尚未进入存量竞争,各家正共同拓宽应用场景、做大蛋糕[12] * 各家公司定位和优势不同,例如可灵超70%收入来自海外,而字节即梦主要收入来自国内[13] * **AI漫剧是视频大模型的核心应用赛道,具备独特投资价值** * **与真人短剧模式不同**:AI漫剧是视频大模型的纯下游应用方和Token消耗方,其发展与平台方产业布局深度相关,不会像真人短剧那样因平台过度集中(如果短剧占超60%流量)而导致上游出品公司利润空间被挤压[15][17][18] * **与AI应用公司风险不同**:AI漫剧作为大模型的纯下游客户,被大模型技术本身颠覆或替代的风险很小,不同于其他可能被大模型“吞噬”的AI应用类公司[19][21] * **赛道增长迅速且空间大**:2025年漫剧赛道总流水近200亿元,真人短剧市场约670亿元(同比增30%),漫剧市场规模约为真人短剧的1/3不到[20];预计漫剧市场增速将超过真人短剧的30%[20] * **是视频大模型的重要商业化出口**:AI漫剧是当前少有的能大规模商业化使用视频大模型、消耗巨量Token并产生高流水的场景[19][20];生成一部80-120分钟的漫剧,Token消耗量可达上亿级别[23] * **平台竞争激烈为AI漫剧出品方创造利润窗口期** * 各长视频平台在漫剧领域投入激进,争夺流量[23][24];例如:腾讯发布独立APP“火龙漫剧”,百度发布独立漫剧APP,优酷和爱奇艺设立专属频道[24] * 平台推出慷慨的扶持政策,例如爱奇艺对独家上线的漫剧作品给予100%的分账比例[25] * 短期看,出品公司受益于平台给予的红利期;长期看,视频大模型方也有动力扶持下游应用赛道[25][26] 其他重要内容 * **AI漫剧的技术参数**:当前主流分辨率为720P(1280×720),帧率通常为15 FPS(低于正常视频的24 FPS)[22] * **相关公司的近期动态**: * 中文在线:2026年2月4日公告,腾讯视频拟采购其漫剧作品,金额2320万元[26] * 掌阅科技:开发了AI漫剧一站式生成平台“泡漫”[26] * 阅文集团:开发了一站式AI漫剧生成平台[27] * **市场表现参考**:引用2025年抖音平台漫剧累计播放量排名,酱油文化(阅文投资)排名第二,中文在线排名第六,网易旗下多个工作室进入行业前列,阅文集团自有作品排名第23,掌阅科技排名第24[27][28]