Workflow
GPT Image 1.5
icon
搜索文档
海外华人15人团队打造,统一理解与生成的图像模型,超越Nano banana登顶图像编辑
机器之心· 2026-03-06 14:16
文章核心观点 - Luma AI公司发布其首个统一图像理解与生成模型Uni-1,该模型采用decoder-only自回归Transformer架构,将理解与生成能力整合于单一模型,旨在让AI具备“思考”能力[1][2] - 在RISEBench推理式生成基准上,Uni-1取得当前最优成绩,并在ODinW-13开放词汇密集检测等理解任务上展现出强劲竞争力[10][83] - 该模型通过“推理式生成”技术,在处理复杂指令时先进行结构化内部推理,再执行渲染,其生成训练被证明能显著提升模型的细粒度理解能力[79][80][81] - 与谷歌、OpenAI等大公司依赖巨量资源的路径不同,Luma AI凭借小规模精英团队和更聪明的架构设计,试图在资源有限的条件下实现超越规模优势的结果[95][97][98][99] 模型技术架构与性能 - **统一架构设计**:Uni-1采用decoder-only自回归Transformer架构,将文本token和图像token表示在同一个交错序列中,实现了对时间、空间和逻辑的联合建模,使文本和图像既可作输入也可作输出[79] - **性能基准表现**:在评估生成模型推理能力的RISEBench基准测试中,Uni-1取得当前最优成绩,该基准覆盖时间、因果、空间和逻辑四个推理维度[81] - **理解能力验证**:在传统上由专门理解模型主导的ODinW-13开放词汇密集检测基准上,Uni-1取得了有竞争力的成绩,验证了“生成训练提升理解能力”的技术假说[83] 模型具体能力展示 - **中文文字渲染**:在生成包含“新春快乐”、“马年大吉”等中文文字的马年新春贺卡任务中,Uni-1在文字完整性、排版合理性和视觉风格一致性上均优于对比模型GPT Image 1.5和Google Nano Banana Pro[18] - **信息图理解与生成**: - 在将公益海报提取为信息图的任务中,Uni-1准确还原了文字内容并保持了正确的层级结构,而对比模型存在混淆层级或内容不完整的问题[22] - 在生成关于“水钟与古代计时”的密集文字信息图任务中,Uni-1在布局规划、文字清晰度和图文配合方面表现优于其他模型[28] - 在生成“种子到植物生命周期”平铺式信息图时,Uni-1准确呈现了完整生命周期阶段,并正确展示了植物形态的渐变关系[36] - **参考图引导生成**: - 在需要融合4张参考图(两只猫、一位真人、Luma AI logo)合成会议场景的任务中,Uni-1准确保留了每个参考对象的身份特征并实现了合理构图[39] - 在处理5张不同参考图(3只动物、一个logo和学术礼帽)融合为连贯场景的任务中,Uni-1展现了精确的多源参考信息控制能力[43] - **草稿引导编辑与转化**: - 在将外套设计草稿与面料材质参考结合生成写实产品概念图的任务中,Uni-1准确映射了面料纹理,生成了具有商业可用度的渲染图[50] - 在将粗略漫画分镜草稿转化为精细漫画插图的任务中,Uni-1完整保留并精细化了所有细部信息,体现了对草稿语义的深层理解[59] - **风格迁移与角色一致性**: - 在将现代女性发型迁移至《蒙娜丽莎》画像并保留油画风格的任务中,Uni-1在风格一致性和迁移准确性上取得了平衡[63] - 在生成展示同一角色从童年到老年在钢琴前的6帧故事板任务中,Uni-1全程维持了角色身份特征的一致性、叙事连贯性和时间逻辑[69] - **多轮交互编辑**:在对泰迪熊照片进行连续三轮编辑的任务中,Uni-1精准执行了每一轮指令,并保持了各轮之间主体身份和空间关系的连贯,展现了统一架构在理解和生成协同上的优势[73] - **专业视觉任务**:在根据三张面部照片生成标准UV贴图的任务中,Uni-1在面部特征对齐、对称性和肤色一致性方面优于对比模型[76] 行业背景与竞争格局 - **行业技术路线演变**:当前视觉AI领域,图像理解与图像生成长期是两条独立的技术路线,Uni-1代表了从“分治”到“统一”的技术趋势[78] - **主要竞争者动态**:谷歌近期推出了主打“又快又便宜”的Nano Banana 2模型,并在社交平台引发关注[5] - **资源路径差异**:谷歌、OpenAI、Meta等大公司依赖巨量资源堆砌模型上限,而Luma AI等初创公司则尝试通过更聪明的架构设计以小博大[97][98][99] 公司团队与未来规划 - **核心团队**:Uni-1由不到15人的核心研究团队开发,由两位华人学者领衔[85] - 首席科学家宋佳铭,其发明的DDIM算法被Stable Diffusion、DALL・E等广泛采用,引用量超过万次,并曾获ICLR 2022 Outstanding Paper Award[86][87][88] - 研究负责人William Shen(沈博魁),研究横跨计算机视觉、机器人、图形学和生成模型,曾获CVPR Best Paper Award提名,其创立的公司被Luma AI收购[90][91][94] - **未来规划**:Uni-1是Luma迈向统一多模态智能的第一步,后续统一框架将从静态图像扩展到视频、语音和交互式世界模拟等模态,旨在构建能完成“看、说、推理、想象”的多模态系统[98]
黑马图像模型被Nano Banana技术负责人点赞!15人华人小队,DDIM之父&CVPR最佳论文作者带队
量子位· 2026-03-06 11:36
公司及产品介绍 - Luma AI公司发布了一个全新的统一图像理解与生成模型,名为Uni-1,该模型正面对标谷歌的Nano Banana Pro和OpenAI的GPT Image 1.5 [1] - Uni-1模型具备多种能力,包括角色姿态迁移、故事板生成、草稿转漫画、多参考图场景合成、UV贴图生成、带有文字的贺卡海报生成等 [3] - 实现这一惊艳效果的Uni-1模型,其研发团队规模不到15人,且是一支华人研究团队 [8] 技术能力与性能表现 - 在多项权威任务评测中,Uni-1的表现不仅能够对标Nano Banana Pro和GPT Image 1.5,部分任务的表现更是达到世界领先水平 [6] - 在中文文字渲染任务中,Uni-1生成的马年新春贺卡文字内容完整、排版合理,而GPT Image 1.5出现了文字混乱,Nano Banana Pro的文字渲染也有明显瑕疵 [11][12] - 在多参考图场景合成任务中,Uni-1能够精确还原每张参考图的身份特征,并将它们合理地组织进同一个会议场景,而竞品模型则存在直接将参考图“贴”到场景或融合失败的问题 [15][16] - 在信息图提取任务中,Uni-1准确还原了实拍海报的完整布局、所有文字、正确配色及细节,而竞品模型出现了文字缺失、颜色错误或logo问题 [21] - 在草稿转漫画任务中,Uni-1完美地将粗糙草稿意图转化为专业漫画,精准还原了分格构图、对话气泡及所有细节 [26] - 在生成6帧故事板的任务中,Uni-1展现了跨帧角色一致性和时间叙事能力,在6帧画面中保持了角色身份、钢琴、透视和画风的一致性 [31] - 在UV贴图生成任务中,Uni-1生成的结果在面部对齐、左右对称和肤色一致性上明显优于GPT Image 1.5和Nano Banana Pro,显示出对三维空间结构的深层理解 [37][38][39] - 在RISEBench基准测试(评估时间、因果、空间和逻辑推理)上,Uni-1取得了世界最优成绩 [48] - 在开放词汇密集检测(ODin W-13)基准上,Uni-1也展现出了强劲的竞争力,在一个传统上由纯理解模型主导的领域不输专门模型 [50] 团队背景与技术路径 - 团队的研究负责人之一是宋佳铭,其发明的DDIM(Denoising Diffusion Implicit Models)论文被引用超过万次,并获得ICLR 2022 Outstanding Paper Award,该技术是众多扩散模型图像生成工具的基础 [41][42] - 另一位研究负责人是沈博魁,其代表作获得了CVPR 2018 Best Paper Award,并入选RSS 2022 Best Student Paper Finalist [44] - 团队选择的技术路线与大厂不同,不是把图像理解和生成分开,而是采用decoder-only自回归Transformer架构,在一个统一框架内同时建模时间、空间和逻辑,让模型同时具备理解和生成能力 [45][46] - 公司发现生成训练能显著提升模型的理解能力,这与人类的认知规律高度一致 [47] - 在推理式生成任务中,Uni-1会在合成图像前进行结构化的内部推理,即先分解指令、规划构图,然后再渲染输出 [48] 行业意义与未来展望 - Uni-1的成功表明,统一模型可能是下一代视觉AI的发展方向,当理解和生成由同一个模型完成,许多过去需要复杂流程的任务可以在一个模型内优雅解决 [51] - 这一成就证明顶尖的AI研究不一定需要万人团队和无限算力,在正确的技术路线上,优秀的人才密度可以弥补资源的差距 [52] - Luma AI表示,Uni-1只是第一步,下一阶段计划将统一框架从静态图像扩展到视频、语音、交互式世界模拟,最终目标是构建能够“看、说、推理、想象”的统一多模态系统 [52][53]
谷歌Nano Banana 2来了,设计师时代结束了?
第一财经· 2026-02-27 13:54
产品发布与迭代 - 谷歌于北京时间2月27日发布了其最新的图像生成模型 Nano Banana 2 (Gemini 3.1 Flash Image) [1] - 该模型是谷歌团队目前最好的图像生成和编辑模型,兼具了速度和此前Pro版的性能,同时价格也更便宜 [1] - 相比初代Nano Banana,Nano Banana 2大幅缩小了速度与画质的差距,能生成高质量、照片级的逼真图像 [16] 性能与基准测试 - 根据AI基准测试机构Artificial Analysis的数据,Nano Banana 2在文生图榜单中排名第一,在图像编辑榜单中排名第三 [1] - 大模型竞技场LMArena发布的排行榜同样显示,Nano Banana 2拿下全球第一,文生图测试得分为1280分,超越了GPT Image 1.5 (1268分) 和 Nano Banana Pro (1220分) [4] - 在谷歌AI Studio平台,Nano Banana 2输出每张1k图片的单价为0.067美元,输入为0.5美元,而Nano Banana Pro对应的价格是0.134美元和2美元,价格便宜一半 [4] 技术特性与功能 - 模型具备先进的世界知识、精确的文本渲染和翻译、主题一致性、精确的指令执行和视觉保真度提升等功能 [4] - 模型可以呈现生动的光照、更丰富的纹理、更清晰的细节 [4] - 在单个工作流中,最多能保持五个角色的形象相似性,以及最多14个对象的特征一致性 [16] - 模型支持高级文本渲染和本地化,能够直接在图像中生成或翻译多种语言的文本 [13] 应用案例与客户反馈 - 谷歌创建了名为“Window Seat”的程序进行演示,用户可指定世界上任一地区的窗户位置,模型能生成逼真画面并根据实时天气数据更新景色 [5] - 谷歌开发了“全球广告本地化器”演示应用,可将英语版本的图像广告翻译成不同语言(如日文、法语等)以适应国际市场 [13] - AI应用开发公司HubX通过集成Nano Banana 2,实现了74%–76%的延迟降低,人脸编辑工作流速度提升了4倍,同时没有牺牲专业级画质 [16] - 有博主测评显示,无论是人物表情控制、还是文本生成和排版,Nano Banana 2都比Pro版本有很大提升 [16] 当前局限性与挑战 - 有测试发现,Nano Banana 2在生成图像时存在位置错误、中文字体标注错误等问题 [6] - 模型输出水平不稳定,例如在网页版中连广州塔的位置都绘制错误 [11] - 或许是由于参数量较小的原因,Nano Banana 2对人体结构、复杂度动作、物体结构认知不足,在一些复杂场景(如人体倒立)上会有问题 [16] - 有评论认为当前AI生图的不真实感仍然较重,生成并不准确 [4]
谷歌 Nano Banana 2 一夜补齐短板,各种图解都能画,价格才是 OpenAI 一半
36氪· 2026-02-27 12:10
文章核心观点 谷歌最新发布的Nano Banana 2文生图模型,凭借其创新的“实时联网”能力、卓越的图像生成质量与细节、显著提升的文本渲染与主体一致性,以及极具竞争力的价格,在权威测评中登顶榜首,标志着文生图行业的竞争焦点已从单纯画面质量转向速度、理解力与生态整合[1][10][66] 产品核心能力与性能 - **实时联网与信息整合**:模型整合了Gemini的搜索能力,能够边理解、边检索、边生成,使图像内容更贴合真实世界的信息结构,例如生成基于真实地理和气象信息的“窗口视角”构图[1][5] - **图像质量与细节**:生成的图像细节丰富、真实感强,街景中的招牌、广告牌等细节可放大查看,人物神态、光影到位,难以一眼辨别为AI生成[2][3][15] - **信息图与可视化生成**:模型擅长将抽象概念可视化,能生成逻辑清晰、标注准确的信息图、示意图、食谱、医学解剖图等,承担知识组织与表达的角色[6][31][33][39][41] - **文本渲染与多语言支持**:解决了AI图像中文字生成的短板,生成的文字清晰、拼写准确、排版自然,支持图中内容的翻译和本地化,保持原风格不变[47] - **主体一致性**:在工作流中可保持最多5个角色的特征一致及14个对象的高保真度稳定输出,即使转换视角也能保持稳定,适合系列创作[51][54][56] - **分辨率与画幅**:支持从512px到4K的多分辨率,新增512px档位优化低延迟场景;画幅比例丰富,新增4:1、1:4等超长比例,满足横幅广告、竖屏长图等原生生成需求[64] - **风格与材质控制**:支持自由更换纹理、材质和颜色,可快速切换不同视觉风格,如生成“香蕉恐龙”、“水母跑车”等创意图像[58][62][63] 市场表现与行业地位 - **测评排名与性价比**:在权威测评Artificial Analysis榜单中,Nano Banana 2位列第一,其API价格为每千张图像67.0美元,仅为第二名OpenAI(133.0美元/千张)的一半,堪称“性价比之王”[8] - **行业竞争态势**:榜单头部模型之间分数差距非常小(如第一名1,272分与第二名1,268分),表明行业已进入竞争焦灼的“贴身肉搏”阶段[8][9] - **用户增长与生态整合**:Gemini应用月活跃用户达6.5亿,Nano Banana系列的“病毒式传播”是增长重要原因;模型已在谷歌产品体系中完成替换,并整合进Google Ads的广告生成建议能力[10][69][71] 应用场景与潜在影响 - **效率工具**:模型从“创意玩具”转向“可控的图像渲染引擎”,对普通用户更好用,对企业而言更具可规模化部署的潜力[66] - **专业领域应用**:在教育领域可将抽象概念可视化;在科研中可快速生成复杂模型示意图;在政策汇报、企业报告中可将冗长材料压缩为重点明确的可视化内容[43] - **设计领域影响**:其强大的可视化能力被用户认为将颠覆信息图表领域,甚至有人测试后惊呼“设计已死”[12][33] - **内容真实性管理**:针对AI造假担忧,谷歌为生成内容叠加SynthID水印并整合C2PA内容凭证体系,以进行溯源[8]
Nano Banana 2发布!速度更快,4K直出,接入谷歌全线产品
Founder Park· 2026-02-27 12:07
产品发布与核心性能 - 谷歌发布了最新图像生成模型Nano Banana 2,该模型基于Gemini 3.1 Flash Image,在生成速度、多语言文字处理和实时联网能力上均有大幅提升,并能直接生成4K图像 [2] - 在Artificial Analysis的文生图基准测试中,Nano Banana 2位列全球第一,在图像编辑能力上排名第三,仅次于GPT Image 1.5和Nano Banana Pro [4][5] - 在Image Arena的文生图排名中,Nano Banana 2以1279 Elo得分问鼎榜首,其图像编辑实力仅次于GPT Image [6] - 谷歌官方测评显示,Nano Banana 2在开启特定功能后,在整体偏好、视觉质量和信息图表准确性三个维度上全面超越了GPT-Image 1.5、Grok Imagine Image Pro等竞品以及其前代产品Nano Banana Pro [7] - 模型的API定价为每千张图像67.0美元,输出价格约为0.0672美元/张,仅为Nano Banana Pro价格(134.0美元/千张)的一半 [6][9] 核心技术优势:世界知识与文本渲染 - Nano Banana 2的核心优势之一是具备“世界知识”,它全面接入了Gemini的知识库和实时网络搜索,能够基于真实信息进行图像生成 [11] - 该模型能根据真实存在的物体(如建筑)进行网络搜索获取视觉参考,再按照指定风格渲染,确保准确性,例如准确生成克洛·吕斯城堡的立体主义风格图像 [12][22][23] - 基于世界知识,模型能够直接生成信息图表、将笔记转化为示意图以及进行数据可视化,例如生成水循环科普信息图和云类型对比三联画 [13][14][16][18][19] - 谷歌通过“Window Seat”应用展示了此能力,模型可结合知识库、网络图像搜索及实时天气数据,生成基于真实地理和气象信息的飞机窗外风景 [25][26][27] - 模型的第二大优势是强大的文本渲染和翻译能力,解决了AI图像生成中文字渲染不清晰的问题,生成的文字准确清晰,适用于营销海报、贺卡等场景 [28][29] - 模型具备“一键本地化”能力,可将整个广告概念(包括文字和视觉元素)转换成目标市场(如印度)的语言和风格,谷歌为此推出了“Global Ad Localizer”演示工具 [30][31][32] 图像质量与生成能力提升 - 模型在主体一致性上实现大幅提升,在一个工作流中最多能保持5个角色的特征一致,以及14个对象的高保真度 [34][35] - 例如,能生成包含14个风格各异但特征保持一致的角色的农场场景,以及保证3个角色在6张连续叙事图中服装和外貌始终一致 [36][37][38][42][44] - 通过“Pet Passport”应用,用户上传宠物照片后,模型能在保持宠物外观高度一致的前提下,将其置于全球不同著名地标中 [45][46][47] - 模型的指令遵循能力更加精准,能更好地捕捉用户提示中的微妙细节 [48] - 支持从512px到4K的多种分辨率,新增512px层级以优化低延迟和高负载场景;新增4:1、1:4、8:1和1:8等极端宽高比,原生适配各种广告和内容格式 [49] - 为开发者提供可配置的“思考级别”功能,调整模型生成前的推理深度,在高级或动态模式下可显著提升输出质量和指令遵循度 [51][52][53] - 视觉质量全面提升,包括更生动的光影、更丰富的纹理和更锐利的细节 [54][55] 应用生态与市场整合 - Nano Banana 2已全面接入谷歌全线产品,包括Gemini App、Google搜索(含AI Mode和智能镜头)、AI Studio、Gemini API、Vertex AI、Google Antigravity等 [101][102][107][109] - 在Gemini App中,Nano Banana 2将在Fast、Thinking和Pro模型中全面取代Nano Banana Pro,用户仍可手动切换回旧版模型 [104] - 在Flow平台中,Nano Banana 2成为默认模型,所有用户可免积分使用 [110] - 该模型也已集成到Google Ads中,在创建广告系列时会自动提供智能建议 [113]
传媒互联网周报:智谱和Minimax即将上市港交所,《阿凡达3》上映拉动票房-20251222
国信证券· 2025-12-22 15:34
行业投资评级 - 传媒行业评级为“优于大市” [1][5] 核心观点 - 把握游戏板块超跌布局机会,关注AI应用及影视院线 [4] - 持续看好游戏、IP潮玩景气周期,游戏板块近期调整赋予良好机会 [4] - 关注内容政策转向与AI应用机会,影视内容关注供给端底部改善带动需求改善可能 [4] - AI应用重点把握应用场景机会,关注AI动漫短剧、营销、教育、电商、社交等方向 [4] - 板块景气度持续改善、近期调整赋予较好买入机会,行业有望迎来触底向上可能 [35] - 强新品周期有望推动游戏板块业绩与估值持续上修 [35] - AIGC打开中长期成长新空间,关注AI应用底部布局机会 [35] 板块表现回顾 - 本周(12.15-12.21)传媒行业上涨0.54%,跑赢沪深300(0.35%),跑赢创业板指(-1.31%)[1][11] - 传媒板块在所有板块中涨跌幅排名第16位 [1][12] - 涨幅靠前的公司包括广西广电(周涨15%)、三维通信(周涨12%)、完美世界(周涨11%)、三七互娱(周涨10%)[11][12] - 跌幅靠前的公司包括博纳影业(周跌-17%)、ST返利(周跌-14%)、慈文传媒(周跌-13%)、浙文互联(周跌-13%)[11][12] 行业动态与重点事件 - **AI音视频模型快速推进**:字节跳动发布豆包大模型1.8和Seedance 1.5 pro,后者支持音视频联合生成 [2][15][16];腾讯发布混元视频模型1.5,是国内首个开放的实时互动体验平台 [2][16];OpenAI推出图像生成模型GPT Image 1.5 [2][17] - **AI公司上市进展**:MiniMax、智谱通过港交所聆讯,预计将于2026年1月挂牌上市 [2][17] - **电影市场表现**:《阿凡达3》于12月19日上映,上映3天累计票房接近4亿元,观影人次突破750万 [2][17];本周(12月15日-12月21日)电影总票房7.06亿元,其中《阿凡达3》票房3.81亿元(占比53.9%),《疯狂动物城2》票房2.42亿元(占比34.2%)[3][18] - **谷歌AI更新**:谷歌Gemini2.5实时音频模型函数调用准确率达71.5%,超越OpenAI gpt-realtime(66.5%)[32][33] - **Claude AI新功能**:Anthropic旗下Claude AI正在测试“任务模式”新功能 [34] 细分领域数据跟踪 - **电影**:下周(12月24日起)即将上映电影中,《魔法坏女巫2》猫眼想看人数4.54万,《情圣3》想看0.49万,《点到为止》想看0.43万 [20][21] - **电视剧/网剧**:本周网络剧播映指数靠前的包括《狙击蝴蝶》(82.87)、《长安二十四计》(81.74)、《双轨》(81.71)[23][25] - **综艺**:本周综艺节目播映指数靠前的包括《现在就出发第3季》(81.14)、《奔跑吧第九季》(76.27)、《喜人奇妙夜第二季》(79.27)[3][24][26] - **游戏**:2025年11月中国手游收入(海外市场)前三名分别为点点互动《Whiteout Survival》、点点互动《Kingshot》和柠檬微趣《Gossip Harbor: Merge&Story》[3][27];本周中国区iOS游戏畅销榜前三为《王者荣耀》、《金铲铲之战》、《三角洲行动》[29];安卓热玩榜前三为《心动小镇》、《崩坏:星穹铁道》、《我的休闲时光》[30] - **数字藏品(NFT)**:截至12月21日最近7日,海外NFT成交额前三名为Azuki(109.98 ETH)、TheCurrency(10.38 ETH)、Terraforms(26.67 ETH)[31][32] 投资建议与关注标的 - **游戏板块**:推荐巨人网络、恺英网络、吉比特、心动公司等 [4][35] - **IP潮玩**:重点推荐泡泡玛特,推荐浙数文化、姚记科技等 [4][35] - **媒体与广告**:关注分众传媒、哔哩哔哩等 [4][35] - **影视内容与平台**:推荐平台(芒果超媒、哔哩哔哩)、内容(光线传媒、华策影视)以及播放渠道(万达电影)[4][35] - **AI应用**:重点关注AI动漫短剧方向,推荐中文在线、昆仑万维、阅文集团、哔哩哔哩、芒果超媒等,AI广告营销方向推荐汇量科技、浙文互联 [35] 重点公司估值摘要 - **恺英网络**:投资评级“优于大市”,总市值481亿元,2025E/2026E EPS为1.01/1.20元,对应PE为22/19倍 [5][37] - **分众传媒**:投资评级“优于大市”,总市值1056亿元,2025E/2026E EPS为0.39/0.43元,对应PE为19/17倍 [5][37] - **芒果超媒**:投资评级“优于大市”,总市值445亿元,2025E/2026E EPS为0.75/0.93元,对应PE为32/25倍 [5][37] - **泡泡玛特**:投资评级“优于大市”,总市值2591亿元,2025E/2026E EPS为9.15/12.77元,对应PE为21/15倍 [37] - **哔哩哔哩-W**:投资评级“优于大市”,总市值811亿元,2025E/2026E EPS为2.60/4.74元,对应PE为74/41倍 [37]
传媒互联网周报:智谱和 Minimax 即将上市港交所,《阿凡达3》上映拉动票房-20251222
国信证券· 2025-12-22 14:36
行业投资评级 - 传媒互联网行业评级为“优于大市” [1][5] 核心观点 - 建议把握游戏板块超跌布局机会,并关注AI应用及影视院线板块 [4] - 持续看好游戏、IP潮玩的景气周期,游戏板块近期调整赋予良好布局机会 [4][35] - 关注内容政策转向与AI应用机会,影视内容供给端底部改善可能带动需求改善 [4][35] - AI应用重点把握应用场景机会,关注AI动漫短剧、营销、教育、电商、社交等方向 [4][35] 板块表现回顾 - 报告期内(12月15日至12月21日),传媒行业指数上涨0.54%,跑赢沪深300指数(0.35%)和创业板指(-1.31%)[1][11][12] - 传媒板块在所有板块中涨跌幅排名第16位 [1][12][13] - 周涨幅靠前的公司包括广西广电(15%)、三维通信(12%)、完美世界(11%)、三七互娱(10%)[11][12] - 周跌幅靠前的公司包括博纳影业(-17%)、ST返利(-14%)、慈文传媒(-13%)、浙文互联(-13%)[11][12] 行业动态与热点 - **AI音视频模型快速推进**:字节跳动发布豆包大模型1.8和Seedance 1.5 pro,后者支持音视频联合生成 [2][15][16];腾讯发布混元视频模型1.5,是国内首个开放的实时互动体验平台 [2][16];OpenAI推出图像生成模型GPT Image 1.5 [2][17] - **AI公司上市进展**:MiniMax和智谱已通过港交所聆讯,预计将于2026年1月挂牌上市 [2][17] - **谷歌AI更新**:谷歌Gemini2.5 Flash Native Audio模型更新,在音频基准测试ComplexFuncBench中函数调用准确率达71.5% [32][33] - **Claude AI新功能**:Anthropic旗下Claude AI正在测试“任务模式”新功能 [34] 行业数据跟踪 - **电影票房**:报告期内(12月15日至12月21日)全国电影票房为7.06亿元 [3][18] - 《阿凡达3》于12月19日上映,上映3天累计票房接近4亿元,观影人次突破750万,报告期内票房3.81亿元,占比53.9% [2][3][17][18][20] - 《疯狂动物城2》报告期内票房2.42亿元,占比34.2% [3][18][20] - 《得闲谨制》报告期内票房0.46亿元,占比6.50% [3][18][20] - **电视剧/网剧**:本周播映指数靠前的网络剧包括《狙击蝴蝶》、《长安二十四计》、《双轨》等 [23][25] - **综艺节目**:本周排名靠前的综艺节目包括《现在就出发第3季》、《奔跑吧第九季》、《喜人奇妙夜第二季》等 [3][24][26] - **游戏**: - 2025年11月中国手游海外收入前三名分别为点点互动《Whiteout Survival》、点点互动《Kingshot》和柠檬微趣《Gossip Harbor: Merge&Story》 [3][27][28] - 截至12月21日,中国区iOS游戏畅销榜前三名为《王者荣耀》、《金铲铲之战》、《三角洲行动》 [29] - 截至12月21日,安卓游戏热玩榜前三名为《心动小镇》、《崩坏:星穹铁道》、《我的休闲时光》 [30] - **数字藏品(NFT)**:截至12月21日,海外NFT市场最近7日成交额前三名为Azuki、TheCurrency和Terraforms [31][32] 投资建议与关注标的 - **游戏板块**:推荐巨人网络、恺英网络、吉比特、心动公司等,近期调整赋予良好布局机会 [4][35] - **IP潮玩**:重点推荐泡泡玛特,同时关注浙数文化、姚记科技 [35] - **媒体与广告**:关注经济底部向上可能带来的广告投放增长,推荐分众传媒、哔哩哔哩 [4][35] - **影视内容与渠道**: - 平台端推荐芒果超媒、哔哩哔哩 [4][35] - 内容制作端推荐光线传媒、华策影视 [4][35] - 播放渠道推荐万达电影 [4][35] - **AI应用**: - AI动漫短剧方向推荐中文在线、昆仑万维、阅文集团、哔哩哔哩、芒果超媒等 [35] - AI广告营销方向推荐汇量科技、浙文互联 [35] 重点公司估值(摘要) - 恺英网络:总市值481亿元,2025年预测EPS为1.01元,对应PE为22倍 [5][37] - 分众传媒:总市值1056亿元,2025年预测EPS为0.39元,对应PE为19倍 [5][37] - 芒果超媒:总市值445亿元,2025年预测EPS为0.75元,对应PE为32倍 [5][37] - 泡泡玛特:总市值2591亿元,2025年预测EPS为9.15元,对应PE为21倍 [37] - 哔哩哔哩-W:总市值811亿元,2025年预测EPS为2.60元,对应PE为74倍 [37]
海外科技行业2025年第47期:TikTok美国方案签约,AI模型迭代提效
国泰海通· 2025-12-21 19:51
报告行业投资评级 - 行业评级:增持 [1] 报告核心观点 - 报告维持对海外科技行业的增持评级,核心观点围绕三大事件展开:TikTok美国运营方案落地保障了其在美国市场的持续运营、腾讯重组AI研发体系以强化工程能力、以及美光科技超预期的业绩指引验证了存储芯片行业的强劲复苏,并据此推荐AI算力、云厂商、AI应用及AI社交四大投资方向 [3][4] 根据相关目录分别总结 周观点 - **TikTok美国方案签约**:TikTok已与甲骨文、银湖及MGX签署协议,成立名为“美国数据安全合资有限责任公司”的新合资公司,负责美国用户的数据保护、算法安全等内容,由字节跳动授权使用其算法。合资公司股权结构为新投资者合计持股45%,字节跳动现有投资者及关联方持股30.1%,字节跳动自身保留19.9%股份,仍为最大单一股东。字节跳动全资控股的其他实体将继续运营电商、广告等核心商业活动,并与合资公司建立收入分享安排。全部事宜计划于2026年1月22日前完成 [7] - **腾讯重组AI研发体系**:腾讯升级大模型研发架构,新成立AI Infra部、AI Data部及数据计算平台部,旨在强化工程化优势。前OpenAI研究员姚顺雨出任首席AI科学家,兼任AI Infra部与大语言模型部负责人。目前,腾讯混元大模型已迭代至2.0版本,其能力已落地内部超900款应用,辅助半数新增代码生成,并融入微信、QQ等国民级产品 [8] - **美光业绩验证存储上行周期**:美光科技第一季度财报及下季业绩指引远超市场预期,预计下季营收将达187亿美元,远超市场预期的145亿美元;经调整净利润为54.82亿美元,去年同期为34.69亿美元。公司对第二财季营收展望为183亿至191亿美元,市场预期为143亿美元。非GAAP毛利率预计跃升至68%。为应对供应紧张,美光已将2026财年资本开支上调至200亿美元。公司CEO预计,全球HBM总潜在市场(TAM)的复合年增长率(CAGR)约为40%,将从2025年的约350亿美元增长至2028年的约1000亿美元 [9] 一周行情回顾 - **大盘指数表现**:在2025年12月14日至12月20日期间,恒生指数下跌1.10%,恒生科技指数下跌2.82%,道琼斯工业指数下跌0.67%,纳斯达克指数上涨0.48% [10] - **板块指数表现**:同期,恒生互联网科技业指数上涨2.86%,HK网络游戏指数下跌0.50%,HK AIGC概念指数下跌6.87%,纳斯达克中国金龙指数下跌1.43% [12] - **重点个股表现**: - **港股**:周涨幅前三为知乎-W(+1.0%)、美团-W(+0.3%)、腾讯控股(-0.3%)[14] - **美股**:周涨幅前三为叮咚买菜(+24.5%)、TWILIO(+6.6%)、知乎(+4.4%)[14] 一周AI行业要闻 - **谷歌发布Gemini 3 Flash模型**:该模型速度比2.5 Pro快3倍,价格仅为3 Pro的四分之一,在部分基准测试中性能接近甚至超越3 Pro,正被全面嵌入谷歌自家生态 [19] - **小米发布开源MoE模型MiMo-V2-Flash**:这是一个总参数309B(激活15B)的MoE模型,专为高效智能体设计,其代码能力比肩Claude 4.5 Sonnet,但推理成本仅为其2.5%,生成速度提升2倍 [19] - **特斯拉启动完全无人驾驶Robotaxi测试**:测试车内无安全员和乘客,标志着其自动驾驶商业化进入关键验证阶段。预计其Robotaxi车队规模将从2025年的200辆增长至2035年的100万辆 [20] - **OpenAI发布GPT Image 1.5**:该模型生成速度是上一代的4倍,在文生图和图像编辑两项功能上均位列第一,但用户反馈其“AI味”较重、中文支持不足 [20] - **阿里发布万相2.6系列模型**:这是国内首个支持角色扮演功能的视频生成模型,能生成最长15秒的连贯视频,并支持自然音画同步 [21] - **英伟达发布开源模型系列Nemotron 3**:该系列包含Nano(300亿参数)、Super(1000亿参数)与Ultra(5000亿参数)三个版本,支持高达100万token的上下文长度 [21] - **网易有道战略升级**:公司定位从“教育科技公司”拓展为“学习与广告AI应用服务提供商”,并指出教育AI正从L3的学习辅导加速迈向L4的“虚拟老师”阶段 [22] 投资建议 - **算力方向**:推荐英伟达(NVDA.O)、台积电(TSM.N)、阿斯麦(ASML.O)、博通(AVGO.O)、迈威尔(MRVL.O)[23] - **云厂商方向**:推荐微软(MSFT.O)、亚马逊(AMZN.O)、谷歌(GOOGL.O)[23] - **AI应用方向**:推荐AI Agent方向受益的苹果(AAPL.O)、高通(QCOM.O)、联想集团(0992.HK)、小米集团(1810.HK),以及Physical AI方向受益的特斯拉(TSLA.O)[23] - **AI社交方向**:推荐腾讯控股(0700.HK)、Meta(META.O)、谷歌(GOOGL.O)[23]
计算机行业研究:阿里巴巴发布视频生成模型万相 2.6,0penAl推出ChatGPTlmages
国金证券· 2025-12-21 19:28
行业投资评级 * 报告未明确给出计算机行业的整体投资评级 [4][6][9][11] 核心观点 * 报告认为,11月计算机板块表现较弱主要源于风险偏好承压,估值波动解释了板块波动的**60-80%**[4][11] * 外部压力包括海外局部冲突、美国AI泡沫争议导致相关企业股价回调、美元降息预期波动等[4][11] * 内部压力包括基本面收入端不强、部分机构投资者年底获利了结[4][11] * 预计连续三个月的回调为后续春季躁动酝酿了空间,在非熊市阶段,板块回调**2-4个月**后通常会有新一轮弹性[4][11] * 从投资机会看,需求的景气方向在出海,技术的景气方向在AI产业链,政策的景气方向在国产替代[4][11] 本周观点总结 * **计算机行业观点**:板块近期回调主要受风险偏好压制,但为未来反弹创造了空间,投资应聚焦出海、AI产业链和国产替代三大方向[4][9][11] * **细分板块观点**:报告对2025年各细分赛道景气度进行了详细划分[4][10][11][12] * **高景气维持**:AI算力、激光雷达[4][10][11] * **加速向上**:AI应用(软件)[4][10][11] * **稳健向上**:软件外包、金融IT、量子计算、数据要素、EDA、出海、信创[4][11][12] * **拐点向上**:教育IT、网安、企业服务[4][11][12] * **底部企稳**:智慧交通、政务IT、安防、建筑地产IT[4][11][12] * **略有承压**:工业软件[4][11][12] * **持续承压**:医疗IT[4][11][12] 重点事件与动态 * **阿里巴巴**于12月17日发布视频生成模型“万相2.6”系列,是国内首个支持声画一致性角色定制的视频模型[4][11] * **小米**于12月18日发布参数量为**309B**的开源大模型MiMo-V2-Flash,其推理成本仅为Claude 4.5 Sonnet的**2.5%**,在SWE-Bench评测中以**73.4%**的评分领先[4][11] * **OpenAI**于12月17日更新ChatGPT图像生成功能,推出旗舰图像模型GPT Image 1.5及其API服务[4][11] * **SpaceX**启动IPO流程,目标募资额预计超过**300亿美元**,寻求整体估值接近**1.5万亿美元**[4][11] * **Google**于12月18日发布Gemini3 Flash模型,将其设为默认模型,平均token使用量较Gemini 2.5 Pro减少约**30%**,定价为输入每百万token **0.50美元**,输出每百万token **3美元**[4][11] * **激光雷达**:10月国内ADAS激光雷达(仅标配)装机量约**35.3万颗**,同比增长**118.2%**;1-10月累计装机量约**226.2万颗**,同比增长**95.5%**,符合全年翻倍增长预期[12] * **重点事件前瞻**:2025年12月22日,智元机器人将举办全国机器人租赁生态峰会[25][26] 市场行情回顾 * 2025年12月15日至12月19日,计算机行业指数(申万)下降**0.68%**,跑输沪深300指数**0.4**个百分点[13] * 在31个申万一级行业中,计算机行业本周排名中等靠后[13][16] * 本周计算机板块涨幅前五的公司为万集科技(**29.2%**)、新利软件(**23.3%**)、索菱股份(**21.9%**)、嘉和美康(**21.1%**)、经纬恒润(**20.6%**)[14][17][18] * 跌幅前五的公司为实达集团(**-8.3%**)、达华智能(**-8.3%**)、商汤-W(**-11.7%**)、品高股份(**-11.8%**)、三六零(**-16.4%**)[14][17][18] * 报告期内(12月15日至19日),三市股票日均成交额为**1.76万亿元**,同比上升**31.9%**,环比下降**9.9%**;截至12月18日,两融余额为**2.49万亿元**,同比上升**35.6%**,环比下降**0.65%**[19] 投资建议 * 建议关注国内生成式大模型龙头**科大讯飞**[4] * AI硬件有望成为应用落地新载体,建议关注**海康威视**、**虹软科技**、**禾赛**等[4] * AI相关功能打磨能带动付费率、Arpu值提升,建议关注**迈富时**等[4]
传媒行业?AI周度跟踪之四十七:字节大会发布多款模型,谷歌Gemini3Flash速度提升-20251221
广发证券· 2025-12-21 17:32
行业投资评级 - 报告对传媒行业给予“买入”评级 [1] 核心观点 - 报告核心观点为关注AI技术迭代带来的潜在投资机会,并梳理了海内外AI大模型、多模态及应用层面的最新动态 [6] 国内AI动态跟踪 - **大模型产品数据**:根据SimilarWeb数据,上周(2025/12/8-2025/12/14)国内主要AI大模型网页端访问量表现分化,其中DeepSeek以7472.79万次访问量保持领先,环比上升0.26%;豆包访问量为2361.84万次,环比上升6.07%;Kimi访问量为902.95万次,环比下降4.46%;通义千问访问量环比大幅上升51.22%至22.58万次 [6][20] - **大模型产品数据**:在App iPhone端下载量方面,根据七麦数据,上周豆包以209.66万次下载量保持领先,环比微降0.03%;腾讯元宝下载量为124.44万次,环比上升14.17%;通义千问下载量为83.02万次,环比下降18.39% [21][24] - **热门应用数据**:上周国内AI应用数据中,AI搜索产品秘塔AI搜索网页访问量达171.20万次,环比上升25.89%,其App下载量环比上升46.14%至2.94万次;AI设计产品Pixso AI网页访问量环比上升45.10%至16.65万次;AI视频产品PixVerse网页访问量为153.81万次,环比上升6.87% [24][25][30] - **应用买量追踪**:根据APPGrowing数据,上周腾讯元宝在广告投放素材量上以675,911个保持第一,环比上升16.98%;通义千问投放素材量为219,777个,环比下降52.91% [31] - **应用买量追踪**:2025年12月至今的广告投放金额数据显示,腾讯元宝投放金额达86,268.90万元,通义千问为36,772.38万元,豆包为2,594.34万元 [31] - **公司重点事件**:商汤科技发布行业首个创编一体智能体Seko 2.0,旨在赋能短剧创作,将制作周期缩短近九成,平台已汇聚超20万创作者 [37][38] - **公司重点事件**:商汤科技发布AI办公智能体“小浣熊3.0”,具备一键生成高质量PPT等能力,企业场景落地分析精度达95%,已拥有超300万注册用户 [37][38] - **公司重点事件**:MiniMax视频团队开源视觉生成模型关键组件VTP;阶跃星辰升级其GUI Agent模型Step-GUI,支持200多个任务场景 [38] 海外AI动态跟踪 - **大模型产品数据**:根据SimilarWeb数据,上周海外主要AI大模型网页端访问量中,ChatGPT以132,387.06万次访问量稳居第一,环比微降0.99%;Claude访问量为4,126.03万次,环比上升0.71%;Gemini访问量为147.35万次,环比下降11.51% [6][41] - **热门应用数据**:上周海外AI陪伴产品Character AI网页访问量为4,153.97万次,环比下降1.89%,其App全球iPhone端下载量环比上升28.66%至53.61万次;AI搜索产品Perplexity AI网页访问量为4,374.03万次,环比微降0.18% [45][53] - **公司重点事件**:瑞典AI编程初创公司Lovable近日完成新一轮融资,估值飙升至66亿美元,较半年前暴涨超三倍 [55][56] 海内外科技大厂AI动态 - **大模型进展**:谷歌正式发布高效、低成本模型Gemini 3 Flash,其响应速度提升3倍,性能已超越前代Gemini 2.5 Pro并接近GPT-5.2等前沿模型 [6][57][59] - **大模型进展**:字节跳动豆包大模型团队发布通用Agent模型Seed 1.8,集成了搜索、代码与GUI交互能力,在Agentic Coding及多模态推理等指标上处于业界第一梯队 [6][57][58] - **多模态迭代**:OpenAI发布全新旗舰图像生成模型GPT Image 1.5,在细节保留、文本渲染及原图光线保持方面实现突破 [6][57][58] - **多模态迭代**:字节发布新一代音视频联合生成模型Seedance 1.5 pro,实现了精准音画同步与电影级运镜控制 [6][57][58] - **多模态迭代**:Meta推出首个统一多模态音频分离模型SAM Audio,支持通过文本或视觉提示从复杂音频中精准提取目标声音 [6][57][58] - **应用层面**:蚂蚁集团旗下AI健康助手独立App AQ更新版本,正式启用中文名“蚂蚁阿福” [6][57][58] - **其他动态**:腾讯混元世界模型1.5正式发布并开源实时世界模型框架;阿里发布新一代万相2.6系列模型,支持角色扮演等功能;美团开源虚拟人视频生成模型LongCat-Video-Avatar [58] 投资建议 - **云基建方向**:建议关注阿里巴巴、腾讯控股 [6][59] - **AI视频与IP产业链**:若Sora推动AI视频平台跑通商业化闭环,建议关注IP产业链的阅文集团、中文在线、上海电影、奥飞娱乐、华策影视、欢瑞世纪等;AI内容确权关注阜博集团;视频平台关注快手、哔哩哔哩 [6][59] - **AI营销方向**:建议关注汇量科技、易点天下、蓝色光标、天下秀 [6][59] - **AI终端与电商方向**:AI终端关注出门问问;AI电商关注值得买 [6][59] - **AI客服与游戏方向**:AI客服agent关注神州泰岳;AI游戏关注恺英网络 [6][59] - **AI医疗方向**:建议关注京东健康、阿里健康,AI问诊功能完善有望为线上平台导流并实现变现闭环,大厂增加即时零售投入有望带动互联网医疗用户流量和O2O业务单量增长 [6][59] - **细分应用落地**:关注商业化进展较好的快手、美图、粉笔等 [6][59] 重点公司估值 - 报告列出了横店影视、芒果超媒、腾讯控股、阿里巴巴、哔哩哔哩、京东健康等多家公司的估值和财务预测数据,所有提及公司评级均为“买入” [7]