多模态AI - 财报，业绩电话会，研报，新闻

多模态AI

搜索文档

猿大侠· 2026-05-20 12:11

Gemini Omni：全能多模态视频生成模型 - 核心定位为真正「全能」的大模型，可接收任意形式的输入（图片、音频、视频、文字）并生成任意内容，首发支持高质量视频输出 [4][16] - 实现了对物理世界的深度理解，在模拟重力、动能等概念上实现「阶跃变化」，能够生成科学准确且具有语义连贯性的视频内容 [17][18] - 具备强大的视频编辑与交互能力，用户可通过聊天方式编辑视频，生成的角色、场景和物理逻辑能保持一致性和连贯性 [30][31][32] - 输入高度灵活，允许混合多种模态的参考物，并可创建个人Avatar，让AI形象出现在任何场景中 [37][38] - 已正式上线，首发接入Gemini App、Google Flow和YouTube Shorts，YouTube Shorts用户可免费使用 [40] Gemini 3.5 Flash：性能与速度的旗舰模型 - 被定义为迄今最强的编码和智能体模型，在几乎所有基准测试中全面超越前代旗舰Gemini 3.1 Pro [42][44] - 在关键基准测试中表现突出：Terminal-Bench 2.1（编码）达76.2%，GDPval-AA（真实世界Agent任务）达1656 Elo，MCP Atlas（大规模工具使用）达83.6%，CharXiv Reasoning（多模态理解）达84.2% [46][47][52] - 输出速度达到289 tokens/秒，比GPT-5.5和Claude Opus 4.7等前沿模型快4倍有余 [8][48][50] - 具备强大的实际应用能力，可瞬间消化学术论文并生成交互式网站，或通过Agent完成复杂的多步工作流 [54][56] - 已成为Gemini App和Google搜索AI Mode的默认模型，面向全球用户开放 [72] Antigravity 2.0与Agent能力突破 - Antigravity从IDE进化为独立的Agent开发平台，采用Agent-first设计，成为实现复杂AI能力的关键框架 [12][58] - 展示了强大的Agent协同能力：93个子Agent并行工作，处理26亿个token，在12小时内从零构建出功能完整的操作系统内核，API成本低于1000美元 [60][62] - 核心升级包括：支持动态生成子Agent并行执行任务、异步任务管理、定时任务功能以及新的斜杠命令（如/goal, /grill-me）以优化工作流 [67] - 谷歌内部使用Antigravity处理token的速度从3月份的每天5000亿飙升至每天3万亿，实现了12倍加速 [69][70] Gemini Spark：全天候个人AI特工 - 定位为用户的个人AI Agent，基于Gemini 3.5和Antigravity框架驱动，可7×24小时在云端专用虚拟机上运行 [75][76][78] - 深度整合谷歌办公套件，能自动执行跨应用任务，如从Gmail、Docs等抓取信息起草邮件，或创建并管理Google Sheets、Slides等 [79][80][83][85] - 支持自定义技能，可学习用户的个人语气、偏好和工作方式 [82] - 具备强大的语音输入与任务拆解能力，可将连续语音指令自动拆分为多个独立任务线程并行执行 [87][88][89] - Beta版将于下周对美国AI Ultra订阅用户开放，AI Ultra最高档月费从250美元降至200美元 [91][92] 产品生态与行业影响 - 谷歌搜索迎来25年最大升级，接入Gemini 3.5 Flash，新增智能搜索框、自动生成mini应用等功能 [12] - Gemini App进行改版，代号Neural Expressive，并改为算力计费模式 [12] - 公司通过本次发布，将全模态理解、全模态生成和全天候在线Agent三大能力拼图整合到位，展示了通向更高级AI（ASI）路径上的工程化部署能力 [95][96][101] - 行业进展迅速，半年前还在讨论AGI可能性，如今已能用Agent编写操作系统，发展速度超出人类直觉感知范围 [102][103]

传媒互联网行业2026年度中期投资策略：多模态AI：逐光前行，加速进击

开源证券· 2026-05-19 22:26

证券研究报告多模态AI：逐光前行，加速进击传媒互联网行业2026年度中期投资策略姓名方光照（分析师）证书编号：S0790520030004 邮箱：fangguangzhao@kysec.cn 2026年05月18日核心观点 1. 全球多模态技术持续迭代，国产模型从追赶到局部超越，整体商业化提速自2021年Open AI DALL-E首次将大语言模型引入图像生成领域起，海外科技大厂、高校聚焦多模态技术持续迭代模型架构，多模态大模型生成内容质量、效率、成本不断优化。国内科技大厂快速追赶，并在视频生成、音频/音乐生成领域实现局部反超。技术成熟度提升及应用推广驱动AI原生应用ARR快速增长， Midjourney、快手可灵、ElevenLabs ARR达数亿美元，Gemini对Nano Banana的引入助其MAU三个月内增加2亿。全球人才、资本聚集或推动多模态技术继续高速发展，模型商业化迎来广阔市场并有望提速 2. 多模态大模型下游广泛，应用拓展或加速国产模型Token调用量/ARR增长多模态大模型可深度赋能内容生产、营销、工业制造等，只要AI在工作流中创造价值高于Token成本，需求星辰大海。 ...