多模态AI
搜索文档
Gemini 3.5来了!今夜,谷歌亲手淘汰谷歌
猿大侠· 2026-05-20 12:11
Gemini Omni:全能多模态视频生成模型 - 核心定位为真正「全能」的大模型,可接收任意形式的输入(图片、音频、视频、文字)并生成任意内容,首发支持高质量视频输出 [4][16] - 实现了对物理世界的深度理解,在模拟重力、动能等概念上实现「阶跃变化」,能够生成科学准确且具有语义连贯性的视频内容 [17][18] - 具备强大的视频编辑与交互能力,用户可通过聊天方式编辑视频,生成的角色、场景和物理逻辑能保持一致性和连贯性 [30][31][32] - 输入高度灵活,允许混合多种模态的参考物,并可创建个人Avatar,让AI形象出现在任何场景中 [37][38] - 已正式上线,首发接入Gemini App、Google Flow和YouTube Shorts,YouTube Shorts用户可免费使用 [40] Gemini 3.5 Flash:性能与速度的旗舰模型 - 被定义为迄今最强的编码和智能体模型,在几乎所有基准测试中全面超越前代旗舰Gemini 3.1 Pro [42][44] - 在关键基准测试中表现突出:Terminal-Bench 2.1(编码)达76.2%,GDPval-AA(真实世界Agent任务)达1656 Elo,MCP Atlas(大规模工具使用)达83.6%,CharXiv Reasoning(多模态理解)达84.2% [46][47][52] - 输出速度达到289 tokens/秒,比GPT-5.5和Claude Opus 4.7等前沿模型快4倍有余 [8][48][50] - 具备强大的实际应用能力,可瞬间消化学术论文并生成交互式网站,或通过Agent完成复杂的多步工作流 [54][56] - 已成为Gemini App和Google搜索AI Mode的默认模型,面向全球用户开放 [72] Antigravity 2.0与Agent能力突破 - Antigravity从IDE进化为独立的Agent开发平台,采用Agent-first设计,成为实现复杂AI能力的关键框架 [12][58] - 展示了强大的Agent协同能力:93个子Agent并行工作,处理26亿个token,在12小时内从零构建出功能完整的操作系统内核,API成本低于1000美元 [60][62] - 核心升级包括:支持动态生成子Agent并行执行任务、异步任务管理、定时任务功能以及新的斜杠命令(如/goal, /grill-me)以优化工作流 [67] - 谷歌内部使用Antigravity处理token的速度从3月份的每天5000亿飙升至每天3万亿,实现了12倍加速 [69][70] Gemini Spark:全天候个人AI特工 - 定位为用户的个人AI Agent,基于Gemini 3.5和Antigravity框架驱动,可7×24小时在云端专用虚拟机上运行 [75][76][78] - 深度整合谷歌办公套件,能自动执行跨应用任务,如从Gmail、Docs等抓取信息起草邮件,或创建并管理Google Sheets、Slides等 [79][80][83][85] - 支持自定义技能,可学习用户的个人语气、偏好和工作方式 [82] - 具备强大的语音输入与任务拆解能力,可将连续语音指令自动拆分为多个独立任务线程并行执行 [87][88][89] - Beta版将于下周对美国AI Ultra订阅用户开放,AI Ultra最高档月费从250美元降至200美元 [91][92] 产品生态与行业影响 - 谷歌搜索迎来25年最大升级,接入Gemini 3.5 Flash,新增智能搜索框、自动生成mini应用等功能 [12] - Gemini App进行改版,代号Neural Expressive,并改为算力计费模式 [12] - 公司通过本次发布,将全模态理解、全模态生成和全天候在线Agent三大能力拼图整合到位,展示了通向更高级AI(ASI)路径上的工程化部署能力 [95][96][101] - 行业进展迅速,半年前还在讨论AGI可能性,如今已能用Agent编写操作系统,发展速度超出人类直觉感知范围 [102][103]
传媒互联网行业2026年度中期投资策略:多模态AI:逐光前行,加速进击
开源证券· 2026-05-19 22:26
证券研究报告 多模态AI:逐光前行,加速进击 传媒互联网行业2026年度中期投资策略 姓名 方光照(分析师) 证书编号:S0790520030004 邮箱:fangguangzhao@kysec.cn 2026年05月18日 核心观点 1. 全球多模态技术持续迭代,国产模型从追赶到局部超越,整体商业化提速 自2021年Open AI DALL-E首次将大语言模型引入图像生成领域起,海外科技大厂、高校聚焦多模态技术持续迭代模型架构,多模态大模型生成内容质量、效率、 成本不断优化。国内科技大厂快速追赶,并在视频生成、音频/音乐生成领域实现局部反超。技术成熟度提升及应用推广驱动AI原生应用ARR快速增长, Midjourney、快手可灵、ElevenLabs ARR达数亿美元,Gemini对Nano Banana的引入助其MAU三个月内增加2亿。全球人才、资本聚集或推动多模态技术继续高速 发展,模型商业化迎来广阔市场并有望提速 2. 多模态大模型下游广泛,应用拓展或加速国产模型Token调用量/ARR增长 多模态大模型可深度赋能内容生产、营销、工业制造等,只要AI在工作流中创造价值高于Token成本,需求星辰大海。 ...