Gemini 1.0
搜索文档
Gemini 3拉动业务显著增长,谷歌AI模型申请量五个月翻倍
华尔街见闻· 2026-01-20 08:34
核心观点 - 谷歌Gemini AI模型业务在过去一年呈现爆发式增长,API调用量翻倍,模型质量提升推动公司从价格战转向质量战,并实现了正向边际利润 [1] - 尽管业务数据向好,但市场正密切关注谷歌因AI投资而大幅增加的资本开支是否能产生足够回报,即将披露的Q4财报是关键观察点 [2][3] - 在企业级应用市场,谷歌Gemini Enterprise已获得一定用户基础,但客户反馈分化,其“开发者优先”的基因和产品在特定任务上的能力面临挑战 [4] 业务增长与财务表现 - Gemini API调用请求量从2024年3月(Gemini 2.5发布时)的约350亿次飙升至8月的约850亿次,增长超过一倍 [1] - 随着Gemini 2.5及后续版本推出,模型质量提升使谷歌能够从负利润率转向实现正向的边际利润 [1] - 2024年11月发布的Gemini 3再次引发使用热潮并获得广泛好评 [1] 资本开支与市场关注 - 谷歌预计其资本支出将在910亿美元至930亿美元之间,这几乎是2024年525亿美元支出的两倍 [2] - 投资者正密切关注即将披露的Q4财报,以寻找巨额AI投资正在产生回报的迹象 [3] 企业级应用市场表现 - Gemini Enterprise目前拥有来自1500家公司的800万订阅用户,此外还有超过100万的在线注册用户 [4] - 客户反馈呈现两极分化,咨询公司Sada指出喜欢或不喜欢它的客户比例接近50对50 [4] - 谷歌“开发者优先”的基因导致许多客户倾向于直接使用Gemini模型构建自己的定制代理,而不是购买谷歌预制的软件套件 [4] - 分析指出Gemini Enterprise在回答基于企业数据的通用问题方面表现出色,但在处理特定任务时仍显吃力,不过客户并未选择放弃,而是继续尝试使用 [4]
阿里通义千问再放大招
21世纪经济报道· 2025-08-20 09:45
多模态大模型发展现状 - 阿里通义团队推出Qwen-Image-Edit模型,基于20B参数的Qwen-Image,支持双语文本修改、风格迁移及物体旋转,拓展生成式AI在专业内容创作中的应用 [1] - 阿里半年内连续推出Qwen2 5-VL、Qwen2 5-Omni、Qwen-Image等多模态模型,行业多模态大模型在2025年迭代加速 [1] - 谷歌研究报告显示,预计2025年全球多模态AI市场规模将达24亿美元,2037年底将达989亿美元 [1] 国内厂商布局 - 阿里开源升级版视觉理解模型Qwen2 5-VL,72B版本在13项权威评测中视觉理解能力超越GPT-4o与Claude3 5 [3] - 阿里发布首个端到端全模态大模型Qwen2 5-Omni,支持文本、图像、音频、视频实时交互,可部署于手机等终端 [3] - 阶跃星辰发布Step 3基础大模型,原生支持多模态推理,其Step系列基座模型矩阵中多模态模型占比达70% [5] - 商汤发布日日新V6 5大模型,多模态推理与交互性能大幅提升,从6 0版本开始全部为多模态模型 [5] - 智谱推出开源视觉推理模型GLM-4 5V,涵盖图像、视频、文档理解等任务 [5] - 昆仑万维一周内发布六款多模态模型,覆盖数字人生成、世界模拟等核心场景 [5] 技术进展与挑战 - 多模态模型Qwen-Image-Edit基于20B参数模型训练,实现图片中文字精准编辑,兼具语义与外观双重编辑能力 [4] - 当前多模态领域仍处于发展初期,视觉数据表征空间达百万维度连续空间,远超文本数万维度的离散符号系统 [7] - 视觉数据缺乏天然语义信息,需建立跨模态映射关系,但缺乏标注数据支持 [8] - 当前多模态模型主要依赖语言推理,图形和空间结构推理能力薄弱,无法解决简单空间问题 [9] 行业趋势 - 业内普遍认为多模态融合是通向AGI的必经之路,2025年下半年或将迎来多模态模型全面普及 [1] - 中国企业在多模态领域集体崛起,改变由OpenAI、Google主导的AI创新叙事,在视觉推理、视频生成等细分领域领先 [7] - 2025年被视为AI应用商业化元年,多模态技术驱动数字人直播、医疗诊断、金融分析等场景落地 [7]
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-08 12:51
多模态大模型发展现状 - 阶跃星辰发布中国首个千亿参数原生多模态大模型Step-1V 基于业内最早的图文生成理解一体化框架DreamLLM [3] - 多模态领域预计未来2-3年将迎来两个GPT-4时刻:多模态推理和自主学习 [3] - 当前多模态生成理解一体化面临四大挑战:语言对视觉控制能力弱 图文对齐不精确 数据质量有限 生成模块无法反向影响理解模块 [3] 计算机视觉领域瓶颈 - CV领域长期缺乏类似NLP的GPT时刻 主要受限于数据标注依赖和自监督方法局限性 [13][15] - 对比学习和MIM等方法在小模型有效 但缺乏scale up特性 因其学习的不变性来自人工设计而非数据驱动 [16][18][19] - 静态图像数据存在本质缺陷:生成 理解与人类对齐三者割裂 难以实现智能质变 [24][25][26] 多模态技术突破方向 - 短期解决方案是利用图文对齐数据 通过文字的自闭环特性赋予模型智能能力 [27] - 长期需探索视频和具身系统 视频数据蕴含更丰富信息但利用难度更高 [27] - 生成理解一体化需先解决视觉空间CoT问题 当前action space过于受限 [55][56] 大模型训练范式演进 - Next Token Prediction存在本质缺陷:更大模型在数学等推理任务上表现反降 因倾向跳步且优化目标与任务目标存在gap [38][40][42] - Rule-based RL通过直接优化任务目标 可抑制跳步并强化稳定思维路径 [44] - o1范式突破在于激发Meta CoT 允许模型在关键节点反悔重试 使推理从单线变为图状结构 [44][53] 多模态数据影响 - 图文混排训练中生成模块产生的gradient噪声大且信息量低 可能破坏语义理解 [62] - 高质量多模态数据应确保图文强相关 避免无关数据导致模型confuse [63][64] - 视频数据蕴含丰富思维过程但清洗难度大 是扩展action space的重要方向 [65][66] 未来技术趋势 - 多模态GPT时刻预计1年内到来 需解决生成可控性和视觉空间推理问题 [68][69] - 当前long context方案存在注意力涣散问题 未来可能采用multi-agent分层记忆架构 [69][73][74] - 模型自主学习是ASI关键路径 需解决环境scaling和自然语言反馈利用问题 [78][80][82]