Workflow
Artificial Intelligence
icon
搜索文档
2025年中国MaaS(模型即服务)行业发展背景、市场规模、企业格局及未来趋势研判:行业进入快速发展期,市场规模激增,市场竞争呈现高度集中态势[图]
产业信息网· 2025-11-21 09:20
文章核心观点 - 模型即服务(MaaS)通过封装AI算法模型能力,以服务形式降低技术门槛、控制成本、简化运维,从而加速“人工智能+”进程 [1] - 中国MaaS市场在2024年呈现爆发式增长,规模达7.1亿元,同比增长215.7%,市场格局高度集中 [1][8] - MaaS作为大模型落地的核心载体,已在金融、政务、电信等行业产生积极成效,未来将向更普惠、安全的方向发展 [1][10][12] MaaS行业相关概述 - MaaS核心目标为降低人工智能技术使用门槛,控制应用建设成本,简化系统运维管理复杂度,提升人工智能技术的综合应用效能 [1][2] - MaaS主要提供三部分服务能力:全栈平台型服务、丰富资产库服务、基于AI模型的应用开发工具服务 [3] - 围绕模型服务生产及使用的全生命周期,形成了包含模型平台层、模型层以及应用开发层在内的MaaS三层落地框架 [4] MaaS行业发展背景 - 截至2025年7月27日,全球已发布大模型总数达3755个,其中中国企业贡献1509个,数量位居全球首位 [1][4] - 中国大模型应用市场规模2024年达到47.9亿元,较2023年实现跨越式增长,应用广泛分布于代码助手、数字人、智能客服等领域 [6] - 中央政府与地方政府多次在政策中提及“模型即服务”,如2025年8月国务院发布《关于深入实施“人工智能+”行动的意见》,为行业发展提供有力支持 [6] MaaS市场规模与驱动因素 - 2024年中国MaaS市场全年规模达7.1亿元,较2023年同比激增215.7% [1][8] - 市场发展受多重因素驱动:企业数字化、智能化转型需求;大模型技术持续演进;政府出台支持人工智能产业发展的政策 [8] - MaaS服务和产品在金融、政务、电信等行业不断落地,金融行业因其完善的技术储备和丰富的业务数据成为落地最多的领域 [10] MaaS企业格局 - 2025年上半年中国MaaS市场前五大服务商为火山引擎、阿里巴巴、百度、腾讯、中国移动,合计占据超80%市场份额 [1][11] - 火山引擎以37.5%的市占率位居企业之首,阿里巴巴市占率为21.0% [1][11] - 市场主要参与者分为三类:以阿里云、百度智能云为代表的云服务商;以商汤科技、百融云创为代表的人工智能企业;以中国移动等为代表的电信运营商 [11] MaaS行业发展趋势 - 大小模型协同将成为模型服务场景化落地的重要方式 [1][12] - MaaS服务的能力和内部接口将走向统一化 [1][12] - MaaS将催生基于大模型的应用新生态,并围绕模型服务持续强化安全保障 [1][12]
谷歌又来炸场!大热生图模型升级,Nano Banana Pro提供“摄影棚级别”精度和控制
美股IPO· 2025-11-21 09:05
产品发布与核心功能 - 谷歌发布基于Gemini的升级图像生成与编辑模型Nano Banana Pro,旨在将AI图像工具从消费级应用推向专业设计领域[4] - 新模型支持生成最高4K分辨率的图像,并在多语言环境下实现精确的文本渲染[1][4] - 模型提供专业级控制能力,用户可像使用专业相机一样调整拍摄角度、景深、色彩和光照等参数,甚至可将场景从白天转换为夜晚[1][4][14][15] - 在素材一致性方面,模型可保持最多五个角色和十四个物体的一致性[1][4] 技术突破与应用场景 - 新模型攻克了AI图像生成中长期存在的文本渲染准确性难题,能更好地规划文本位置、字体特征及其空间关系[9] - 该技术可将菜谱文本转换为图解流程图,可视化天气、体育等实时信息,或将草图转化为物体、手绘笔记转为图表[9][18] - 模型能创建针对国际市场的产品展示、海报和信息图表,支持用户描述所需字体类型或模拟不同手写风格[11] 商业化策略与市场定位 - 谷歌全球免费Gemini用户可在配额限制内使用Nano Banana Pro,付费AI计划订阅用户则拥有更高使用额度[6][20] - 新模型已集成至Canva、Figma、Adobe Firefly和Photoshop等主流设计工具,并通过Gemini API等向开发者开放[6][20] - 生成4K图像的成本为0.24美元,高于原模型生成1024像素图像的0.039美元[18] - 此次发布是谷歌在生成式AI竞赛中追赶OpenAI的重要一步,标志着其将AI技术商业化的最新尝试[6][22] 用户增长与市场反响 - Nano Banana Pro的前身Nano Banana在今年8月面世后帮助Gemini应用在四天内新增1300万用户[22] - Gemini App目前每月活跃用户超过6.5亿,由Gemini驱动的AI Overviews每月用户达20亿[22] - 相比之下,OpenAI的ChatGPT每周活跃用户达8亿,目前在苹果App Store免费应用榜单中排名第一,Gemini位居第二[22] - 谷歌AI产品需求持续增长,许多用户注册Gemini订阅计划以获得高级模型的更高限额[22] 辅助功能与未来规划 - 谷歌同步推出AI内容溯源功能,用户可上传图像查询是否由谷歌AI生成,该功能未来将扩展至音频和视频[6][21] - 谷歌为AI生成图像添加水印,免费或Pro方案用户创建的图像带可见水印,最高价Ultra方案用户可移除可见水印[21] - 公司计划继续扩大AI产品规模,重点包括AI电影制作工具Flow和"世界构建"模型Genie[23]
Gemini 3背后,一个带领谷歌AI翻盘的男人
36氪· 2025-11-21 08:47
OpenAI CEO奥尔特曼在社交媒体上发表评论称Gemini 3 "看起来是个很棒的模型";马斯克也一如既往地送上"Nice work"的评价。 全网创作者也都迫不及待体验一下Gemini 3,开发出了多种应用,比如有人重现经典游戏创建了3D吃豆人游戏。这种3D开发原本需要耗费大量时间精 力,但现在几句话就能搞定。 资本用实际行动对Gemini 3给予了肯定。19日,谷歌母公司Alphabet股价最高涨6.9%,达303.68美元,刷新历史新高,最终收于292.99美元,当日市值达 3.54万亿美元。 自ChatGPT诞生,人们把更多目光投向了OpenAI,或者是和它大抢人才的Meta,甚至是来自东方的DeepSeek,Gemini 3诞生后,谷歌AI的含金量在上升。 Gemini 3来自谷歌旗下AI研究团队DeepMind。该团队表示,Gemini 3是全球最先进的多模态理解模型、谷歌最强大的Agent编程和氛围编程模型,能呈现 更丰富的可视化效果和更深度的交互体验,且完全构建于最先进的推理技术基础之上。 北京时间11月19日凌晨,万众期待的谷歌最强推理模型Gemini 3正式揭开面纱,包括Gemini ...
OpenAI发布最强编程模型,可 “通宵” 处理任务;英伟达财报爆表,黄仁勋三次提及一家重要客户丨AIGC日报
创业邦· 2025-11-21 08:08
OpenAI模型升级 - 推出新一代智能体编程模型GPT-5.1-Codex-Max,在长远推理、工作效率及实时交互能力上实现显著提升,将取代GPT-5.1-Codex成为默认模型 [2] - 核心创新是引入"压缩"机制,允许模型在接近上下文窗口限制时智能保留关键信息,实现跨越数百万token的连续工作而不降低性能 [2] - 模型在内部测试中成功完成持续超过24小时的复杂任务,token效率提升约30%,有效降低开发成本与响应延迟 [2] 蚂蚁集团AI产品战略 - 蚂蚁集团CTO何征宇表示灵光App目前未嵌入支付宝App,强调不要为了AI而AI,AI能力已扩散到很多产品上 [2] - 谈及灵光App与阿里千问App的关系,何征宇形容为"共赴AGI战友、兄弟的感觉" [2] 英伟达客户与市场动态 - 英伟达CEO黄仁勋在财报电话会议上三次提及沙特初创公司Humain,该公司由沙特王储创立并由1万亿美元主权财富基金支持 [2] - Humain计划到2034年供应全球6%的人工智能计算能力,已宣布将15万颗英伟达芯片部署在沙特新"AI区"数据中心 [2] - Humain与xAI达成协议,在沙特建设一座500兆瓦的数据中心 [2] AI领域投融资 - AI原生金融科技平台RockFlow完成新一轮数千万美元融资,由蚂蚁集团领投,蓝驰创投等机构跟投 [2]
2025年度热词来了:AI相关词汇正高频进入我们生活
红杉汇· 2025-11-21 08:05
年度词汇总体趋势 - 各大权威词典和机构发布的2025年年度词汇显示,与人工智能相关的英文词汇正从技术术语演变为生活和社交中的高频词 [3] - 年度词汇不仅反映了AI技术的深远影响,也体现了社会在科技、健康、工作与生活方式上的最新潮流 [3][16] 2025年核心年度词汇:vibe coding - 英国柯林斯词典将“vibe coding”(氛围编程)评选为2025年年度词汇,指利用人工智能将自然语言转化为计算机代码 [4] - 该术语由OpenAI联合创始人Andrej Karpathy在2025年2月首次提出,描述了一种让程序员沉浸于编程氛围而无需手动编写代码的新方式 [5] - 该词在全球的使用频次在数月内暴涨,柯林斯词典从包含240亿词汇的语料库中捕捉到这一趋势 [5] - 2025年谷歌报告指出,软件开发专业人员的人工智能采用率已飙升至90%,比去年增长14个百分点 [5] 其他AI相关年度词汇 - “agentic”一词入围Dictionary.com 2025年度词汇候选名单,该词被用来描述能够自主执行任务和决策的AI技术(Agentic AI) [8][9] - “clanker”入围柯林斯2025年候选名单,该词源自《星球大战》,现成为网友吐槽AI或机器人的专用语,类似于中文的“人工智障” [10] - “slop”入围剑桥词典年度词汇候选列表,常被用来形容由AI生成的低质量、无价值的内容 [13] - 剑桥词典将“parasocial”(拟社会关系)选为2025年年度词汇,随着许多人将AI工具视为“朋友”或治疗替代品,该趋势呈现出新维度 [11][13] - 牛津大学出版社在2024年将“brain rot”(脑腐)评为年度词汇,该词指因过度浏览低质量网络内容导致的精神退化,其使用频率在2023至2024年间激增230% [14] 历年AI相关年度词汇回顾 - 英国柯林斯词典在2023年直接将“AI”评选为年度词汇,将其视为下一次技术革命的代表 [6] - 剑桥词典在2023年选择的年度词汇是“hallucinate”,该词在AI时代被赋予新含义,用于描述大语言模型胡编乱造、产出虚假信息的现象 [14] - 韦氏词典在2023年选择的年度词汇是“authentic”(真实),在AI生成内容泛滥的背景下,人们对该词的关注量暴增 [16] 非AI领域的年度生活趋势词汇 - Dictionary.com正式公布的2025年年度词汇是“67”,年轻人将其作为意为“还好”、“凑活”的口头禅,其搜索量从2025年6月开始显著上升 [17] - “biohacking”(生物黑客)进入柯林斯2025年候选名单,指通过各种方式改造人体自然机能以优化健康和寿命 [19] - “micro-retirements”(微退休)进入候选名单,描述了Z世代和千禧一代在不同工作期之间休息一段时间来追求个人兴趣的新趋势 [19] - “coolcation”(凉感假期)进入候选名单,反映了人们因气候变化而转向挪威、冰岛等气候凉爽目的地的度假新选择 [19]
分割一切并不够,还要3D重建一切,SAM 3D来了
具身智能之心· 2025-11-21 08:04
Meta SAM系列技术更新核心观点 - Meta发布SAM 3D和SAM 3两项重大更新,将图像3D理解与概念分割能力提升至新水平[1] - 两项新技术均具备业界领先的SOTA性能,并同步开放模型权重与推理代码[2][7] - 公司推出Segment Anything Playground平台,方便用户体验新模型能力[8] SAM 3D技术细节 - SAM 3D包含两个模型:SAM 3D Objects支持物体与场景重建,SAM 3D Body专注于人体形状与姿态估计[4] - SAM 3D Objects能从单张自然图像实现稳健、真实感强的3D重建与物体姿态估计,生成带姿态信息的3D模型[11][15] - 技术核心创新在于构建可扩展的数据引擎,通过标注近100万张图像生成约314万个3D网格,突破真实世界3D数据获取瓶颈[20][26] - SAM 3D Body基于全新开源3D网格格式MHR,构建于Transformer架构,使用包含约800万张图像的数据集训练,能处理遮挡、罕见姿态等复杂情况[30][31][33] SAM 3技术细节 - SAM 3引入可提示概念分割能力,能根据文本或图像提示找到并分割某个概念的所有实例,克服现有模型在细致请求下的困难[38][40] - 模型架构建立在Meta Perception Encoder等多项AI进展之上,检测模块基于DETR,跟踪模块基于SAM 2的memory bank技术[42] - 性能取得跨越式提升,将cgF1分数提升两倍,优于Gemini 2.5 Pro等基础模型和专业模型[44] - 推理效率极高,在H200 GPU上对单张含超100个检测目标的图像仅需30毫秒,视频中多目标情况下仍可保持近实时表现[44]
连夜测试 Nano Banana Pro,从创意玩具变成了专业工具
36氪· 2025-11-21 07:59
产品发布与定位 - 基于Gemini 3 Pro构建的多模态AI模型Nano Banana Pro(官方称Gemini 3 Pro Image)正式上线[1] - 产品定位从“创意玩具”升级为“专业”和“工作室级别”工具[2] 核心功能升级 - 具备更强的多模态能力和推理能力,文本渲染准确性更高[2] - 集成Google搜索能力,可先检索用户提示词以增强生成内容的相关性和真实性[2] - 支持2K/4K高保真图像输出,达到专业摄影室水平[2][6] - 支持自定义图片比例生成,包括16:9、21:9、1:1和9:20.9等多种比例[10] - 一致性能力升级,最多可使用14张参考图像保持多达5个人物的一致性[12] - 文字渲染准确性大幅提升,中英文混排时中文也能保证正确[29][31] 技术能力展示 - 支持多轮对话和局部调整,可轻易改变镜头角度、打光效果和画面调色[19] - 具备逻辑推理能力,能理解组件关系而非简单拼合[25] - 基于Gemini 3 Pro的多模态推理能力,能理解抽象表达并运用“世界知识”[29][31] - 在工作流中整合了Veo 3和Google Slides,可将生成图片作为关键帧生成视频并快速搞定PPT排版[19] 应用场景案例 - 生成《VOGUE》杂志封面级超写实肖像画,皮肤质感和发丝细节达到专业水平[4][6] - 生成啤酒海报宣传图并支持多比例延展,电商设计效率提升[8][10] - 生成多人自拍合影,保持人物一致性和自然的光线色彩[15][17] - 生成宫保鸡丁制作流程步骤图和植物光合作用流程步骤图等教育类插画[20][23] - 准确生成Windows 11操作系统桌面截图和游戏模拟器截图,理解界面组件关系[22][25][27] - 生成中国风插画并正确渲染古诗文字,告别“鬼画符”现象[29] - 生成咖啡店实景照片,包含倒影等细节,达到商业用途水平[31][33] - 成功为1979年老照片上色,处理大集体合照难题[34][37]
36个月大逆转,他带着谷歌AI杀回来了,下一步世界模型
36氪· 2025-11-21 07:53
模型性能与市场竞争 - Gemini 3 Pro在发布后于多个模型排行榜上表现优于GPT-5及其他模型,尤其在模拟推理和长时间规划方面表现更佳[12] - 谷歌Gemini应用的月活用户已超过6.5亿,而ChatGPT的周活用户在7-8亿(换算月活可能超10亿)[12] - 每月有超过20亿人通过Google搜索中的AI Overviews功能使用Gemini,约1300万开发者在产品中集成Gemini[12] 产品整合与商业化 - Gemini 3从发布之日起即全面增强谷歌现有产品,包括其利润可观的搜索业务,AI Overviews功能推动搜索查询量提升了10%[7][8] - 谷歌视觉搜索功能因依赖Gemini的照片分析能力而出现70%的激增[8] - 谷歌优势在于其深厚的产品“家底”,包括搜索、地图、Gmail、云服务等广泛基础产品线,并已实现所有产品完全运行在Gemini技术栈上[8] 技术路线与未来规划 - 谷歌在上下文窗口方面做了大量实验,并将其提升到100万个token,该记录尚未被真正打破[7] - 公司一开始就将机器人和眼镜视为重要应用场景,因此决定走多模态路线,Gemini已在多模态理解上显现出明显优势[8] - 公司追求打造“各方面都最强”的通用模型,将其视为通向AGI的关键,并预测实现完全AGI还需五到十年时间[13][14] 公司战略与行业定位 - 谷歌在AI领域长期投入巨大资源,曾在2017年发现Transformer模型架构但选择公开,未将其商业化[9][10] - 公司认为其在与OpenAI、xAI等AI厂商的竞争中处于“进可攻,退可守”的有利位置,既有扎实营收,又承担着公司“AI动力舱”的重任[8][15][17] - 公司正考虑通过Gemini重启谷歌眼镜项目,因通用助手可能成为其“杀手级用例”[8]
Nano Banana Pro 深夜炸场,但最大的亮点不是 AI 生图
36氪· 2025-11-21 07:53
奥特曼,迎来至暗时刻。 Google 的 AI 攻势没有半点减弱的迹象。如果说前几天 Gemini 3 Pro 的镰刀伸向了「前端」领域,那么今天则轮到了设计行业。 刚刚发布的 Nano Banana Pro(Gemini 3 Pro Image)再次在图像生成能力上重拳出击。初级设计师的饭碗,怕是要端不稳了。 核心功能如下: 分辨率支持:最高可输出 4K 分辨率图像 多轮编辑:支持对话式、多轮次的图像编辑工作流 多图像合成:最多可将 14 张输入图像组合为 1 张输出图像 搜索增强:集成 Google 搜索能力,提供更精确、最新的知识支持 不再「瞎猜」,Nano Banana Pro 终于学会了先思考再画画 Nano Banana 的招牌能力是角色一致性强、对话编辑方式,而 Nano Banana Pro 的核心进化在于它把 Gemini 3 的深度思考能力完整接进了图像生成流程。 提示词:请绘制一张四宫格图片,四张图依次表现同一位戴着斗笠的年轻男子分别发音「我」「上」「早」「八」,人物外貌保持一致,口型准确对应每 个字的发音,整体风格统一,16:9,4K 跨模态理解也在 Nano Banana Pro 身 ...
DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
36氪· 2025-11-21 07:53
昨天,DeepSeek 在 GitHub 上线了一个新的代码库:LPLB。 项目地址:https://github.com/deepseek-ai/LPLB 没有发推文,也没有公众号更新,少有的几个技术博主分享的推文也关注不多。截至目前,该项目的 star 数量也还没超过 200。 但仔细一看,这个项目却似乎并不简单,值得更多关注。X 网友 gm8xx8 评论认为这表明 DeepSeek 正在解决正确性和吞吐量瓶颈问题,为下一版模型发 布做准备。 项目简介 顾名思义,LPLB 是一个并行负载均衡器,它利用线性规划(Linear Programming)算法来优化 MoE(混合专家)模型中的专家并行工作负载分配。 具体来说,LPLB 通过以下三个步骤实现动态负载均衡: 动态重排序: 基于工作负载统计信息对专家进行重排序(Reordering)。 构建副本: 结合静态拓扑结构构建专家副本(Replicas)。 求解最优分配: 针对每个批次(Batch)的数据,求解最优的 Token 分配方案。 更具体而言,LPLB 的专家重排序过程由 EPLB 协助完成。而实时工作负载统计信息可以由用户提供、通过 torch.d ...