多模态内容创作
搜索文档
沙利文:中国企业级大模型日均调用量提升至37.0万亿tokens 阿里千问领先优势扩大占比第一
智通财经网· 2026-02-24 11:14
全球AI厂商发布策略分化 - 2025年下半年,全球AI厂商发布策略显著分化,中国厂商依托规模化投入在开源生态中占据主导地位,海外厂商则持续聚焦闭源主线,发布频次与覆盖广度相对有限,呈现出“少而影响力集中的闭源发布特征” [1][2] - 中国闭源基础模型赛道快速收敛,头部效应在2025年下半年集中显现,而开源模型全面爆发,中国成为全球开源大模型创新引擎 [2] 中国企业级大模型调用量跃迁 - 2025年下半年,中国企业级大模型日均调用量提升至37.00万亿tokens,较2025年上半年的10.19万亿tokens增长263%,实现阶段性跃迁 [1][4] - 调用量跃迁反映出AI在企业中的定位发生变化,正从零散辅助走向关键流程的深度嵌入,增长核心来自单个业务流程中AI调用频次与覆盖环节的提升,大模型逐步成为企业提升生产效率的重要通用能力 [4] - 增长的核心驱动来自Agent相关架构在企业侧加速落地,以及模型能力与工程化配套持续提升,2025年12月日均tokens达到阶段高点并显著高于下半年均值 [4] 开源与闭源模型调用格局变化 - 2025年下半年,开源模型和闭源模型的调用量均呈现显著提升,其中开源模型调用量占比反超闭源模型,成为企业级大模型的主流部署模式 [7] - 企业新增调用主要来自两类需求:面向核心系统与对外服务的扩容(优先选择闭源模型),以及内部效率工具与业务支撑应用的新增或快速扩张(更适合由开源模型承接),两类需求同步增长 [7] - 随着应用进入持续、高频的规模化使用,成本与可控性的重要性显著上升,开源模型通过本地化部署等方式降低单位tokens使用成本,推动其在新增调用中占比提升 [7] 企业模型迁移意愿与方向 - 企业级大模型调用流转意愿整体增强,且迁移结构仍明显偏向“闭源转向开源”,闭源用户向开源增配的意愿由22.6%升至48.5%,开源用户向闭源增配的意愿由5.0%升至7.5% [9] - 随着调用规模扩大,闭源模型按调用计费带来的成本压力被放大,促使企业将一部分可标准化、可替代的通用场景逐步迁移或增配到开源体系,以提升成本可控性 [9] 主要应用场景与增长方向 - 文本内容创作(19.4%)、问答助手(13.7%)、数据处理与分析(12.9%)、内部知识问答(12.6%)、代码生成与辅助(12.4%)是企业大模型应用占比最高的基础场景 [11] - 从增长维度看,多模态内容创作以+11.9%的增速位居首位,显著高于AI搜索(+4.7%)与智能客服(+4.4%),成为2025年下半年增长最快的业务场景 [11] 市场集中度与厂商格局 - 2025年下半年企业级大模型市场向头部厂商高度集中,企业在调用规模扩大阶段,对供应商的选择逐步收敛为两条路径:依托云平台的一体化能力,或在非核心场景中以更低成本承接部分流量作为补充 [14] - 随着模型嵌入关键业务流程,企业更倾向于压缩供应商数量以降低长期运维负担,在日均调用规模提升至万亿级tokens后,高并发、长周期场景下的新增流量通常优先投向已验证具备稳定承载能力的头部厂商 [14] - 以阿里云千问为代表的模型,凭借算力调控能力、生态适配能力与规模化成本优势,更容易在增量需求中获得持续导入,推动企业级市场份额进一步集中,其占比从2025年上半年的17.7%跃升至下半年的32.1%,几乎翻倍 [1][14]
Seedance 2.0正式发布
格隆汇· 2026-02-12 14:28
产品发布与核心升级 - 字节跳动于2月12日正式发布新一代视频创作模型Seedance 2.0 [1] - 模型采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入 [1] - 相比1.5版本,Seedance 2.0的生成质量大幅提升,在复杂交互和运动场景下的可用率更高,物理准确度、逼真度、可控性显著增强 [1] 技术能力与性能亮点 - 模型在复杂场景下具备更高可用率,在多主体交互和复杂运动场景中表现出色,生成可用率达到业界SOTA水平 [1] - 多模态能力显著强化,支持混合模态输入,允许用户同时输入多达9张图片、3段视频、3段音频以及自然语言指令 [1] - 模型可参考输入素材中的构图、动作、运镜、特效、声音等元素,打破传统视频生成的素材边界 [1] - 视频生成可控性大幅提升,指令遵循与一致性表现全面提升,并支持稳定可控的视频延长、视频编辑 [1] 应用场景与商业价值 - 模型深度支持工业级内容创作,支持15秒高质量多镜头音视频输出,具备双声道音频能力,可实现极致拟真的视听效果 [2] - 配合其参考和编辑能力,能大幅降低影视、广告、电商、游戏等场景的内容制作成本 [2]
2026 年,商业变革者将面对什么?a16z 的最新趋势观察
36氪· 2026-01-29 18:58
垂直AI与多人协作模式 - 垂直AI行业软件在医疗、法律、住房领域实现快速增长,部分公司年化收入达到1亿美元以上[2] - 垂直AI演进路径从信息检索(找到、提取、总结)发展到2025年的推理能力(分析财报、跨系统对账、诊断问题)[2] - 2026年垂直AI将解锁“多人模式”,通过跨角色协调(任务路由、保持上下文、同步变更)解决多方协作问题,使AI智能体能够代表各方(如买卖双方、租户、顾问)在特定权限和流程内协同工作[2][3] - 多人协作模式将提升任务执行成功率,并使协作层本身成为AI应用的网络效应和护城河,增加用户切换成本[3] AI-native教育 - 预计到2026年将出现第一所从底层围绕智能系统构建的AI-native大学,形成一个能实时学习与自我优化的学术有机体[4] - AI-native大学的核心特征包括:课程表自动优化、阅读清单每日更新并随研究重写、学习路径根据学生节奏实时调整[4] - 教授角色将转变为学习架构师,负责策划数据、调优模型并教导学生质询机器推理[4] - 评估方式将转向AI感知型评价,重点评判学生如何使用AI,而非是否使用AI,透明且审慎的AI应用将成为新标准[4] - 这类大学旨在培养精通AI系统编排的人才,以助力劳动力结构快速转型,成为新经济的人才训练场[4][5] - 已有前兆出现,如亚利桑那州立大学与OpenAI的全校合作催生了数百个AI项目,纽约州立大学已将AI素养纳入通识教育要求[4] Agent-native基础设施 - 到2026年,企业基础设施面临的最大冲击来自工作负载变化:从面向人类、低并发的访问模式转向由智能体驱动、递归触发、突发且大规模的新型负载[6] - 传统后端系统围绕人类1:1操作模式构建,无法应对智能体在毫秒级别触发数千个子任务、查询和API调用的需求,常被误判为异常流量或DDoS攻击[6] - Agent-native基础设施需要重新设计控制平面,将“惊群效应”视为默认状态,大幅缩短冷启动时间,压缩延迟波动,并将并发上限提升数个数量级[7] - 真正的竞争瓶颈转向协调问题(路由、锁、状态管理、策略执行),最终具备竞争力的是能承受高频工具调用与复杂并发协调的平台[7] 多模态与视频内容创作 - 2026年可能是AI真正实现多模态创作的一年,创作者可将任何形式的参考内容(如图像、视频、声音)提供给模型,与之协作创作新内容或编辑现有场景[8] - 早期多模态产品已出现,如快手的Kling O1和Runway的Aleph模型,但模型层与应用层仍需持续创新[8] - 内容创作是AI最具杀伤力的应用场景之一,预计将诞生多个成功产品,覆盖从表情包创作者到好莱坞导演的不同用户群体[9] - 到2026年,视频将变成可“进入”的空间,视频模型能够理解时间、记住内容、对用户行为作出反应并保持长时间连贯性,使视频成为一种可被“构建”的媒介[10] - 这种转变让视频成为机器人训练、游戏演化、设计原型和智能体实践学习的“活的环境”,弥合感知与行动的鸿沟[10] AI应用价值衡量与商业模式 - 随着AI应用发展,以“屏幕时间”作为价值交付核心指标的时代将终结,基于结果定价和对齐供需激励的模式将兴起[11] - 现实变化已出现:例如使用DeepResearch查询、Abridge自动记录医患对话、Cursor自动开发应用、Hebbia生成路演材料等工具,在用户几乎不看屏幕的情况下交付巨大价值[11] - 挑战在于需要更复杂的ROI衡量方式,涉及医生满意度、开发者效率、金融分析师身心状态等,能够清晰阐述ROI的公司将持续领先[11] 世界模型与交互式叙事 - 到2026年,由AI驱动的世界模型(如Marble、Genie 3)将通过交互式虚拟世界和数字经济彻底重塑叙事方式,能根据文本生成完整的3D环境供用户探索[12] - 这些工具将催生全新的叙事形式,甚至演化为由玩家共同构建的“生成式Minecraft”宇宙,模糊玩家与创作者的边界[12] - 互联的生成式多重宇宙可能出现,不同题材并存并繁荣数字经济,这些世界还将成为训练AI智能体、机器人乃至AGI的高价值模拟环境[12] 个性化系统 - 2026年将成为“属于我的一年”,产品趋势从为大众批量生产转向为个体“你”而打造[13] - 在教育领域,像Alphaschool这样的公司正在打造根据每个学生节奏与兴趣调整教学的AI导师,提供以往需数万美元辅导费用才能实现的个性化体验[13] - 在健康领域,AI能根据个体生物特征设计补剂、训练与饮食方案;在媒体领域,AI让创作者将内容重混为符合个人兴趣与语气的内容流[13] 自主科学发现 - 随着多模态模型能力与机器人操控能力提升,将加速推进“自主科学发现”,催生能够闭环完成从提出假设、设计执行实验到推理产出的自主实验室[14][15] - 构建这类“熄灯实验室”需要融合AI、机器人、物理与生命科学、制造、运营等多学科专长,实现持续实验并在多领域推动连续性科学发现[15] AI应用分发与消费市场 - ChatGPT凭借9亿用户、OpenAI Apps SDK、苹果mini-app支持及群聊功能,正成为AI“应用商店”和新的原生分发渠道[16] - 这一新渠道预计将在2026年引爆一次“十年一遇”的消费科技淘金潮,为消费级开发者提供直接触达海量用户的增长机会[16] 语音智能体与企业集成 - 语音AI智能体已从科幻走向现实,被成千上万家企业用于预约、预订、调研等信息采集工作,为企业节省成本并创造收入[17] - 未来趋势是语音智能体从处理单点电话场景扩展到处理完整的多模态工作流,甚至管理完整的客户关系周期[17] - 随着底层模型进步,智能体将更深度集成到企业系统并被赋予处理更复杂互动的自由度,运行“语音优先”的AI产品优化关键业务环节将成为普遍选择[17] 主动式AI应用与工作流 - 2026年,主流AI应用的可见提示词输入框将走向终结,下一波应用将主动观察用户行为并介入给出行动建议(如IDE提前提出重构方案、CRM自动起草跟进邮件)[18] - AI将成为嵌入每一个工作流的“无形脚手架”,由意图驱动而非指令驱动,聊天界面只是过渡阶段的“辅助轮”[18] 企业多智能体系统与组织变革 - 到2026年,企业将从孤立的AI工具转向需要像协同数字团队一样运作的多智能体系统,共同管理复杂、相互依赖的工作流[19] - 《财富》500强企业将最强烈地感受到这种变化,将割裂的数据、机构知识和运营复杂性转化为自治“数字员工”的共享底座,以实现更快决策和端到端流程[20] - 这一转变将催生新的职能角色,如AI工作流设计师、智能体监督员、治理负责人,并需要全新的“协调系统”层来管理多智能体互动和确保可靠性[20] 消费级AI向连接性转变 - 2026年主流消费级AI产品将从“生产力”转向“连接性”,AI不再只是帮助完成工作,而是帮助用户更清晰地看见自己并建立更强人际关系[21] - 随着多模态上下文窗口扩大和推理成本下降,AI产品可以从用户生活的“完整纹理”(如相册、沟通模式、日常规律)中学习,而非仅从聊天记录学习[21] - “看见我”类产品依靠持续连接带来日常使用,其使用模式比解决具体任务的“帮助我”类产品更具粘性,尽管单次愿付费可能更低[21] AI研究辅助与工作流 - AI正更广泛地用于研究,尤其是在推理密集领域,模型不仅能辅助发现,还能自主求解高难度数学问题[22] - AI研究预计将催生并奖励一种新的“博学者式”研究风格,强调对思想之间关系的猜想能力,并能从猜想性答案中迅速外推,有时能利用“模型幻觉”打开新发现[22] - 这种研究需要“agent包裹agent”的多层模型工作流,以及模型间更好的互操作性和识别补偿贡献的方法,加密技术可能有助于解决后者[23] 数据隐私与访问控制 - 当前大多数数据管道(模型输入与输出的数据流)不透明、可变且不可审计,这在金融、医疗等需要保护敏感数据的行业成为阻碍[24][25] - 缺乏数据访问控制迫使主体使用中心化服务或自建定制方案,耗时昂贵且阻碍释放链上数据管理的收益[25] - 解决方案是发展“秘密即服务”,提供可编程、原生的数据访问规则、客户端加密和去中心化密钥管理,强制规定解密权限、条件和持续时间,并结合可验证数据系统将其变为核心基础设施[25] AI初创公司竞争策略 - 当前处于前所未有的公司创建时期,初创公司若想在分销上超越积极采用AI的老牌企业,有效策略是从公司成立之初就为其提供服务,并与新客户共同成长[26] - Stripe、Deel、Mercury、Ramp等公司都遵循了服务初创公司并伴随其成长的策略,Stripe的许多客户在公司成立之初甚至还不存在[26] - 2026年,从零开始服务初创公司的企业将在众多软件领域实现规模化发展,关键在于打造更好产品并全力开发尚未被现有厂商束缚的新客户[26]