Seedream 4.0
搜索文档
16个AI的锦秋CEO大会海报比稿大战,谁能拿到设计费?
锦秋集· 2025-11-01 08:06
「锦秋AI实验室」 这是一档专注于探索和评测AI产品在实际场景中应用效果的栏目。 我们正在 用AI 解锁100个效率场景。 下一个场景会是什么? 今年,锦秋基金将以 「 Experience with AI 」 为主题, 举办首届CEO年度大会 。 这是锦秋第一次以这样一场科技与思想交织的形式呈现年会——我们想探讨的不只是AI本身,而是 科技、资本与创造力如何在AI时代重新相遇 。 我们希望这场活动,不只是一次关于AI的对话,而是一场关于 让AI被真正理解、被使用、被体验 的 真实场域。 在筹备过程中,一个问题忽然浮现: "如果这张海报,也由AI自己来生成,会是什么样?" 于是,一场横跨 16款 AI 工具 的"实战测评"就此展开。 对我们来说,这不是一次简单的产品测评,而是一场关于 中文语境、品牌美学与视觉创造力的真实 实验 。 01 产品的选择 为了让这场实验尽可能全面,我们选取了 16款 AI 文生图模型 ,涵盖全球主流产品、中国本土代表 及数个新兴平台。 我们想看看——当这些AI面对 中文语境与品牌表达 时,会给出怎样不同的"视觉答案"。 这既是一次对AI能力的检验,也是一场关于品牌视觉未来边界的探索 ...
AI几分钟生成的绘本,你敢给孩子读吗?
创业邦· 2025-10-31 08:08
以下文章来源于刺猬公社 ,作者刺猬公社编辑部 刺猬公社 . 互联网内容行业观察与研究 今年夏天,Gemini 推出Nano banana 模型,凭借着出色的角色一致性能力,引发了众多网友对 AI 图像生成的探索和关注。在该模型曝光不久前,Gemini AI 上线了 Storybook 故事创作功能,用户 仅需输入几句话描述情节,AI将自动生成10页图文内容的电子书。 图像模型的完善使得人们逐渐开始探索AI绘本功能的妙用。在短视频平台上有大量 AI 绘本视频,很 多视频附上英文字幕和配音,tag 标注为英语绘本、英语磨耳朵等,平均点赞量大几千,有的视频数 据则近百万。点开这些博主的主页,往往挂着启蒙绘本、英语绘本视频合集等购买链接。 AI 一键生成的绘本能读吗?为什么这些略显抽象的幻灯片放映似的视频能迅速走红?为了找到答案, 我开始着手调研和试用产品。 成为绘本创作者 只要一分钟 为了直观体验目前 AI 绘本技术的能力,我在 Google Gemini 里进行了一次测试。 点开AI绘本功 能,界面上出现了几个创作建议。 来源丨刺猬公社 ( ciweigongshe ) 作者丨 白棉 编辑丨 园长 2024年8月 ...
爆火的AI三宫格图片,比我们的生活更像电影。
数字生命卡兹克· 2025-10-24 09:32
社交媒体现象与用户参与度 - 三宫格AI图片在社交媒体平台(如抖音、小红书)上广泛传播,用户参与度极高,单条内容点赞量可达数千至数万次[3] - 该内容形式在各类社群中也极为流行,形成了广泛的用户互动和分享行为[5] - 内容创作主体多样化,包括各地文旅账号、宠物主题账号及普通用户,表明其具有广泛的适用性和吸引力[11][13] 技术实现与工具应用 - 所有三宫格图片均通过豆包平台上的Seedream 4.0 AI工具生成,凸显了该AI图像生成技术的强大能力[32] - 提供了标准化的提示词模板,用户可通过修改场景、人物、衣着、景别、动作、字幕等具体参数来定制生成内容,操作流程高度标准化且易于上手[33] - 生成图片的比例可调(如2:3、3:4、9:16),其中3:4比例因能增强电影感而受到推荐[34] 内容演变与创意表达 - 内容风格从初始的唯美电影感写真迅速演变为包含地方文旅特色、宠物恶搞、表情包等多种抽象和创意形式[10][11][13][17] - 创作素材来源广泛,涵盖游戏角色(如《宝可梦ZA》中的角色)、真人形象(如艺人陶喆)及影视角色(如斯内普教授)等,展示了强大的二次创作潜力[22][24][28] - 用户可根据固定框架自由发挥,创作出文艺、抽象或情感真挚等不同风格的内容,体现了该形式在创意表达上的灵活性[46] 现象背后的文化心理分析 - 该现象被视为十年前流行的“为照片添加黑边和字幕以模仿电影截图”风潮的技术升级版,核心用户心理未变,即执着于将个人生活“电影化”[47][49] - 用户行为本质上是为平淡或充满压力的日常生活“赋魅”,通过调用电影这一文化符号,为个人生活片段赋予故事性和意义[50][51][53] - “山的那边是什么”等经典台词成为一种精神寄托,AI技术工具使用户能够生成理想化的自我形象,以此向心中的彼岸致敬,这被认为是AI时代最迷人的特性之一[54][55][56][57]
张一鸣公开谈AI人才“过拟合”
搜狐财经· 2025-10-13 21:51
字节跳动AI战略与人才观 - 公司创始人张一鸣指出当前AI人才培养存在“过拟合”现象,即人才虽专业技能扎实,但面对创新任务时表现不佳 [1] - 张一鸣与上海交通大学ACM班创始人俞勇联手推出民办非营利机构“上海徐汇知春创新中心”,旨在培育新一代创新人才 [3] - 该举措被视为公司“AI野望”的关键落子,将人才视为决定算法进化上限的核心参数 [3] AI人才市场供需状况 - 2025年前7个月,AI岗位需求同比上涨10倍,但算法人才持续紧缺,“搜索算法”人才面临“5岗争2人”的极端供需矛盾 [3] - 在“新发AI岗位量最多企业TOP20”榜单中,字节跳动的招聘指数为29.83,位列首位 [3] - 在公司“2026校园招聘计划”中,计划招募超5000名应届毕业生,其中研发类岗位需求相比此前增加23% [8] 字节跳动AI业务布局与进展 - 公司几乎在所有关键AI赛道进行重磅布局,展现出前所未有的推进力度 [6] - 具体产品布局包括:4月开启Agent产品“扣子空间”内测;4月至6月每月升级通用大模型“豆包”,并于6月推出豆包1.6版本 [6][7] - 在多模态生成模型方面,视频生成模型“Seedance 1.0 pro”在文生视频、图生视频两类任务方面于国际知名评测榜单均排名首位;9月推出图像生成模型Seedream 4.0 [7] - Seed团队在7月入局具身智能赛道,推出全新VLA模型“Seed GR-3” [7] 创新人才培养模式 - 知春创新中心计划招聘对泛计算机和AI感兴趣的年轻人,从预备研究员做起,以实践探索中学习的方式培养人才 [9] - 公司希望培养的人才核心特质包括:独立思考、重视实践、关注长期和全局、在探索中学习、保持平常心、拥抱不确定性 [10] - 公司Seed工作室2026届人才招募计划“不限专业背景,更关注研究潜力;不拘泥既有技术,鼓励探索智能边界” [11] - 专家指出,公司寻求的是能够跨学科、跨领域、跨场景解决真实世界复杂问题的人才,而非仅解决已知固定问题的人才 [11] 公司战略重心与行业背景 - 张一鸣自2021年退出一线管理后,重心明显转向对公司未来十年新边界的探索 [13] - 其目标被解读为推动底层范式的突破,弥补中国互联网在从0到1原始创新上的欠缺 [14] - 合作方上海交大ACM班自2002年成立以来,培养出640名毕业生,其中99%从事计算机科学研究工作,被誉为中国计算机科学家的“摇篮” [4] - 张一鸣从2024年下半年开始,每月参加一次公司核心AI研发部门“Seed”的复盘和讨论会,持续关注AI业务 [5]
全球Agent产业化竞速
财通证券· 2025-10-12 14:42
报告行业投资评级 - 投资评级:看好(维持)[2] 报告的核心观点 - 全球大模型Agent能力产业化加速落地,发展主线已从“参数规模竞赛与榜单跑分”转向“Agent能力嵌入系统与核心入口”[7][10] - 本轮变革核心是大模型从“单一语言交互的能说会答”升级为“多模态感知的能看会做、全链路可控可管”,从单点技术突破转向系统化能力构建[7][10] - AI产业已步入规模化落地关键阶段,下一阶段竞争核心聚焦“工程化的三角”体系构建——涵盖Agent工程化、入口承载力、供给侧计量三大维度[7][47] - 海内外发展核心差异体现在节奏与财务结构选择:海外企业加速通用智能前沿探索但承担高财务风险,国内企业侧重“规模化盈利”但需警惕技术迭代滞后风险[7][56] - 产业终局将收敛至“通用智能即基础设施”,在“节奏把控”与“财务健康”间实现平衡者将在终局竞争中占据主导地位[7][56] 全球大模型Agent能力产业化加速落地 - 2025年9月以来,全球大模型领域重心加速从技术演示向产业化落地迁移[10] - OpenAI以Sora 2模型及独立Sora App推动视频生成技术进入商业化可运营期,整合了长镜头物理一致性、音画同步优化与内容分发功能[10] - Anthropic发布Claude Sonnet 4.5模型,强化“模拟电脑操作、长时任务执行”的工程化能力,聚焦“从榜单分数领先转向生产环境可用”[10] - Google将Gemini深度融入Chrome浏览器,以高频场景承载内容理解、跨标签协作,并推出专用模型实现浏览器内表单提交、流程测试等操作[10] - 国内厂商围绕“模型—入口—算力”协同布局,阿里巴巴、腾讯、字节、百度、快手、华为等公司的产业三角架构已初步成形[7][10] 海外头部厂商的AI系统升级路径 - **OpenAI**:视频生成进入“产品—合规—分发”三位一体的运营期,Sora App发布后数天下载量即跃升至百万量级,平台侧治理与合规被前置为重要工程任务[12] - **Anthropic**:从“会答题”到“会做事”,以工程化链路把Agent落到生产,Claude Sonnet 4.5在长时任务上可“连续数十小时保持同一项目上下文”[13][14] - **Google**:把智能嵌入浏览器入口,Gemini 2.5 Computer Use专用模型可通过对界面截图的视觉理解与推理,循环产生“点击、输入、滚动、下拉选择”等13类原子动作[18] - 海外厂商共同方向是用产品形态与系统接口承载Agent,让模型从“能说会答”升级到“能看会做、可控可管”,并把入口与工具链做厚[7][22] 模型—入口—算力三线合围的中国路径 - **阿里巴巴**:发布Qwen3-Max旗舰基模,Qwen3-Max-Instruct在SWE-Bench Verified获69.6分,在Tau2-Bench以74.8分超越ClaudeOpus4与DeepSeek-V3.1[23][27] - **腾讯**:推出智能体开发平台3.0(ADP 3.0),新增近600项功能,“元宝”日提问量较年初增长30倍,跻身国内AI原生应用DAU前三,软件开发中AI生成超50%的新增代码[28] - **百度**:发布文心大模型X1.1,事实性提升34.8%、指令遵循提升12.5%、智能体提升9.6%,在权威基准评测中与GPT-5、Gemini2.5Pro效果持平[29][30] - **快手**:可灵2.5 Turbo模型定价下调30%,高品质5s视频生成灵感值从35降至25,视频效果实现超世代提升[33] - **华为**:推出CloudMatrix384超节点承载的AITokenService推理计量服务,全球AI云服务客户已增至1805家[38][39] - **字节跳动**:Seedream4.0推理提速超10倍,在MagicBench评测中,文生图与图像编辑居业界头部,单图编辑综合Elo排第一[41][44] - 国内厂商共同方向是以“旗舰基模”确立能力上限,以“Agent/ADP/ADK”打通开发与运维,以“算力与计量服务”稳定供给[7][46] 海内外AI升级共振与产业终局研判 - 全球路径同步收敛到三件事:把模型升级为能理解多模态、能操控界面与工具的Agent;用标准化工具链降低企业引入成本;把高频入口与供给侧能力做厚[47] - OpenAI通过“资本+供给”的复杂交易结构锁定未来算力,与Nvidia、AMD达成直供与协同开发并含股权安排的长期协议,被称为“循环式”或“以股换供给”的结构创新[47] - Agent工程化是企业规模化落地的核心壁垒,需将工具使用的接口标准化、长程规划的算法模块化、可审计动作序列的日志体系规范化[51] - 入口承载力是C端与办公场景渗透的关键抓手,需实现“生成内容直接关联操作指令”并完善“校验→回滚”机制,以提升用户DAU与功能复用率[52] - 供给侧计量是大客合作与生态构建的信任基石,需将推理计量、并发调度与成本弹性转化为可量化、可对账的产品能力[53] - 海外路径侧重“交易结构创新+自托管预备”以锁定长期资源,中国路径聚焦“体系力+性价比”通过全产业链协同降低成本[54][55]
从摄影棚到Prompt:锦秋基金用AI拍了组官网团队照片
锦秋集· 2025-10-11 16:59
文章核心观点 - AI生图模型在人物身份一致性方面已接近“直出可用”水准,能够替代传统摄影完成企业职业照拍摄[3][4][5] - 通过对比测试,字节的Seedream 4.0模型在人物一致性、皮肤质感、光影细节方面表现优于Google的Nano-Banana,被选为最终生成工具[7][20] - AI生成职业照标志着该技术从“尝鲜”迈向“可用”,将改变企业视觉资产的管理方式,使其从一次性“成品”变为可持续运营的“资产”[36][37] 制作流程与模型选择 - 选择Google的Nano-Banana和字节的Seedream 4.0作为主要测试工具,因其在前期测评中能稳定保留人物面部特征且效果自然[7] - 测试对象为4位同事(2男2女),通过在社交媒体挑选理想参考图并结合ChatGPT撰写提示词进行优化[8][10][12] - 最终选定Seedream 4.0完成三组职业照的完整生成,因其在人物一致性、皮肤质感和光影细节方面表现更优[20] AI生成效果评估 - Seedream 4.0能出色呈现光影质感,轻松解决户外集体写真因时间流逝导致光线不统一的问题[24] - 模型能还原原图中被过度修饰的皮肤自然纹路(如法令纹),在保持美观的同时使画面更自然可信[24] - AI技术使人物表情变得更生动自然,能重构面部表情与神态,解决了摄影师难以彻底调整表情的难题[24] - 模型能准确保留服装上的品牌Logo细节,并根据原始图片与提示词的差异程度,智能调整人物神态、角度和动作[30] 技术当前局限性 - 当参考图表情中性而提示词要求微笑时,模型生成的表情普遍雷同、刻板,难以进行差异化调整[40] - 在局部替换(如统一换上文化衫)的准确度上,Seedream 4.0略逊于Nano-Banana,因此服装替换部分由后者完成[40] - 模型在生成人物动作与姿态时,输出结果要么几乎未改变原图姿态,要么动作略显僵硬[41] - 部分同事对生成照片不满意,尤其集中在人物面部表情上,且普遍反馈Nano-Banana生成图会使人物显得比实际年纪偏大[39][41] 行业影响与未来展望 - AI职业照技术正重塑企业视觉表达方式,使团队照不再受摄影师日程和光线限制,成为随时可调的“变量”[38] - 该技术将职业照从周期性、集中式的事件转变为可持续运营的“资产”,企业可像更新产品版本一样随时迭代团队形象[37] - AI提供“参数化”风格统一,能在保持整体品牌识别度的同时,根据个人气质和使用场景进行灵活微调[37] - AI生成的职业照被视为数字身份的基座,未来可能应用于虚拟会议、数字展台、企业内部系统及AI驱动的虚拟助理等更多场景[37]
张一鸣公开谈AI人才“过拟合” 透出字节跳动的“创新焦虑”与“AI野望”
每日经济新闻· 2025-10-10 22:45
张一鸣对AI人才培养的观点与举措 - 字节跳动创始人张一鸣指出当前AI人才培养存在“过拟合”现象,即人才专业知识扎实但面对创新任务能力不足 [1][7] - 张一鸣与上海交通大学ACM班创始人俞勇联手推出民办非营利机构“上海徐汇知春创新中心”,旨在招聘对泛计算机和人工智能感兴趣的年轻人,培育新一代创新人才 [1][6] - 创新中心计划培养思维活跃、有热情和韧性的人才,核心特质包括独立思考和重视实践,关注长期和全局,在探索中学习 [8] AI人才市场供需状况 - 2025年前7个月,AI岗位需求同比上涨10倍,但算法相关人才持续紧缺,“搜索算法”人才面临“5岗争2人”的极端供需矛盾 [1] - 在“新发AI岗位量最多企业TOP20”榜单中,字节跳动的招聘指数为29.83,位列首位 [1] - 字节跳动在“2026校园招聘计划”中计划招募超5000名应届毕业生,其中研发类岗位需求相比此前增加23% [6] 字节跳动的AI战略布局与产品进展 - 公司几乎在所有关键AI赛道进行重磅布局,展现出前所未有的推进力度 [4] - 2025年4月开启Agent产品“扣子空间”内测,主打生产力提升、专家能力支持等功能 [5] - 公司对通用大模型“豆包”提升迅速,在4月至6月每月进行能力升级,6月正式发布豆包1.6版本 [5] - 在多模态生成模型上加码,视频生成模型“Seedance 1.0 pro”在文生视频、图生视频两类任务方面于国际评测榜单排名首位 [5] - 9月推出图像生成模型Seedream 4.0,支持文生图、图像编辑等功能 [5] - 7月入局具身智能赛道,推出VLA模型“Seed GR-3”,构建连接模型和硬件的桥梁 [5] 行业专家对AI人才与创新的评论 - 专家指出企业推进AI落地需要既懂业务又懂AI的复合型人才,若不具备则需通过组织能力培养补齐 [9] - 企业应设立专注于“AI+”业务创新中心,并让业务人员与AI技术人员在项目早期紧密协作,避免模型开发与业务需求脱节 [9] - 张一鸣自2021年退出一线管理后,重心转向探索公司未来十年新边界,旨在推动从0到1的原始创新和底层范式突破 [9] 张一鸣的个人参与与公司动向 - 张一鸣自2024年下半年开始,每月参加一次公司核心AI研发部门“Seed”团队的复盘和讨论会 [4] - 公司Seed工作室在2025年4月率先启动2026届人才招募计划,不限专业背景,更关注研究潜力,鼓励探索智能边界 [8]
Sora2之后,又来了个全新的影视级AI视频模型,它的名字,叫GAGA。
数字生命卡兹克· 2025-10-10 09:33
文章核心观点 - 公司推出的AI视频模型GAGA-1在人物表演领域表现出色,尤其在台词同步和情感表达上达到较高水准,为短剧、互动影游等内容创作提供了新的低成本工具 [3][19][20][59][60] - 该模型目前处于免费使用阶段,其定价策略预计将远低于Sora2和Veo3等竞争对手,具备市场普及潜力 [12][55][57] - 作为国产模型,GAGA-1的上线标志着AI视频领域的技术进步,尽管在复杂动作、多语言支持及工作流集成方面仍有优化空间 [52][53][61] 产品功能与性能 - 模型核心功能为“Gaga Actor”,专注于生成带台词的人物表演视频,支持5秒和10秒两种固定时长,建议台词字数不超过20个 [16][17][18][21] - 生成视频需结合输入图片和文本提示词,一次生成耗时约3至4分钟,支持最多5条并发生成 [22][28] - 在人物神情、头发细节、牙齿等细微之处表现优异,表演真实度被评价为接近影视级别,尤其在短剧和影游级应用上效果良好 [20][21][30] 技术优势与特点 - 模型能够准确识别并表现复杂的表演动作和情绪,如叹气、咬嘴唇、哭泣、歇斯底里等,并能展现不同的表演层次 [32][34][35][39] - 支持图片中多人物互动,能分别处理不同角色的神态和语音表现 [46] - 具备一定的唱歌功能,尽管音调表现尚不完善 [48][50] - 能够识别角色国籍并调整语言表现,例如识别外国角色并使用蹩脚普通话 [44] 当前局限性 - 对大幅度、复杂运动支持不佳,例如手部动作容易出现变形 [52] - 台词生成能力相较于表演层次稍弱,念白较为平淡,且长提示词可能导致吞字现象 [35][36][42] - 多语言支持不均衡,日文表现诡异,其他语言支持程度不明 [53] - 缺乏音色ID固定和自定义音频上传功能,导致每次生成的音色不一致,影响工作流集成 [53] 市场定位与定价策略 - 产品目前完全免费开放使用,无需邀请码或排队,旨在吸引用户体验和积累用户 [12][55] - 公司明确表示未来定价将远低于Sora2和Veo3,但具体收费时间和方案尚未确定 [56][57] - 模型定位为降低视频创作门槛,目标应用场景包括短剧、互动影游NPC对话、小说角色可视化等 [59]
开源仅一周,鹅厂文生图大模型强势登顶,击败谷歌Nano-Banana
机器之心· 2025-10-05 14:42
行业竞争格局 - 腾讯混元图像3.0以1167分登顶LMArena文生图完整榜单第一,超越谷歌Gemini-2.5-flash-image-preview(1151分)、字节跳动Seedream-4-2k(1144分)和OpenAI GPT-Image-1(1126分)等竞争对手 [1][2] - 图像生成领域呈现多模态融合与智能深化趋势,从“能生成”向“能理解、能推理、能控制”演进 [55] - 开源成为核心推动力,国内AI公司通过开放模型权重借助社区协作实现快速迭代 [56] 公司技术实力 - 混元图像3.0参数量达800亿,推理时每个token激活130亿参数,是公司规模最大、性能最强的开源文生图模型 [3] - 模型采用混合式离散-连续建模策略,在统一框架内融合语言建模、图像理解和图像生成三大功能 [42][43] - 基于超百亿规模原始图像库筛选构建近50亿张高质量训练数据集,数据纯净度不足45% [45] - 通过四阶段渐进式预训练和包括SFT、DPO、MixGRPO、SRPO及ReDA在内的后训练策略优化模型表现 [49][53] 产品性能表现 - 模型具备原生多模态架构和世界知识推理能力,能理解复杂提示并生成连贯故事场景,如“曹冲称象”九宫格漫画 [9] - 在精确文字生成和长文本渲染方面表现突出,有效改善文字乱码和字形扭曲问题 [16] - 支持多分辨率图像生成,在文图一致性与视觉质量方面超越Seedream 4.0、Nano Banana、GPT-Image等顶尖模型 [51][54] - 发布一周内GitHub星数突破1.7k,社区热度持续攀升 [6] 公司战略布局 - 公司围绕混元模型家族形成全栈式AIGC体系,涵盖图像领域的混元图像3.0、3D领域的混元3D 3.0、视频领域的HunyuanVideo以及世界模型HunyunWorld-1.0 [56] - 积极布局开源生态,混元翻译模型Hunyuan-MT-7B和世界模型HunyuanWorld-Voyager曾在Hugging Face趋势榜前三占据两席 [56] - 广泛的业务矩阵(社交、内容生产、广告推荐、游戏)为技术落地提供丰富场景和数据支撑 [58]
行业观察 | Token市场占据半壁江山,火山引擎在打什么牌?
搜狐财经· 2025-09-22 23:16
中国AI云市场竞争格局 - 2025年中国AI云市场竞争激烈 阿里云 火山引擎 百度智能云均公开宣称自身优势[2] - 火山引擎2024年营收超110亿元 增速超60% 2025年营收目标超200亿元[2] - 火山引擎在IDC五份报告中的四份跻身前列 两份报告位居首位[2] 火山引擎市场地位 - 2025上半年火山引擎在大模型公有云服务市场份额达49.2% 接近半壁江山[3] - 2024年全年火山引擎在大模型公有云服务市场份额为46.4%[3] - 2024年AI基础设施市场份额9%居国内第三 生成式AI基础设施市场份额14.2%居国内第二[3] Token调用量核心指标 - 火山引擎更关注Tokens调用量而非GPU算力规模 认为这更能反映大模型产业落地真实水温[6] - 2024年中国云厂商Token调用收入总和不超过10亿元 但正以10倍以上速度成长[7] - IDC数据显示2024年6-12月中国大模型调用量增长近10倍[7] Token市场增长数据 - 2025上半年中国大模型公有云Tokens调用总量达537万亿次[7] - 火山引擎方舟平台Token调用量同比增长3.98倍[7] - 字节跳动内部产品Tokens消耗量未被统计 若计入市场份额会更大[7] Token经济模式优势 - Token收入可能在未来1-2年增长至百亿元规模 年增速可达3-10倍[8][9] - 相比低价销售GPU资源的"一锤子买卖" Token模式带来经常性收入[9][10] - 按Token计费降低开发门槛 使算力计费更清晰 ROI更易衡量[11] 行业发展趋势 - AI算力消耗从训练转向推理 "卖Token"模式正变得越来越流行[12] - 2024年初中国日均Token消耗量1000亿 2025年6月底突破30万亿 一年半增长300多倍[12] - 2024年7月火山引擎率先降价90% 引发行业跟进 2025年2月DeepSeek模型走红推动爆发[13] 未来增长预测 - 2025年底-2026年初多模态模型和Agent成熟将推动新一轮Token消耗增长[17] - 单次视觉任务消耗算力可能超10万Tokens 是文本对话的成千上万倍[17] - 预计2027年豆包大模型日Tokens消耗量超100万亿 较2024年增长至少100倍[18] 字节跳动生态优势 - 字节跳动内部AI需求领先外部市场约4-5个月[19] - 豆包大模型2025年5月日均Tokens调用量16.4万亿 较2024年5月1200亿增长137倍[29] - 月均Tokens调用量超500万亿 超过谷歌2025年5月的480万亿[23][29] 技术实力表现 - 字节跳动Seedream 4.0图像模型文字转图像能力全球第一 图像分析能力全球第二[30][33] - 豆包App月活跃用户1.41亿 居国内AI原生App第二[34] - 火山引擎AI基础设施吞吐效率更高 每秒Token输出量达其他厂商2.6倍[35] 国际对标与战略目标 - 谷歌Gemini模型2025年7月月处理Tokens达980万亿 带动谷歌云营收增速提升10个百分点[23] - 火山引擎目标在MaaS市场保持份额第一 2030年前成为千亿级云和AI公司[35] - Token模式成为AI时代改变云计算竞争格局的新武器[36]