火山方舟
搜索文档
“发展速度太快了”,马斯克点赞Seedance 2.0,字节称“还远不完美”
36氪· 2026-02-13 09:54
核心观点 - 字节跳动发布视频生成模型Seedance 2.0,凭借其多模态与长叙事等专业能力引发海外市场高度关注,并迅速推进产品化,接入旗下多个平台及开放企业端试用,标志着生成式视频模型正加速进入大众化产品与企业工具链 [1][5][7] 产品发布与接入 - Seedance 2.0已正式发布,并全面接入豆包App、电脑端、网页版以及即梦产品,同时上线火山方舟体验中心供用户试用 [5][8] - 面向企业端,预计在2月中下旬,Seedance 2.0的API服务将上线火山方舟,为企业客户提供标准化调用服务 [8] 技术能力与定位 - 模型主打多模态输入,支持文字、图片、音频、视频四种模态混合输入,参考构图、动作、运镜等元素 [10] - 具备原声音画同步与多轨并行输出能力,支持背景音乐、环境音效等多轨音频并与画面节奏对齐 [10] - 拥有多镜头长叙事与“编导思维”,可自动解析叙事逻辑,生成镜头序列并保持角色、光影等要素统一 [10] - 新增视频编辑与视频延长能力,强化“导演级操控”的工作流属性 [10] - 公司定位该模型旨在满足专业生产场景要求,声称其较好解决了物理规律遵循及长效一致性等难题,在运动场景下的生成可用率达到业界SOTA水平 [8] 市场反响与热度 - 模型在海外迅速走红,马斯克在X平台转发相关内容并评论“It‘s happening fast”,感叹其发展速度,将热度从技术圈层扩散至更广泛的科技投资与产品关注人群 [1][7] - 马斯克的公开评价强化了“发展速度”的市场叙事,可能提升外界对公司多模态能力的关注度并对相关产业链估值预期产生边际影响 [7] 公司表态与产品局限 - 公司官方表示Seedance 2.0“还远不完美”,生成结果在细节稳定性、多人口型匹配、多主体一致性、文字还原精度和复杂编辑效果等方面仍有优化空间 [6][9] - 公司将持续探索大模型与人类反馈的深度对齐 [1][9] - 合规方面,模型目前限制使用真人图像或视频作为主体参考,如需使用须经本人验证或取得授权,这将影响部分商业素材的生产与投放 [13] 未来产品节奏 - 火山引擎初步确定于2026年2月14日发布豆包大模型2.0等一系列重要升级,涉及音视频创作模型Seedance 2.0、图像创作模型Seedream 5.0 Preview,基础模型能力和企业级Agent能力将有大幅提升 [14] - 市场后续将关注Seedance 2.0的API上线与企业侧采用速度,以及模型在一致性、口型等短板上的改进节奏,以判断其能否从“爆款演示”走向“稳定生产力” [14]
“发展速度太快了”,马斯克点赞Seedance 2.0,字节:还远不完美
36氪· 2026-02-12 20:28
文章核心观点 - 生成式视频模型正加速进入大众化产品与企业工具链,字节跳动发布的视频创作模型Seedance 2.0凭借其技术能力与快速产品化,引发了市场高度关注,特别是马斯克的评论进一步放大了行业对视频生成能力快速跃迁的预期 [1][7] 产品发布与接入 - Seedance 2.0已正式发布,并全面接入豆包App、电脑端、网页版以及即梦产品,同时上线火山方舟体验中心供用户试用 [5][8] - 公司预计在2月中下旬上线Seedance 2.0的API服务,通过火山方舟平台为企业客户提供标准化调用,为B端落地创意做准备 [8] 核心功能与技术特点 - 模型主打多模态可控生成,支持文字、图片、音频、视频四种模态混合输入,可参考构图、动作、运镜等元素 [11] - 具备原声音画同步与多轨并行输出能力,支持背景音乐、环境音效或人物解说等多轨音频,并强调与画面节奏对齐 [11] - 拥有多镜头长叙事与“编导思维”,可自动解析叙事逻辑,生成镜头序列并保持角色、光影、风格与氛围的统一 [11] - 新增视频编辑与视频延长能力,强化“导演级操控”的工作流属性 [11] - 公司表示模型较好解决了物理规律遵循及长效一致性等难题,在运动场景下的生成可用率达到业界SOTA水平 [9] 市场影响与行业关注 - 马斯克在X平台转发并评论“It‘s happening fast”,使得Seedance 2.0的传播从技术圈层扩散至更广泛的科技投资与产品关注人群,提升了外界对字节跳动多模态能力的关注度 [1][7] - 这一“高曝光+快速产品化+持续迭代”的组合,强化了市场对视频生成赛道竞争节奏加快的预期 [6][7] 产品定位与目标场景 - 公司对Seedance 2.0的定位强调“质量与可控性达到专业生产场景要求”,瞄准更广泛的创作者与商业内容场景 [5][9] 产品局限性与未来迭代 - 公司明确表示Seedance 2.0“还远不完美”,生成结果在细节稳定性、多人口型匹配、多主体一致性、文字还原精度和复杂编辑效果等方面仍有优化空间 [6][10] - 公司称将持续探索大模型与人类反馈的深度对齐 [6][10] 合规与使用限制 - 目前Seedance 2.0限制使用真人图像或视频作为主体参考,如需使用必须经本人验证或取得授权,这类限制将直接影响部分商业素材生产与投放链路的使用方式 [14] 公司未来计划 - 字节跳动火山引擎初步确定于2026年2月14日发布豆包大模型一系列重要升级,涉及豆包大模型2.0、Seedance 2.0、图像创作模型Seedream 5.0 Preview,并称基础模型能力和企业级Agent能力将有大幅提升 [15]
“发展速度太快了”!马斯克点赞Seedance 2.0,字节:还远不完美
搜狐财经· 2026-02-12 19:52
行业动态与市场关注 - 生成式视频模型正加速进入大众化产品与企业工具链,市场对视频生成能力跃迁的关注度提升 [1] - 马斯克在X平台评论字节跳动视频创作模型Seedance 2.0并感叹"It's happening fast",将模型热度从技术圈层扩散至更广泛的科技投资与产品关注人群,放大了市场叙事 [1][7] - 公司“高曝光+快速产品化+持续迭代”的组合,强化了市场对视频生成赛道竞争节奏加快的预期 [6] 产品发布与接入 - 字节跳动正式发布视频创作模型Seedance 2.0,并全面接入其豆包App、电脑端、网页版以及即梦产品 [5][8] - 模型同时上线火山方舟体验中心,面向用户开放试用 [5] - 面向企业端,预计在2月中下旬,Seedance 2.0的API服务将上线火山方舟,为标准化B端调用做准备 [8] 核心功能与技术能力 - 模型主打原声音画同步、多镜头长叙事、多模态可控生成等能力,瞄准更广泛的创作者与商业内容场景 [5] - 支持文字、图片、音频、视频四种模态混合输入,可参考构图、动作、运镜等元素 [8] - 具备原声音画同步与多轨并行输出能力,支持背景音乐、环境音效等多轨音频并与画面节奏对齐 [9] - 模型可自动解析叙事逻辑,生成镜头序列并保持角色、光影、风格与氛围的统一,体现“编导思维” [10] - 新增视频编辑与视频延长能力,强化“导演级操控”的工作流属性 [11] - 公司称模型较好解决了物理规律遵循及长效一致性等难题,在运动场景下的生成可用率达到业界SOTA水平 [11] 产品定位与未来规划 - 公司对Seedance 2.0的定位强调其质量与可控性已达到专业生产场景要求 [8] - 公司同时保持克制,官方称模型“还远不完美”,生成结果在细节稳定性、多人口型匹配等多方面仍有瑕疵,将持续探索大模型与人类反馈的深度对齐 [6][12] - 火山引擎初步确定于2026年2月14日发布一系列重要升级,包括豆包大模型2.0、Seedance 2.0、图像创作模型Seedream 5.0 Preview,基础模型和企业级Agent能力将有大幅提升 [15] 合规与使用限制 - 目前Seedance 2.0限制使用真人图像或视频作为主体参考,如需使用须经本人验证或取得授权,这将影响部分商业素材的生产与投放链路 [15]
“发展速度太快了”!马斯克点赞Seedance 2.0,字节:还远不完美
华尔街见闻· 2026-02-12 17:55
文章核心观点 - 字节跳动发布视频生成模型Seedance 2.0,并迅速实现产品化接入与开放试用,标志着生成式视频模型正加速进入大众化产品与企业工具链 [1][4] - 马斯克在社交平台X上的转发与评论,显著放大了该模型在海外的热度与市场对视频生成技术发展速度的关注 [1][7][8] - 模型在技术能力上强调原声音画同步、多镜头长叙事与多模态可控生成,旨在满足专业生产场景需求,但公司也坦承其仍存在诸多瑕疵,需持续迭代 [4][5][14][15][16] - 模型的快速发布与明确的产品化路径,强化了市场对视频生成赛道竞争节奏加快的预期 [6][20][21] 产品发布与接入 - Seedance 2.0已正式发布,并全面接入豆包App、电脑端、网页版以及即梦产品,同时上线火山方舟体验中心供用户试用 [4][9] - 面向企业端,预计在2月中下旬,Seedance 2.0的API服务将上线火山方舟,为企业客户提供标准化调用服务 [9] - 字节跳动初步确定于2026年2月14日发布一系列重要升级,包括豆包大模型2.0、Seedance 2.0和图像创作模型Seedream 5.0 Preview [21] 技术能力与特点 - 支持文字、图片、音频、视频四种模态混合输入,可参考构图、动作、运镜等元素 [10] - 具备原声音画同步与多轨并行输出能力,支持背景音乐、环境音效或人物解说等多轨音频,并强调与画面节奏对齐 [11] - 拥有多镜头长叙事与“编导思维”,可自动解析叙事逻辑,生成镜头序列并保持角色、光影、风格与氛围的统一 [12] - 新增视频编辑与视频延长能力,强化“导演级操控”的工作流属性 [13] - 较好解决了物理规律遵循及长效一致性等难题,在运动场景下的生成可用率达到业界SOTA水平 [14] 市场影响与关注 - 马斯克在X上评论Seedance 2.0相关推文并感叹“It's happening fast”,使模型热度从技术圈层扩散至更广泛的科技投资与产品关注人群 [1][7][8] - 这一“高曝光+快速产品化+持续迭代”的组合,强化了市场对视频生成赛道竞争节奏加快的预期 [6] - 市场后续关注点在于:Seedance 2.0的API上线与企业侧采用速度是否匹配产品叙事;模型在一致性、口型等短板上的改进节奏能否支撑其成为稳定生产力工具 [21] 产品定位与限制 - 模型定位强调“质量与可控性达到专业生产场景要求”,瞄准更广泛的创作者与商业内容场景 [4][16] - 公司坦承模型“还远不完美”,生成结果在细节稳定性、多人口型匹配、多主体一致性、文字还原精度和复杂编辑效果等方面仍有优化空间 [5][15] - 目前限制使用真人图像或视频作为主体参考,如需使用须经本人验证或取得授权,这将影响部分商业素材的生产与投放 [19]
Agent时代,为什么多模态数据湖是必选项?
机器之心· 2026-01-15 08:53
文章核心观点 - AI工业时代已至,企业竞争的关键从应用层转向底层数据基建,构建能够支撑多模态数据规模化落地的数据基座是构筑核心竞争力的战略资产 [1][2][3][4] - 多模态数据湖是企业参与Agent时代竞争的必选项,其价值在于将沉睡的非结构化数据转化为可被AI模型直接消费和学习的战略资源,驱动业务与模型的增长飞轮 [9][14][19][21][57] - 企业数据基建需从“存储中心”升级为“价值中心”,并具备业务优先、开放解耦的特质,以应对技术快速迭代并转化为长期竞争力 [38][39][42][44][45] AI时代数据基建的战略重要性 - AI下半场的竞争焦点在于用AI思维重构业务,其基础是数据能被模型直接“消费”并进行跨模态关联推理 [4][5] - 超过80%的企业数据将是非结构化的,唤醒这些“数字负债”是在Agent时代构建竞争力的工程前提 [16][19] - 强大的数据基建能构建数据、模型与业务深度耦合的闭环,实现“业务滋养模型、模型反哺业务”的持续进化 [20][21] - 统一的多模态数据基座能为企业提供“基建不动,技术常新”的工程确定性,支持业务低成本快速拓展 [22][24][25] 多模态数据湖的价值与应用 - 多模态数据湖通过向量化等技术,让非结构化数据(如视频、音频、图像)从被动存储变为可随时调用、持续学习的战略资源 [18] - 在智能驾驶、游戏、传媒、电商、制造业等行业,多模态数据的处理与使用能力正直接影响商业竞争的形态与上限 [6][10][17] - 实践案例表明多模态数据湖能显著提升业务效率:某智驾企业实现12亿级别数据“以图搜图”响应在150–200毫秒内,性能提升20倍以上;某游戏企业音视频数据加工效率提升50%;某头部传媒企业内容生产与运营效率提升90% [59] 企业数据基建升级路线图 - 升级分为三个阶段:异构算力与分布式引擎阶段(核心是让数据“进得来,跑得快”,原生支持AI服务)[30];模型即引擎与多模态重构阶段(核心是通过向量化实现多模态数据统一语义转换,使数据对模型友好)[31];全域数据治理与平台融合阶段(核心是统一管控数据资产,激活价值并确保安全合规)[33] - 该演进路径旨在帮助企业从“拥有模型”过渡到“驾驭智能”,使多模态数据湖从技术底座演变为全域智能中枢 [27][28][34] AI时代数据基建的选型关键 - 数据基建需从“存储中心”转向“价值中心”,核心价值在于数据能否被快速获取、被模型理解并参与推理 [38][39] - 应坚持业务优先的实用主义,衡量标准在于能否以最低成本、最快速度完成从数据到业务决策的闭环 [40][41][42] - 必须具备开放解耦的能力,通过模块化、可替换的基础设施对冲技术路线快速更迭带来的不确定性,将技术不确定性转化为长期竞争力 [43][44][45] - “乐高式”可组合底座是一种先进的理念,它通过提供原子化引擎和开放工具集,赋能企业自主、灵活地按需编排解决方案,成为主导者而非被动使用者 [48][49][50]
生成式AI安全白皮书
火山引擎· 2026-01-06 15:51
报告行业投资评级 未提及相关内容 报告的核心观点 - 生成式AI正重塑各行业,但其安全问题成为发展瓶颈,未来AI安全将呈现安全左移与Al - Native安全开发运维成共识、从“单点防御”走向“体系化、智能化”、开放生态与责任共担成主流三大趋势 [142][144] - 火山引擎定位为Al云原生的可信安全基础设施提供者,构建“技术领先、治理完善、生态开放”的AI安全能力,致力于保障生成式AI安全 [27][142] 根据相关目录分别进行总结 1. 序言 - 基础模型能力边界拓展,从多模态表达和工作流演进,企业需统一管理模型服务等;企业从“单点试验”转向“平台化建设”,平衡公有云与私有化部署,适配业务选择模型 [16][17] - 生成式AI安全面临模型对抗等、数据层治理升级、应用层安全新面貌等挑战,需系统化治理和建立安全评测体系;企业要将“可解释、可审计、可问责”嵌入产品 [20][21][23][24] - 火山引擎主张提供可信、可控、合规的Al云原生基座,以“安全即服务”承载企业Al工作负载与治理能力,构建多层面AI安全能力 [27] 2. 生成式AI安全风险 - 监管合规风险方面,全球各国加快构建人工智能法律法规和监管框架,如欧盟《人工智能法案》、美国《人工智能创新未来法案》,中国相关法律和政策也不断完善,企业需关注合规 [31][32][33] - 数据隐私风险方面,生成式AI在数据收集、存储、训练、推理等过程存在隐私和数据安全风险,内部人员违规操作也是诱因 [36][37][38] - 生成式AI安全风险沿着“AI基础设施→大模型→智能体”链条相互作用,包括基础设施的算力滥用等风险、模型与平台的泄露等风险、智能体的注入等风险 [40][41][42] 3. 火山引擎生成式AI服务安全保障体系 3.1 生成式AI浪潮下的安全责任 - 合规责任包括备案合规、内容安全合规、内容标识合规,不同服务场景下企业和火山引擎承担不同责任 [47][48][49] - 隐私责任方面,不同构建AI工作负载方式下,企业和火山引擎对训练数据合规和客户数据安全承担不同责任 [55][56] - 安全责任方面,基础设施安全由火山引擎保障,模型安全在不同服务场景下企业和火山引擎责任不同 [59] 3.2 合规资质与认证 - 火山引擎大模型以服务技术支持者角色完成算法和服务备案,开展网络安全等级保护测评;积极参与标准制定,通过多个权威认证,保障平台安全合规 [61][62] 3.3 数据安全与隐私保护设计理念 - 生成式AI数据与隐私安全面临云上大模型数据安全、模型记忆和数据提取攻击、黑盒模型可解释性等挑战 [65] - 方舟提出安全互信计算框架,具有链路全加密、数据高保密、环境强隔离、操作可审计等特点,还有进阶机密部署模式,保障数据与隐私安全 [67][68][71] 3.4 生成式AI安全技术保障体系 - AI基础设施安全通过治理架构与规范体系、产品安全保障、平台基础防护、威胁情报与供应链、攻防演练与外部验证等平台基础安全和固件资产管理与漏洞响应等增强安全方案保障 [76][80][84] - AI模型与平台安全方面,火山方舟市场份额领先,模型安全遵循安全原则,在生命周期各阶段有不同治理重点;平台通过安全互信计算架构保障安全,有会话无痕等特点 [92][93][103] - AI智能体安全通过身份与权限管理、工具管理与准入、纵深防御与加固、前沿技术研究保障,定义风险评估方法,加固访问全链路 [114][120][139] 4. 总结 - 生成式AI行业安全未来有安全左移、体系化智能化、开放生态与责任共担三大趋势 [144] - 火山引擎致力于为企业提供可信、可控、合规的Al云原生基座,护航生成式AI发展 [142]
火山引擎FORCE大会追踪(2):Agent规模化落地,方舟与企业底座升级
海通国际证券· 2025-12-21 22:15
报告行业投资评级 - 报告未明确给出对火山引擎或其所属行业的投资评级 [1] 报告核心观点 - 火山引擎通过其产品组合将智能体(Agent)从概念探讨转向工程化与规模化落地,构建了覆盖模型服务、训练优化、上下文与记忆管理、企业级底座与治理以及开发提效工具的全链路支撑体系 [2] - 该平台化整合方案为企业客户提供了明确价值:有效降低拼装与集成成本,清晰界定工程边界,并确立可预期的上线路径,从而助力开发团队更聚焦于业务价值创造 [2] - 火山引擎正通过日益完善的产品矩阵与体系化的生态运营,在技术快速迭代的窗口期内,助力开发者将创新高效、稳健地转化为可衡量的业务价值 [6] 根据相关目录分别进行总结 火山方舟平台关键升级 - 发布新一代Responses API,支持单次请求内完成多轮上下文承接、多工具协调与结果归总,显著减少了传统方案中多次交互与复杂胶合代码带来的开销 [3] - 发布开发者模式,通过节点化、可追踪、可展开的工具调用链路,将智能体决策过程由黑箱转为可观测、可调试的资产,提升了问题定位效率 [3] - 现场披露的量化效果显示,在部分场景中,平均回复时延降低约20%,失败率下降约75% [3] - 借助上下文缓存,端到端时延可降低约50%,成本节约超过80%,会话缓存命中率可达85%–93% [3] 企业级规模化落地支持体系 - 发布并升级AgentKit企业级AI Agent平台底座,以模块化架构覆盖开发、部署、运维、监控与安全等环节 [1][4] - AgentKit突出零信任身份管控、存量API资产工具化、既有知识向智能体体系迁移及开箱即用评测能力,旨在解决企业当前的核心瓶颈——在不重构系统的前提下,实现既有资产安全、可控、可评估地被智能体调度 [4] - 发布TRAE CN企业版,为企业AI编码提供稳定性、适配性与安全性更强的工程底座,支持超大规模代码库索引、毫秒级响应及全链路加密传输,并以云端零存储策略保障数据合规 [1][4] - 增强VikingDB向量数据库及Viking记忆库的功能,结合其递进式检索、图文记忆与知识整合能力,为企业实现知识高效入模、上下文精准供给、抑制幻觉及结果可溯源提供了系统化的工程落地路径 [1][4] 开发者生态与增长动能 - 产品层面,扣子平台月活跃开发者已超300万,TRAE月活用户突破160万,表明其开发者生态已具备显著的规模基础与用户粘性 [5] - 生态运营层面,将原有开发者社区升级为专注Agent的开发者社区,并同步上线动手实验室、核心开发者计划及城市社区等系列生态支持举措 [1][5] - 城市社区已在北京、上海、深圳、成都四地试点,并计划于2026年扩展至全国十余城,旨在将发布会上的短期热度转化为持久的开发与实践闭环 [5]
豆包大模型1.8正式发布,拥有更强多模态Agent能力,豆包日均使用量超过50万亿,推出成本节省计划降幅达47%
硬AI· 2025-12-18 22:05
核心模型能力升级 - 豆包大模型1.8发布,具备更强的多模态Agent能力,拥有256K超长上下文和原生API上下文管理,擅长处理复杂多步任务 [2][3][5] - 模型在多模态理解上显著提升,长视频理解和安防监控场景能力增强,可辅助公司处理复杂任务并支持决策 [5] - 图像创作模型Doubao-Seedream-4.5同步发布,具备多图组合、创意写真、图片拆解、复杂组图、虚拟试穿与海报设计等能力 [3][5] - 视频生成模型Seedance系列发布,其中Seedance-1.0-Pro支持2至12秒1080P自由生成,可实现多人语言对白和多镜头叙事,提供影视级画质与原生音效 [3][7] 产品应用与生态构建 - 豆包大模型已落地智能硬件与语音助手,应用场景覆盖日常沟通、专业服务与报告解读、联网搜索等,配合边想边搜交互体验 [9] - 推出“火山方舟”推理代工服务,已接入Qwen、GLM、Seed-OSS等主流开源大模型,支持企业将精调后的模型一键Serverless部署,提供海量资源与专属推理加速 [11] - Viking系列产品亮相,包括VikingAI搜索与VikingDB向量数据库,配套多模态搜索支持文本、图像跨模态检索和个性化推荐,为Agent快速构建知识库 [13] - 发布企业级AI Agent平台AgentKit与TRAE(CN)企业版,已获NIO、PwC、汇付天下等头部客户采用,支持10万文件、5亿行代码超长上下文,可灵活配置企业规则与知识库 [15] 市场表现与成本优化 - 火山引擎平台“万亿Tokens俱乐部”成员已突破100家,豆包大模型日均使用量超50万亿Tokens,自发布以来增长417倍 [3] - 正式推出“AI节省计划”,采用一次性加入机制,覆盖豆包大模型、视频图像创作模型及第三方开源大模型,最高节省幅度达47%,支持全预付、零预付等多种付款方式 [2][3][18] - 公司认为明年模型行业市场可能再涨10倍,重点在于共同做大市场而非存量竞争,同时模型需要进一步降价以推动市场增长 [4] - 此次发布有望推动AI在企业生产场景中的落地应用,Agent开发工具的升级与生态扩容是关键 [3][18]
实测字节Seedance 1.5 Pro,能直出方言的AI视频也来了。
数字生命卡兹克· 2025-12-18 12:33
文章核心观点 - 公司在火山Force原动力大会上发布了其新一代视频生成模型Seedance 1.5 Pro,该模型在音画同步、中文与方言能力、情感表现力等方面实现了显著突破,达到了广告级甚至影视级别的输出效果,有望推动AI视频的工业化进程和创作理念变革 [3][35][36][37][38] 模型发布与获取 - 新模型Seedance 1.5 Pro已正式上线,用户可通过豆包、即梦或火山方舟平台体验 [7] - 在豆包平台,用户需在“视频生成”或“照片动起来”功能中选择1.5 Pro模型 [7] - 在即梦平台,用户需在“生成视频”功能中选择3.5 Pro模型,该模型基于Seedance 1.5 Pro能力,目前支持文生图、单参考和首尾帧生成 [8] - 火山方舟平台提供了京剧、名画等特定玩法的体验 [9] - 模型的API接口即将开放,目前已可预约 [12] 核心能力一:音画同步 - 模型在主体说话时的唇形一致性上表现优异,能够完美对口型 [13] - 模型能够理解并执行复杂的提示词,包括指定的说唱歌词、音效节奏(如100BPM的语速)等,实现精准的音画匹配 [13] - 模型支持多人对话场景,能够根据提示词中规定的对话内容和顺序,准确地将台词分配给不同角色 [16][17] - 模型具备多分镜音画同步能力,结合其最高支持12秒视频生成的特性,用户可通过“参考图+文生分镜”的方式快速生成广告短片等内容 [16] - 模型能够生成包含完整剧情、镜头切换、运镜和音效的12秒短片,所有元素匹配得当 [18][19] - 模型目前对“罐头笑声”等特定文化概念的理解尚有不足 [14] 核心能力二:中文与方言能力 - 模型具备强大的多语言输出能力,可无障碍生成英语、日语、韩语、西班牙语等内容 [21] - 模型的中文及方言能力在所有模型中处于“断档的强”的领先地位,是其最强的技能点 [23] - 模型生成的粤语内容已具备一定的韵味和氛围感,声音效果与细节准确性非常高,可达到约80%的成品水准 [23][24] - 模型还能自如生成四川话、上海话、东北话、台湾腔等多种方言,并支持在视频中进行方言切换与互动 [25] - 使用技巧:为获得最佳效果,需向模型提供目标语言或方言的原始文本提示词 [26] 核心能力三:情感表现力 - 模型的情感表现力大幅提升,能够根据不同的情境设定,对同一句台词演绎出完全不同的感觉 [27] - 模型能够生动演绎诸如“嘴角颤抖”、“一声冷哼”、“皮笑肉不笑”等细微的面部表情和情绪细节,声线也会随之变化,极具代入感 [30] - 仅凭一句台词,不加其他提示,模型也能自动配上一段合适的表演,实现“一条过” [30] - 模型的情感表现力是配乐、音效、运镜等多种能力综合作用的结果,能够生成沉浸感极强的视频片段,例如第一视角驾驶战斗机的场景 [33] - 该能力使得生成的内容可直接作为剪辑素材,大幅提升了制作效率 [34] 未来展望与行业影响 - 公司透露了一项未上线的“draft样片”功能,该功能可先生成低分辨率样片供用户确认关键元素,再生成高清成片,旨在减少“抽卡”次数,节约成本与时间 [35] - Seedance 1.5 Pro的更新使AI视频实现了画面、台词、音效、节奏、情绪的深度融合,输出可直接用于剪辑的广告级或影视级素材 [37] - 该技术进步被视为对AI视频工业化的“巨大提升”,将改变创作方式,促使声音与画面被一同纳入创作考量,可能引发新的提示词方式、视频形态、制作流程乃至生产力变革 [38]
Tokens经济崛起:中国AI云服务半年用量飙四倍,火山引擎领跑市场
21世纪经济报道· 2025-10-17 15:47
市场增长与规模 - 2025年上半年中国公有云大模型调用量达536.7万亿Tokens,较2024年全年114万亿Tokens的规模增长近400% [1] - 中国日均Token消耗量从2024年初的1000亿增长至2025年6月的30万亿,一年半时间增长300倍 [4][11] - 截至2025年9月底,豆包大模型日均Tokens调用量突破30万亿,较2025年5月底增长超80% [11] 市场竞争格局 - 火山引擎以49.2%的市场份额位居中国大模型公有云服务市场第一,阿里云百炼平台以27.0%位列第二,百度智能云千帆平台以17.0%位列第三 [2] - 在涵盖IaaS+PaaS+MaaS全链条收入的统计口径下,阿里云以35.8%份额居首,火山引擎以14.8%位列第二 [2] - 火山引擎的市场份额从2024年的46.4%提升至2025年上半年的49.2%,领先优势扩大 [1] 行业驱动因素与拐点 - 2024年7月行业增长率超过160%,主要驱动因素是豆包大模型技术降本,将主力模型定价降幅达99.3% [5][6] - 2025年2月行业增长幅度达60%,主要驱动因素是DeepSeek-R1推理模型爆红,标志着市场从预训练时代迈向推理时代 [6] - 市场需求已完成从模型训练向推理服务的迁移,企业关注重点扩展到资源效率、运营成本与可持续发展 [6] 公司战略与优势 - 火山引擎将MaaS置于战略高度,投入远超当前营收规模的资源,实现弯道超车 [7] - 豆包大模型家族覆盖文本、图像、音频、视频等多模态领域,其图像创作模型文生图能力位居全球第一 [8] - 火山方舟平台上的DeepSeek-R1模型每秒Token输出量是部分厂商的2.6倍,性能优势显著 [9] 行业应用与渗透 - AI云服务正从泛互联网行业向传统行业加速渗透,包括消费电子、汽车、金融等行业 [10] - 火山引擎已服务全球9家Top10手机厂商、八成主流汽车品牌、70%的系统重要性银行以及超五成985高校 [10] - 在汽车行业,大模型覆盖从智能座舱到智能营销再到自动驾驶标注的全流程场景 [10] 未来发展趋势 - 中国大模型公有云服务市场未来仍有数百倍增长空间,多模态大模型与Agent应用成为关键驱动力 [11] - 火山引擎推出智能模型路由服务,帮助企业平衡模型性能与成本,加速迈向Agentic AI时代 [11] - 市场统计维度从算力供给转向模型实际调用,Token消耗量成为衡量AI产业景气度的晴雨表 [3][4]