火山方舟
搜索文档
豆包把春晚弄成发布会了
半佛仙人· 2026-02-17 16:16
豆包大模型在春晚的应用与性能表现 - 文章核心观点:豆包大模型在2025年央视春晚中实现了深度、多场景的应用,其技术能力在理解力、精准度、稳定性、画质及实时处理等方面均通过了春晚“零容错”的极限考验,展现了远超行业平均水平的技术实力,其底层火山引擎平台的高效架构与算力调度能力是支撑其表现的关键[3][7][31] - 在春晚期间,豆包大模型生成了超过5000万张新春头像、1亿条拜年祝福,总互动达19亿次[3] - 豆包大模型直接参与了多个春晚节目的舞美制作,例如《贺花神》中的十二个中式奇观、《驭风歌》中的水墨宝马以及《快乐小马》中模仿真人舞蹈的卡通小马[3][5][9] 技术能力:理解与创意(“灵”) - 豆包大模型能够深入理解中国传统文化美学,如中国水墨画的构图、留白逻辑,并能生成符合意境的内容,而许多主流模型在此方面表现不足[10] - 该模型在浩如烟海的美学数据库中进行搜索与遍历,以生成具有高度审美价值的视觉内容[7] 技术能力:精准与可控(“准”) - 豆包大模型能够精准遵循指令,在复杂视觉变化中保持高审美要求下的一致性,例如确保《贺花神》中蝶、鱼、花等元素的动态效果真实且精准[12][15] - 模型解决了内容生成的一致性问题,避免了每次生成细节不可控的问题,满足了春晚制作对细节可控的严苛要求[17] 技术能力:极限挑战与性能指标 - 春晚要求零容错、细节可控、制作周期短,对豆包大模型构成了地狱级挑战[17] - 在画质上,豆包大模型支持了春晚8K分辨率和50 FPS帧率的超高要求,远超主流视频生成模型通常的1080P和24FPS输出水平[18] - 在空间视频技术方面,豆包大模型在《梦底》节目中实现了数字分身与真人光影效果完全一致的3D视觉冲击[20] - 豆包大模型还首次为春晚直播提供了全程实时无障碍字幕服务,即使面对地方口音也能准确识别[25] 底层基座:火山引擎的算力与架构 - 火山引擎的大模型平台“火山方舟”是支撑豆包表现的核心,其在调度层和推理层均进行了深度优化[27][28] - 在春晚互动高峰时段(21时46分),豆包大模型推理吞吐量达到每分钟633亿Tokens,相当于一分钟读完6000多本《红楼梦》[27] - 该架构能高效调度全国分布式的异构算力资源,在超高并发下实现秒级响应,并降低单位调用成本[27][28] - 火山引擎的能力源于服务抖音、剪映、飞书等字节跳动海量业务的锤炼,是在真实流量洪峰和业务压力下迭代出来的[29] 应用扩展:从内容生成到具身智能 - 豆包大模型的视觉理解能力可应用于机器人,使其能识别并避开障碍物[22] - 豆包语音模型将具身智能的理解范围扩展到多轮对话,并能根据场景呈现匹配的语气、语调和自然停顿,实现有情感的“说”[23]
“发展速度太快了”,马斯克点赞Seedance 2.0,字节称“还远不完美”
36氪· 2026-02-13 09:54
核心观点 - 字节跳动发布视频生成模型Seedance 2.0,凭借其多模态与长叙事等专业能力引发海外市场高度关注,并迅速推进产品化,接入旗下多个平台及开放企业端试用,标志着生成式视频模型正加速进入大众化产品与企业工具链 [1][5][7] 产品发布与接入 - Seedance 2.0已正式发布,并全面接入豆包App、电脑端、网页版以及即梦产品,同时上线火山方舟体验中心供用户试用 [5][8] - 面向企业端,预计在2月中下旬,Seedance 2.0的API服务将上线火山方舟,为企业客户提供标准化调用服务 [8] 技术能力与定位 - 模型主打多模态输入,支持文字、图片、音频、视频四种模态混合输入,参考构图、动作、运镜等元素 [10] - 具备原声音画同步与多轨并行输出能力,支持背景音乐、环境音效等多轨音频并与画面节奏对齐 [10] - 拥有多镜头长叙事与“编导思维”,可自动解析叙事逻辑,生成镜头序列并保持角色、光影等要素统一 [10] - 新增视频编辑与视频延长能力,强化“导演级操控”的工作流属性 [10] - 公司定位该模型旨在满足专业生产场景要求,声称其较好解决了物理规律遵循及长效一致性等难题,在运动场景下的生成可用率达到业界SOTA水平 [8] 市场反响与热度 - 模型在海外迅速走红,马斯克在X平台转发相关内容并评论“It‘s happening fast”,感叹其发展速度,将热度从技术圈层扩散至更广泛的科技投资与产品关注人群 [1][7] - 马斯克的公开评价强化了“发展速度”的市场叙事,可能提升外界对公司多模态能力的关注度并对相关产业链估值预期产生边际影响 [7] 公司表态与产品局限 - 公司官方表示Seedance 2.0“还远不完美”,生成结果在细节稳定性、多人口型匹配、多主体一致性、文字还原精度和复杂编辑效果等方面仍有优化空间 [6][9] - 公司将持续探索大模型与人类反馈的深度对齐 [1][9] - 合规方面,模型目前限制使用真人图像或视频作为主体参考,如需使用须经本人验证或取得授权,这将影响部分商业素材的生产与投放 [13] 未来产品节奏 - 火山引擎初步确定于2026年2月14日发布豆包大模型2.0等一系列重要升级,涉及音视频创作模型Seedance 2.0、图像创作模型Seedream 5.0 Preview,基础模型能力和企业级Agent能力将有大幅提升 [14] - 市场后续将关注Seedance 2.0的API上线与企业侧采用速度,以及模型在一致性、口型等短板上的改进节奏,以判断其能否从“爆款演示”走向“稳定生产力” [14]
“发展速度太快了”,马斯克点赞Seedance 2.0,字节:还远不完美
36氪· 2026-02-12 20:28
文章核心观点 - 生成式视频模型正加速进入大众化产品与企业工具链,字节跳动发布的视频创作模型Seedance 2.0凭借其技术能力与快速产品化,引发了市场高度关注,特别是马斯克的评论进一步放大了行业对视频生成能力快速跃迁的预期 [1][7] 产品发布与接入 - Seedance 2.0已正式发布,并全面接入豆包App、电脑端、网页版以及即梦产品,同时上线火山方舟体验中心供用户试用 [5][8] - 公司预计在2月中下旬上线Seedance 2.0的API服务,通过火山方舟平台为企业客户提供标准化调用,为B端落地创意做准备 [8] 核心功能与技术特点 - 模型主打多模态可控生成,支持文字、图片、音频、视频四种模态混合输入,可参考构图、动作、运镜等元素 [11] - 具备原声音画同步与多轨并行输出能力,支持背景音乐、环境音效或人物解说等多轨音频,并强调与画面节奏对齐 [11] - 拥有多镜头长叙事与“编导思维”,可自动解析叙事逻辑,生成镜头序列并保持角色、光影、风格与氛围的统一 [11] - 新增视频编辑与视频延长能力,强化“导演级操控”的工作流属性 [11] - 公司表示模型较好解决了物理规律遵循及长效一致性等难题,在运动场景下的生成可用率达到业界SOTA水平 [9] 市场影响与行业关注 - 马斯克在X平台转发并评论“It‘s happening fast”,使得Seedance 2.0的传播从技术圈层扩散至更广泛的科技投资与产品关注人群,提升了外界对字节跳动多模态能力的关注度 [1][7] - 这一“高曝光+快速产品化+持续迭代”的组合,强化了市场对视频生成赛道竞争节奏加快的预期 [6][7] 产品定位与目标场景 - 公司对Seedance 2.0的定位强调“质量与可控性达到专业生产场景要求”,瞄准更广泛的创作者与商业内容场景 [5][9] 产品局限性与未来迭代 - 公司明确表示Seedance 2.0“还远不完美”,生成结果在细节稳定性、多人口型匹配、多主体一致性、文字还原精度和复杂编辑效果等方面仍有优化空间 [6][10] - 公司称将持续探索大模型与人类反馈的深度对齐 [6][10] 合规与使用限制 - 目前Seedance 2.0限制使用真人图像或视频作为主体参考,如需使用必须经本人验证或取得授权,这类限制将直接影响部分商业素材生产与投放链路的使用方式 [14] 公司未来计划 - 字节跳动火山引擎初步确定于2026年2月14日发布豆包大模型一系列重要升级,涉及豆包大模型2.0、Seedance 2.0、图像创作模型Seedream 5.0 Preview,并称基础模型能力和企业级Agent能力将有大幅提升 [15]
“发展速度太快了”!马斯克点赞Seedance 2.0,字节:还远不完美
搜狐财经· 2026-02-12 19:52
行业动态与市场关注 - 生成式视频模型正加速进入大众化产品与企业工具链,市场对视频生成能力跃迁的关注度提升 [1] - 马斯克在X平台评论字节跳动视频创作模型Seedance 2.0并感叹"It's happening fast",将模型热度从技术圈层扩散至更广泛的科技投资与产品关注人群,放大了市场叙事 [1][7] - 公司“高曝光+快速产品化+持续迭代”的组合,强化了市场对视频生成赛道竞争节奏加快的预期 [6] 产品发布与接入 - 字节跳动正式发布视频创作模型Seedance 2.0,并全面接入其豆包App、电脑端、网页版以及即梦产品 [5][8] - 模型同时上线火山方舟体验中心,面向用户开放试用 [5] - 面向企业端,预计在2月中下旬,Seedance 2.0的API服务将上线火山方舟,为标准化B端调用做准备 [8] 核心功能与技术能力 - 模型主打原声音画同步、多镜头长叙事、多模态可控生成等能力,瞄准更广泛的创作者与商业内容场景 [5] - 支持文字、图片、音频、视频四种模态混合输入,可参考构图、动作、运镜等元素 [8] - 具备原声音画同步与多轨并行输出能力,支持背景音乐、环境音效等多轨音频并与画面节奏对齐 [9] - 模型可自动解析叙事逻辑,生成镜头序列并保持角色、光影、风格与氛围的统一,体现“编导思维” [10] - 新增视频编辑与视频延长能力,强化“导演级操控”的工作流属性 [11] - 公司称模型较好解决了物理规律遵循及长效一致性等难题,在运动场景下的生成可用率达到业界SOTA水平 [11] 产品定位与未来规划 - 公司对Seedance 2.0的定位强调其质量与可控性已达到专业生产场景要求 [8] - 公司同时保持克制,官方称模型“还远不完美”,生成结果在细节稳定性、多人口型匹配等多方面仍有瑕疵,将持续探索大模型与人类反馈的深度对齐 [6][12] - 火山引擎初步确定于2026年2月14日发布一系列重要升级,包括豆包大模型2.0、Seedance 2.0、图像创作模型Seedream 5.0 Preview,基础模型和企业级Agent能力将有大幅提升 [15] 合规与使用限制 - 目前Seedance 2.0限制使用真人图像或视频作为主体参考,如需使用须经本人验证或取得授权,这将影响部分商业素材的生产与投放链路 [15]
“发展速度太快了”!马斯克点赞Seedance 2.0,字节:还远不完美
华尔街见闻· 2026-02-12 17:55
文章核心观点 - 字节跳动发布视频生成模型Seedance 2.0,并迅速实现产品化接入与开放试用,标志着生成式视频模型正加速进入大众化产品与企业工具链 [1][4] - 马斯克在社交平台X上的转发与评论,显著放大了该模型在海外的热度与市场对视频生成技术发展速度的关注 [1][7][8] - 模型在技术能力上强调原声音画同步、多镜头长叙事与多模态可控生成,旨在满足专业生产场景需求,但公司也坦承其仍存在诸多瑕疵,需持续迭代 [4][5][14][15][16] - 模型的快速发布与明确的产品化路径,强化了市场对视频生成赛道竞争节奏加快的预期 [6][20][21] 产品发布与接入 - Seedance 2.0已正式发布,并全面接入豆包App、电脑端、网页版以及即梦产品,同时上线火山方舟体验中心供用户试用 [4][9] - 面向企业端,预计在2月中下旬,Seedance 2.0的API服务将上线火山方舟,为企业客户提供标准化调用服务 [9] - 字节跳动初步确定于2026年2月14日发布一系列重要升级,包括豆包大模型2.0、Seedance 2.0和图像创作模型Seedream 5.0 Preview [21] 技术能力与特点 - 支持文字、图片、音频、视频四种模态混合输入,可参考构图、动作、运镜等元素 [10] - 具备原声音画同步与多轨并行输出能力,支持背景音乐、环境音效或人物解说等多轨音频,并强调与画面节奏对齐 [11] - 拥有多镜头长叙事与“编导思维”,可自动解析叙事逻辑,生成镜头序列并保持角色、光影、风格与氛围的统一 [12] - 新增视频编辑与视频延长能力,强化“导演级操控”的工作流属性 [13] - 较好解决了物理规律遵循及长效一致性等难题,在运动场景下的生成可用率达到业界SOTA水平 [14] 市场影响与关注 - 马斯克在X上评论Seedance 2.0相关推文并感叹“It's happening fast”,使模型热度从技术圈层扩散至更广泛的科技投资与产品关注人群 [1][7][8] - 这一“高曝光+快速产品化+持续迭代”的组合,强化了市场对视频生成赛道竞争节奏加快的预期 [6] - 市场后续关注点在于:Seedance 2.0的API上线与企业侧采用速度是否匹配产品叙事;模型在一致性、口型等短板上的改进节奏能否支撑其成为稳定生产力工具 [21] 产品定位与限制 - 模型定位强调“质量与可控性达到专业生产场景要求”,瞄准更广泛的创作者与商业内容场景 [4][16] - 公司坦承模型“还远不完美”,生成结果在细节稳定性、多人口型匹配、多主体一致性、文字还原精度和复杂编辑效果等方面仍有优化空间 [5][15] - 目前限制使用真人图像或视频作为主体参考,如需使用须经本人验证或取得授权,这将影响部分商业素材的生产与投放 [19]
Agent时代,为什么多模态数据湖是必选项?
机器之心· 2026-01-15 08:53
文章核心观点 - AI工业时代已至,企业竞争的关键从应用层转向底层数据基建,构建能够支撑多模态数据规模化落地的数据基座是构筑核心竞争力的战略资产 [1][2][3][4] - 多模态数据湖是企业参与Agent时代竞争的必选项,其价值在于将沉睡的非结构化数据转化为可被AI模型直接消费和学习的战略资源,驱动业务与模型的增长飞轮 [9][14][19][21][57] - 企业数据基建需从“存储中心”升级为“价值中心”,并具备业务优先、开放解耦的特质,以应对技术快速迭代并转化为长期竞争力 [38][39][42][44][45] AI时代数据基建的战略重要性 - AI下半场的竞争焦点在于用AI思维重构业务,其基础是数据能被模型直接“消费”并进行跨模态关联推理 [4][5] - 超过80%的企业数据将是非结构化的,唤醒这些“数字负债”是在Agent时代构建竞争力的工程前提 [16][19] - 强大的数据基建能构建数据、模型与业务深度耦合的闭环,实现“业务滋养模型、模型反哺业务”的持续进化 [20][21] - 统一的多模态数据基座能为企业提供“基建不动,技术常新”的工程确定性,支持业务低成本快速拓展 [22][24][25] 多模态数据湖的价值与应用 - 多模态数据湖通过向量化等技术,让非结构化数据(如视频、音频、图像)从被动存储变为可随时调用、持续学习的战略资源 [18] - 在智能驾驶、游戏、传媒、电商、制造业等行业,多模态数据的处理与使用能力正直接影响商业竞争的形态与上限 [6][10][17] - 实践案例表明多模态数据湖能显著提升业务效率:某智驾企业实现12亿级别数据“以图搜图”响应在150–200毫秒内,性能提升20倍以上;某游戏企业音视频数据加工效率提升50%;某头部传媒企业内容生产与运营效率提升90% [59] 企业数据基建升级路线图 - 升级分为三个阶段:异构算力与分布式引擎阶段(核心是让数据“进得来,跑得快”,原生支持AI服务)[30];模型即引擎与多模态重构阶段(核心是通过向量化实现多模态数据统一语义转换,使数据对模型友好)[31];全域数据治理与平台融合阶段(核心是统一管控数据资产,激活价值并确保安全合规)[33] - 该演进路径旨在帮助企业从“拥有模型”过渡到“驾驭智能”,使多模态数据湖从技术底座演变为全域智能中枢 [27][28][34] AI时代数据基建的选型关键 - 数据基建需从“存储中心”转向“价值中心”,核心价值在于数据能否被快速获取、被模型理解并参与推理 [38][39] - 应坚持业务优先的实用主义,衡量标准在于能否以最低成本、最快速度完成从数据到业务决策的闭环 [40][41][42] - 必须具备开放解耦的能力,通过模块化、可替换的基础设施对冲技术路线快速更迭带来的不确定性,将技术不确定性转化为长期竞争力 [43][44][45] - “乐高式”可组合底座是一种先进的理念,它通过提供原子化引擎和开放工具集,赋能企业自主、灵活地按需编排解决方案,成为主导者而非被动使用者 [48][49][50]
生成式AI安全白皮书
火山引擎· 2026-01-06 15:51
报告行业投资评级 未提及相关内容 报告的核心观点 - 生成式AI正重塑各行业,但其安全问题成为发展瓶颈,未来AI安全将呈现安全左移与Al - Native安全开发运维成共识、从“单点防御”走向“体系化、智能化”、开放生态与责任共担成主流三大趋势 [142][144] - 火山引擎定位为Al云原生的可信安全基础设施提供者,构建“技术领先、治理完善、生态开放”的AI安全能力,致力于保障生成式AI安全 [27][142] 根据相关目录分别进行总结 1. 序言 - 基础模型能力边界拓展,从多模态表达和工作流演进,企业需统一管理模型服务等;企业从“单点试验”转向“平台化建设”,平衡公有云与私有化部署,适配业务选择模型 [16][17] - 生成式AI安全面临模型对抗等、数据层治理升级、应用层安全新面貌等挑战,需系统化治理和建立安全评测体系;企业要将“可解释、可审计、可问责”嵌入产品 [20][21][23][24] - 火山引擎主张提供可信、可控、合规的Al云原生基座,以“安全即服务”承载企业Al工作负载与治理能力,构建多层面AI安全能力 [27] 2. 生成式AI安全风险 - 监管合规风险方面,全球各国加快构建人工智能法律法规和监管框架,如欧盟《人工智能法案》、美国《人工智能创新未来法案》,中国相关法律和政策也不断完善,企业需关注合规 [31][32][33] - 数据隐私风险方面,生成式AI在数据收集、存储、训练、推理等过程存在隐私和数据安全风险,内部人员违规操作也是诱因 [36][37][38] - 生成式AI安全风险沿着“AI基础设施→大模型→智能体”链条相互作用,包括基础设施的算力滥用等风险、模型与平台的泄露等风险、智能体的注入等风险 [40][41][42] 3. 火山引擎生成式AI服务安全保障体系 3.1 生成式AI浪潮下的安全责任 - 合规责任包括备案合规、内容安全合规、内容标识合规,不同服务场景下企业和火山引擎承担不同责任 [47][48][49] - 隐私责任方面,不同构建AI工作负载方式下,企业和火山引擎对训练数据合规和客户数据安全承担不同责任 [55][56] - 安全责任方面,基础设施安全由火山引擎保障,模型安全在不同服务场景下企业和火山引擎责任不同 [59] 3.2 合规资质与认证 - 火山引擎大模型以服务技术支持者角色完成算法和服务备案,开展网络安全等级保护测评;积极参与标准制定,通过多个权威认证,保障平台安全合规 [61][62] 3.3 数据安全与隐私保护设计理念 - 生成式AI数据与隐私安全面临云上大模型数据安全、模型记忆和数据提取攻击、黑盒模型可解释性等挑战 [65] - 方舟提出安全互信计算框架,具有链路全加密、数据高保密、环境强隔离、操作可审计等特点,还有进阶机密部署模式,保障数据与隐私安全 [67][68][71] 3.4 生成式AI安全技术保障体系 - AI基础设施安全通过治理架构与规范体系、产品安全保障、平台基础防护、威胁情报与供应链、攻防演练与外部验证等平台基础安全和固件资产管理与漏洞响应等增强安全方案保障 [76][80][84] - AI模型与平台安全方面,火山方舟市场份额领先,模型安全遵循安全原则,在生命周期各阶段有不同治理重点;平台通过安全互信计算架构保障安全,有会话无痕等特点 [92][93][103] - AI智能体安全通过身份与权限管理、工具管理与准入、纵深防御与加固、前沿技术研究保障,定义风险评估方法,加固访问全链路 [114][120][139] 4. 总结 - 生成式AI行业安全未来有安全左移、体系化智能化、开放生态与责任共担三大趋势 [144] - 火山引擎致力于为企业提供可信、可控、合规的Al云原生基座,护航生成式AI发展 [142]
火山引擎FORCE大会追踪(2):Agent规模化落地,方舟与企业底座升级
海通国际证券· 2025-12-21 22:15
报告行业投资评级 - 报告未明确给出对火山引擎或其所属行业的投资评级 [1] 报告核心观点 - 火山引擎通过其产品组合将智能体(Agent)从概念探讨转向工程化与规模化落地,构建了覆盖模型服务、训练优化、上下文与记忆管理、企业级底座与治理以及开发提效工具的全链路支撑体系 [2] - 该平台化整合方案为企业客户提供了明确价值:有效降低拼装与集成成本,清晰界定工程边界,并确立可预期的上线路径,从而助力开发团队更聚焦于业务价值创造 [2] - 火山引擎正通过日益完善的产品矩阵与体系化的生态运营,在技术快速迭代的窗口期内,助力开发者将创新高效、稳健地转化为可衡量的业务价值 [6] 根据相关目录分别进行总结 火山方舟平台关键升级 - 发布新一代Responses API,支持单次请求内完成多轮上下文承接、多工具协调与结果归总,显著减少了传统方案中多次交互与复杂胶合代码带来的开销 [3] - 发布开发者模式,通过节点化、可追踪、可展开的工具调用链路,将智能体决策过程由黑箱转为可观测、可调试的资产,提升了问题定位效率 [3] - 现场披露的量化效果显示,在部分场景中,平均回复时延降低约20%,失败率下降约75% [3] - 借助上下文缓存,端到端时延可降低约50%,成本节约超过80%,会话缓存命中率可达85%–93% [3] 企业级规模化落地支持体系 - 发布并升级AgentKit企业级AI Agent平台底座,以模块化架构覆盖开发、部署、运维、监控与安全等环节 [1][4] - AgentKit突出零信任身份管控、存量API资产工具化、既有知识向智能体体系迁移及开箱即用评测能力,旨在解决企业当前的核心瓶颈——在不重构系统的前提下,实现既有资产安全、可控、可评估地被智能体调度 [4] - 发布TRAE CN企业版,为企业AI编码提供稳定性、适配性与安全性更强的工程底座,支持超大规模代码库索引、毫秒级响应及全链路加密传输,并以云端零存储策略保障数据合规 [1][4] - 增强VikingDB向量数据库及Viking记忆库的功能,结合其递进式检索、图文记忆与知识整合能力,为企业实现知识高效入模、上下文精准供给、抑制幻觉及结果可溯源提供了系统化的工程落地路径 [1][4] 开发者生态与增长动能 - 产品层面,扣子平台月活跃开发者已超300万,TRAE月活用户突破160万,表明其开发者生态已具备显著的规模基础与用户粘性 [5] - 生态运营层面,将原有开发者社区升级为专注Agent的开发者社区,并同步上线动手实验室、核心开发者计划及城市社区等系列生态支持举措 [1][5] - 城市社区已在北京、上海、深圳、成都四地试点,并计划于2026年扩展至全国十余城,旨在将发布会上的短期热度转化为持久的开发与实践闭环 [5]
豆包大模型1.8正式发布,拥有更强多模态Agent能力,豆包日均使用量超过50万亿,推出成本节省计划降幅达47%
硬AI· 2025-12-18 22:05
核心模型能力升级 - 豆包大模型1.8发布,具备更强的多模态Agent能力,拥有256K超长上下文和原生API上下文管理,擅长处理复杂多步任务 [2][3][5] - 模型在多模态理解上显著提升,长视频理解和安防监控场景能力增强,可辅助公司处理复杂任务并支持决策 [5] - 图像创作模型Doubao-Seedream-4.5同步发布,具备多图组合、创意写真、图片拆解、复杂组图、虚拟试穿与海报设计等能力 [3][5] - 视频生成模型Seedance系列发布,其中Seedance-1.0-Pro支持2至12秒1080P自由生成,可实现多人语言对白和多镜头叙事,提供影视级画质与原生音效 [3][7] 产品应用与生态构建 - 豆包大模型已落地智能硬件与语音助手,应用场景覆盖日常沟通、专业服务与报告解读、联网搜索等,配合边想边搜交互体验 [9] - 推出“火山方舟”推理代工服务,已接入Qwen、GLM、Seed-OSS等主流开源大模型,支持企业将精调后的模型一键Serverless部署,提供海量资源与专属推理加速 [11] - Viking系列产品亮相,包括VikingAI搜索与VikingDB向量数据库,配套多模态搜索支持文本、图像跨模态检索和个性化推荐,为Agent快速构建知识库 [13] - 发布企业级AI Agent平台AgentKit与TRAE(CN)企业版,已获NIO、PwC、汇付天下等头部客户采用,支持10万文件、5亿行代码超长上下文,可灵活配置企业规则与知识库 [15] 市场表现与成本优化 - 火山引擎平台“万亿Tokens俱乐部”成员已突破100家,豆包大模型日均使用量超50万亿Tokens,自发布以来增长417倍 [3] - 正式推出“AI节省计划”,采用一次性加入机制,覆盖豆包大模型、视频图像创作模型及第三方开源大模型,最高节省幅度达47%,支持全预付、零预付等多种付款方式 [2][3][18] - 公司认为明年模型行业市场可能再涨10倍,重点在于共同做大市场而非存量竞争,同时模型需要进一步降价以推动市场增长 [4] - 此次发布有望推动AI在企业生产场景中的落地应用,Agent开发工具的升级与生态扩容是关键 [3][18]
实测字节Seedance 1.5 Pro,能直出方言的AI视频也来了。
数字生命卡兹克· 2025-12-18 12:33
文章核心观点 - 公司在火山Force原动力大会上发布了其新一代视频生成模型Seedance 1.5 Pro,该模型在音画同步、中文与方言能力、情感表现力等方面实现了显著突破,达到了广告级甚至影视级别的输出效果,有望推动AI视频的工业化进程和创作理念变革 [3][35][36][37][38] 模型发布与获取 - 新模型Seedance 1.5 Pro已正式上线,用户可通过豆包、即梦或火山方舟平台体验 [7] - 在豆包平台,用户需在“视频生成”或“照片动起来”功能中选择1.5 Pro模型 [7] - 在即梦平台,用户需在“生成视频”功能中选择3.5 Pro模型,该模型基于Seedance 1.5 Pro能力,目前支持文生图、单参考和首尾帧生成 [8] - 火山方舟平台提供了京剧、名画等特定玩法的体验 [9] - 模型的API接口即将开放,目前已可预约 [12] 核心能力一:音画同步 - 模型在主体说话时的唇形一致性上表现优异,能够完美对口型 [13] - 模型能够理解并执行复杂的提示词,包括指定的说唱歌词、音效节奏(如100BPM的语速)等,实现精准的音画匹配 [13] - 模型支持多人对话场景,能够根据提示词中规定的对话内容和顺序,准确地将台词分配给不同角色 [16][17] - 模型具备多分镜音画同步能力,结合其最高支持12秒视频生成的特性,用户可通过“参考图+文生分镜”的方式快速生成广告短片等内容 [16] - 模型能够生成包含完整剧情、镜头切换、运镜和音效的12秒短片,所有元素匹配得当 [18][19] - 模型目前对“罐头笑声”等特定文化概念的理解尚有不足 [14] 核心能力二:中文与方言能力 - 模型具备强大的多语言输出能力,可无障碍生成英语、日语、韩语、西班牙语等内容 [21] - 模型的中文及方言能力在所有模型中处于“断档的强”的领先地位,是其最强的技能点 [23] - 模型生成的粤语内容已具备一定的韵味和氛围感,声音效果与细节准确性非常高,可达到约80%的成品水准 [23][24] - 模型还能自如生成四川话、上海话、东北话、台湾腔等多种方言,并支持在视频中进行方言切换与互动 [25] - 使用技巧:为获得最佳效果,需向模型提供目标语言或方言的原始文本提示词 [26] 核心能力三:情感表现力 - 模型的情感表现力大幅提升,能够根据不同的情境设定,对同一句台词演绎出完全不同的感觉 [27] - 模型能够生动演绎诸如“嘴角颤抖”、“一声冷哼”、“皮笑肉不笑”等细微的面部表情和情绪细节,声线也会随之变化,极具代入感 [30] - 仅凭一句台词,不加其他提示,模型也能自动配上一段合适的表演,实现“一条过” [30] - 模型的情感表现力是配乐、音效、运镜等多种能力综合作用的结果,能够生成沉浸感极强的视频片段,例如第一视角驾驶战斗机的场景 [33] - 该能力使得生成的内容可直接作为剪辑素材,大幅提升了制作效率 [34] 未来展望与行业影响 - 公司透露了一项未上线的“draft样片”功能,该功能可先生成低分辨率样片供用户确认关键元素,再生成高清成片,旨在减少“抽卡”次数,节约成本与时间 [35] - Seedance 1.5 Pro的更新使AI视频实现了画面、台词、音效、节奏、情绪的深度融合,输出可直接用于剪辑的广告级或影视级素材 [37] - 该技术进步被视为对AI视频工业化的“巨大提升”,将改变创作方式,促使声音与画面被一同纳入创作考量,可能引发新的提示词方式、视频形态、制作流程乃至生产力变革 [38]