图生视频 - 财报，业绩电话会，研报，新闻

图生视频

搜索文档

智通财经网· 2026-02-12 15:31

产品发布与核心能力 - 豆包视频生成模型 Seedance 2.0 于2月12日正式发布，已全面接入豆包和即梦产品，并上线火山方舟体验中心 [1] - 模型较好地解决了物理规律遵循及长效一致性等难题，赋予创作者前所未有的自由度，视频生成质量和可控性达到专业生产场景要求 [1] - 模型目前限制使用真人图像/视频作为主体参考，如需使用须经本人验证或取得授权 [1] 技术特性与性能 - 在运动场景下的生成可用率达到业界 SOTA 水平，人物动作建模自然连贯、遵循现实世界运动规律 [1] - 能高保真地合成时序精密的复杂交互场景，在特写镜头中展现出高度逼真的细节与严密的物理逻辑 [1] - 支持文字、图片、音频、视频四种模态混合输入，可参考输入素材中的构图、动作、运镜、特效、声音等元素，大幅提升创作自由度 [1] - 能精准还原复杂脚本，保持稳定的主体一致性，具备一定的编导思维，分镜设计和运镜贴合叙事逻辑 [2] - 新增视频编辑和视频延长能力 [2] - 集成双声道立体声技术，可实现高仿真、沉浸式的音效生成，支持背景音乐、环境音效或人物解说等音频多轨并行输出，精准对齐画面节奏 [2] 应用场景与商业化 - 广泛适配商业广告、影视特效、游戏动画、解说视频等各类生产场景，能提供高质量的生成效果 [2] - 预计在2月中下旬，Seedance 2.0 的 API 服务将上线火山方舟，帮助企业客户更好地落地创意 [2] 模型评测结果 - 字节跳动 Seed 团队协同影视领域专家建立了覆盖音视频生成、参考及编辑场景的综合评测集及相关评测标准 [2] - 在各项评测中，Seedance 2.0 的综合表现达到行业领先水平 [6] - 模型在细节稳定性、多人口型匹配、多主体一致性、文字还原精度和复杂编辑效果等方面仍有优化空间 [6]

新浪科技· 2025-11-21 12:42

产品发布 - 公司官宣推出“一句话生视频”能力，用户无需视频剪辑基础即可将文字构思或静态照片转化为生动视频 [1] - 用户可通过“文字生视频”和“图生视频”两种方式体验新功能，例如输入文字描述“一只猫在赛博朋克城市中漫步”或上传照片并配以简单指令 [1] - 新功能旨在为用户带来“人人都是视频创作者”的全新体验，使静态画面动态化变得轻而易举 [1] 技术基础 - 新能力的底层技术基于腾讯混元最新开源的HunyuanVideo 1.5模型 [1] - 模型支持中英文的文生视频与图生视频，能实现图像与视频在色调、细节上的高度一致性，并精准遵循运镜、流畅运动等多样化指令 [1] - 模型以仅8.3B的轻量尺寸，实现开源最强的效果，可在14G显存的消费级显卡上流畅运行 [1]

腾讯控股(HK:00700)

文生视频

图生视频

Software and Internet

Software and Internet

腾讯元宝

混元HunyuanVideo 1.5

生数科技发布图生视频模型Vidu Q2

经济观察网· 2025-09-25 13:58

产品发布 - 生数科技正式发布新一代图生视频大模型Vidu Q2 [1] 产品性能 - 模型在表情变化、推拉运镜、生成速度及语义理解方面有所进展 [1] - 模型具备图生视频和首尾帧视频生成功能 [1] - 生成视频时长可选范围为2秒至8秒 [1] - 提供电影大片及闪电出片两种生成模式 [1]

9款图生视频模型横评：谁能拍广告，谁还只是玩票？

锦秋集· 2025-09-01 12:32

文章核心观点 - 图生视频模型在语义理解、动作逻辑和物理规律方面仍存在显著瓶颈但已能有效解决创作流程中的"微任务" 未来需向段落生成和工作流嵌入方向演进 [50][51][52][53][54][55] 测评产品与范围 - 测试覆盖9款主流图生视频产品包括Google Veo3 快手Kling 2.1 字节Seedance 1.0 MiniMax Hailuo 02 生数Vidu Q1 Runway Gen-4 Midjourney V1 Pixverse V5和百度蒸汽机2.0 [7] - 测试时间为2025年8月所有模型在统一条件下生成5秒视频不调整除提示词外的附加参数 [9][13] 测试场景设计 - 测试包含三大类场景：职场与商业场景（品牌开场视频/企业节日物料）轻创作与社交表达（宠物拟人/风格混合）概念演示及创意实验（奇幻场景/ASMR音画同步） [11][16] - 评估维度包括语义遵循度（核心要素还原）物理规律（动作自然性）画面表现力（分辨率/光影/流畅度） [16] 关键测试结果 - **文字生成能力薄弱**：除Hailuo外所有模型均未能准确生成"JinQiu Capital Annual Summit 2025"字样出现乱码或忽略指令 Veo3存在跨语言处理缺陷 [17][18][19] - **音画同步能力分化**：仅Veo3和百度蒸汽机默认输出音效 Veo3音画契合度最高在ASMR测试中其玻璃质感音效表现最佳 [20][49] - **复杂动作链断裂**：宠物递礼盒任务中无一模型实现"从身后取出-递出"完整动作变身企鹅任务中仅Pixverse基本实现变身牵手跳舞 [30][35][39] - **物理规律普遍违规**：潮汐墙形态异常物体受力不合理（如飞船受力错误）礼盒凭空出现或形态变化等问题广泛存在 [25][36][44][45] - **文化语义理解差异**：春节机器人拜年任务中仅Hailuo和百度蒸汽机准确生成中国传统"拱手"动作其他模型呈现为双手合十 [26] 模型性能对比 - **综合表现领先模型**：Veo3在品牌场景结构完整性和音画同步方面突出 Hailuo在文字生成和文化动作准确性上优势明显 [21][26] - **可直接使用场景**：Veo3的节日物料视频具备直接使用价值 Midjourney在宠物任务中真实感强 Pixverse在变身任务动作连贯 [25][31][36] - **功能覆盖差异**：Veo3仅支持英文输入百度蒸汽机与Kling具备中文音视频一体化能力各模型定价策略差异显著（月费10-80美元不等） [12][19] 行业技术瓶颈 - 当前模型仍处于"点状生成"阶段无法实现段落级叙事构建在风格迁移测试中全部失败（如辛普森真人化转换） [51][55] - 核心限制包括动作链条断裂物理规律脆弱文字生成与跨语言处理薄弱三大短板 [39][45][51] 应用价值定位 - 核心价值在于解决"微任务"：快速生成会议开场动画社交媒体轻量化内容创意视觉草图和ASMR片段 [52][56] - 无法替代拍摄剪辑但可作为生产流程的辅助工具用于前期预演和过渡片段生成 [54] 技术演进方向 - 需从"能动"升级至"能演" 重点突破动作连贯性镜头语言和情绪节奏控制 [53] - 从趣味生成工具转向工作流嵌入式组件实现人机协同编导的多轮交互模式 [54][55]

图生视频

文生视频

Artificial Intelligence

Artificial Intelligence

Google Veo3

快手 Kling 2.1

字节 Seedance 1.0

新手实测8款AI文生视频模型：谁能拍广告，谁只是凑热闹

锦秋集· 2025-08-26 20:33

文章核心观点 - AI视频模型在技术迭代速度上表现迅猛但普通用户在实际应用场景中面临复现困难与工具选择复杂的问题[2][3] - 测评聚焦文本生成视频任务从真实创作需求出发评估8款主流模型的实用性能发现当前技术更适合作为创意草图工具而非直接生产工具[5][8][57] - 模型在语义理解、动作连贯性、物理逻辑等维度存在显著差异其中Veo3、Hailuo02、Kling1.6等模型在多项测试中表现突出[28][34][42][49][54] 测评模型与范围 - 测试覆盖8款主流视频生成模型：Veo3、Hailuo02、Jimeng3.0、Kling1.6、Seedance1.0、Pixverse V4.5、Vidu Q2、Luma Ray2 这些模型构成ToC侧视频生成应用的核心能力底座[11] - 测试时间为2025年7月 Jimeng3.0实际调用Seedance 1.0 mini模型因完整版仅对会员开放[11] - 模型定价策略差异显著：Veo3会员起价19.99美元/月 Hailuo02海外版9.99美元/月 Kling1.6海外版6.99美元/月 Seedance1.0会员79元/月 Luma Ray2会员9.99美元/月[12][13] 测评任务设计 - 设计5类代表性视频创作任务：写实动作类、商业素材类、情绪镜头类、审美想象类、复杂动作类每类任务包含开放式与细节型两组prompt[15][16][17] - 总计10组任务从结构、动作、情绪、视觉风格等多维度全面测评模型底层能力[19] - 评估标准基于创作可用性包含语义遵循、物理规律、动作幅度、镜头语言、整体表现力5个核心维度[20][21][22][23][24][25] 模型性能表现 - 写实动作类任务中 Veo3、Seedance与Hailuo02在动作连贯性方面表现最佳 Veo3在物理质感与视觉真实度上尤为突出[28] - 商业素材类任务所有模型均达到最低可用门槛但Veo3在皮肤质感和动作链执行上表现最优 Kling与Seedance在物理反馈上具真实感[34] - 情绪镜头类任务中 Hailuo02与Kling1.6动作组织连贯 Veo3在情绪细节呈现和镜头语言上更具表现力[42][43] - 审美想象类任务中 Seedance与Vidu对自然元素动态感捕捉出色 Veo3、Kling1.6、Vidu在镜头调度上流畅[49] - 复杂动作类任务中 Hailuo02、Kling1.6和Veo3在动作节奏与场景还原上表现优异 Veo3和Hailuo02在风格切换上最流畅[54] 技术局限与应用场景 - 当前文生视频模型更适合快速视觉草图生成、视觉美术创意探索、个别动作展示三类任务无法满足结构精度要求高的商用素材、物理逻辑复杂的故事片段、动作密集型段落[57][65] - 模型普遍存在物理逻辑错误：Jimeng3.0和Hailuo02出现手指数量异常 Luma、Pixverse、Seedance出现物体融合错位[35] - Prompt长短对效果影响有限但Hailuo02对长prompt适配性显著提升[56] 行业发展趋势 - 下一代模型需提升结构性任务闭环能力加强语义理解与执行一致性改善局部细节稳定性与物理合理性[60][61][62] - 图生视频模型在广告、电商等高一致性要求场景中展现更早的实用潜力但仍需解决动作组织和风格统一问题[62][63] - 现实应用策略是将模型融入工作流进行Demo生成-局部微调-部分替换的协作模式[59]

百度居然悄悄拿了个榜单第一，关键是……他们自己好像还不知道？

硬AI· 2025-05-18 22:08

百度Steamer-I2V模型技术突破 - 百度视频生成模型Steamer-I2V以89.38%总分位列VBench图生视频榜单第一超越OpenAI Sora和谷歌Imagen Video等知名模型 [3] - 模型具备像素级画面精准控制能力支持多模态条件输入包括中文文本提示和参考图像确保与创意意图高度一致 [10][11] - 基于Transformer扩散架构生成1080P高清视频通过多阶段训练优化时间一致性和运动规律性消除AI生成内容常见的抖动和闪烁问题 [12][13] 图生视频赛道商业化优势 - 图生视频模式提供更高可控性和稳定性生成成本不到传统视频制作的1/20 更易被品牌和企业用户接受 [7] - 相较于文生视频存在生成结果不可控问题图生视频给予明确起点显著降低商业化难度 [6] - 在影视创作领域结合AI图片工具制作分镜后生成视频成为新兴工作流程催生图生视频需求 [7] 百度AI生态战略布局 - 模型构建亿级规模中文多模态训练数据库通过三级数据优化体系实现专业级中文概念解析能力精准捕捉文化特定元素 [14] - 百度年初推出"百看"搜索支持多模态输入商业系统升级为"百度伴飞" 在智能问答/短剧/游戏等新场域释放商业空间 [17] - 公司正构建覆盖搜索/文档/视频创作的全方位AI内容生态系统实现用商一体无缝集成体验 [18] 行业竞争格局变化 - 百度在未进行大规模宣传情况下取得技术突破体现其低调务实的产品开发策略 [21][22] - 中文语义精准理解成为百度独特竞争优势中国创作者可直接使用中文表达创意而无需依赖英文翻译 [14][15]