Workflow
AI视频生成
icon
搜索文档
百度蒸汽机2.0发布:成本降至七成,AIGC视频将进入普惠时代
财经网· 2025-08-23 19:09
核心观点 - AI视频生成成为大模型竞争核心战场 成本与质量平衡成为行业比拼关键[1] - 公司通过技术突破和价格下调策略 旨在撬动更大规模创作者和商业市场[1] 技术突破与产品升级 - 蒸汽机2.0采用端到端生成方式 通过统一潜在空间规划实现多角色自然协同互动[2] - 新版本在语音画面同步、多角色对话生成和中文场景适配等方面升级[1] - 端到端架构提升可用性 支持复杂场景和多角色同时发声的长镜头[2] - 一体化生成方式避免合成痕迹 效果接近真实拍摄[2] 成本优化措施 - 训练阶段通过算子优化和数据集调整减少冗余计算[5] - 推理阶段进行工程化改造 避免传统扩散模型指数级成本增长[5] - 底层算力依托百舸平台和自研昆仑芯片 形成软硬件结合成本压缩能力[5] - GPU算力架构和工程优化积累使推理效率和算力利用率大幅提升[1][4] 价格与商业模式 - 刊例价相比同类产品下降至70% 将好莱坞百万级特效成本降至百元级别[1][3] - 价格优势源自多年GPU算力积累 非补贴换量[4] - 案例显示成本从数周制作周期缩短至数日 费用从万元级降至千元内[5] - 降价策略惠及中小企业市场 降低视频创作门槛[6] 行业竞争与生态落地 - AI视频生成赛道竞争激烈 但存在质量、时长和交互稳定性瓶颈[7] - 公司聚焦中文场景与生态落地可持续性 非单纯追逐画质极致[7] - 蒸汽机已贯穿搜索、内容生态、营销和企业市场等多业务场景[7] - 百度搜索中超60%流量带有AIGC生成内容 增强用户体验[7] - 生态定位驱动搜索与内容生态增长 模型调用营收非首要目标[7]
百元造出科幻大片?AI视频生成“钱景”初显
北京日报客户端· 2025-08-23 09:12
行业技术突破 - AI视频生成技术实现规模化应用,仅需一张图或一句话即可生成电影级质感视频,大幅降低制作门槛 [1] - 百度"蒸汽机"音视频一体化模型实现行业首次多人有声音视频一体化生成,突破传统"默片"限制 [5] - 视频生成长度普遍为5-10秒,但百度内部已在下一代技术架构取得突破性进展,将解决视频长度与成本倍数增长问题 [11] 成本效率变革 - 科幻短片《归途》制作成本仅330.6元人民币,相比传统实拍成本降低超万倍(传统成本需数百万元) [3][5] - 该短片含40多个镜头,通过AI生成超120个片段素材,包括18个10秒有声片段和102个5秒片段,耗时仅一周完成 [3] - AI技术消除传统影视制作的演员、场地、设备租赁及后期特效等高成本环节 [3] 市场竞争格局 - 国内企业包括百度"蒸汽机"、字节即梦、快手可灵AI、智谱清影、生数科技Vidu、MiniMax海螺AI等密集布局AI视频生成赛道 [7] - 国际市场竞争者包括OpenAI Sora、Google Veo、Runway Gen系列及Stability AI的Stable Video Diffusion模型 [7] - 生数科技Vidu模型上线8个月实现年化经常性收入2000万美元(约1.4亿元人民币) [7] - 快手可灵AI收入从一季度1.5亿元增长至二季度2.5亿元,环比大幅提升 [7] 生态价值与用户增长 - 百度将AI视频生成视为生态活跃度核心支点,移动搜索结果页AI生成内容占比从4月35%提升至7月64% [8] - AIGC行业用户使用时长同比飙升393.9%,成为移动互联网新增长引擎 [8] - 爆款漫剧《明日周一》采用"10人团队+45天+50集+AI生成"模式,抖音上线5天播放量突破500万 [7] 应用场景与用户群体 - 当前AI视频生成需专业创作者反复调试提示词(prompt),消费群体以专业创作者为主 [11] - 技术需突破一键生成能力,实现从专业创作者向大众用户群体的跨越 [11]
可灵 2.1 首尾帧藏师傅外挂教程:两张图→大片,附万能提示词
歸藏的AI工具箱· 2025-08-22 17:10
可灵2.1首尾帧模型技术能力 - 模型在提示词理解和遵循以及图片转换自然度方面表现优异 基本达到首尾帧功能天花板[1] - 支持完全无关两张图片的顺滑转换 但前后关联图片能带来更强视觉冲击[2] - 生成效率极高 单条视频从制作到生成仅需半小时 期间可并行处理其他任务[2] 图片素材获取方法论 - 采用相同提示词抽卡方式 利用模型多图生成时种子一致特性 可获得相似度高图片 特别适合展示类视频[9] - 通过修改提示词抽卡 先生成尾帧图片后再逆向调整部分元素 实现人物或物品的移动与消失效果[12] - 运用FLUX Kontext等图像编辑模型 通过自然语言指令精确控制图片编辑 实现材质添加与背景更换[15] 提示词生成系统 - 开发差异化提示词生成策略 自动判断图片关联性(A类关联性强/B类差异巨大)并匹配对应转场方案[28] - A类图片采用"原地演变"策略 聚焦主体状态风格或环境变化 避免使用摄像机移动[29] - B类图片采用"运镜驱动转场"策略 强制使用推拉摇移等镜头运动连接画面 并附加特效变化增强关联性[29][32] 商业化应用场景 - 电商领域可实现模特产品一致性展示 解决手部细节问题 可用性极高[18] - 支持文字特效生成 通过材质替换和环境同步变化提升视觉表现力[21][23] - 玩偶变装等娱乐化应用展现技术泛化能力[25] 工作流优化方案 - 建议将流程固化为标准化模板(首尾帧链接+差异分类+提示词+成片链接) 实现10秒出提示词和半小时出片的高效生产[39] - 强调从"特效思维"转向"叙事思维" 通过构建因果关联使视频单价提升5倍[41] - 三张王牌拿图法(同提示词/改提示词/图像编辑)结合万能提示词形成完整解决方案[40]
可灵2.1首尾帧功能上线 破解AI视频转场难题
环球网· 2025-08-22 16:41
核心产品升级 - 可灵AI推出基于2 1模型的全新首尾帧功能 通过升级端到端多模态语义推理能力提升视频生成效果[1] - 与1 6版本相比效果提升235% 在视频转场 视觉呈现 运镜处理及营销素材制作等方面表现突出[1] 技术能力突破 - 改善AI视频生成中常见的转场问题 实现多场景自然衔接 解决场景衔接生硬和"刹车感"[2] - 引入自适应扩散引导与方向重定向机制 在扩散生成每一步动态引导和纠正条件分布 修正偏离语义或视觉逻辑的动态路径[12] - 深度整合用户提示词与首尾帧图片中的视觉语义及动作意图 融合多模态数据 捕捉画面元素在时空维度上的演变逻辑[12] 视觉表现提升 - 实现艺术风格切换与角色动态衔接的无缝连接 案例显示角色发型 服装和光线实现无缝衔接[4] - 增强复杂视觉元素控制能力 实测中人物轮廓变为火焰形态 火山岩浆流动和星空下烈焰升腾等细节清晰[6] - 保持人物/物体身份一致性 色彩风格与画面基调连贯 提升视频专业质感[12] 运镜技术优化 - 支持专业级复杂运镜 通过首尾帧连续衔接实现镜头轨迹与场景逻辑匹配[6] - 案例显示镜头快速向左下摇镜突出爬行机器人 随后快速左摇拍摄逃窜机器人与爆炸场景 提升观看沉浸感[6] 营销应用价值 - 快速生成符合品牌调性的创意展示视频 适用于市场营销领域 降低素材制作成本[8] - 饮品广告案例显示易拉罐从树莓中飞出 树莓如爆炸般散开 果汁飞溅过程自然[10] 竞品性能表现 - 与Seedance1 0 mini对比的整体GSB得分达2 09 与Midjourney对比达2 30 与可灵1 6对比达3 35[10] - 在与Midjourney的两两偏好对比中胜率为62% 与Seedance1 0 mini对比胜率为57%[10] 平台发展规模 - 已完成30次迭代 服务用户超4500万 累计生成视频超2亿条 图片超4亿张[12] - 覆盖广告 影视 游戏等多个行业 巩固在AI视频生成领域的地位[12]
破解AI视频转场难题 可灵2.1最强首尾帧上线
证券时报网· 2025-08-22 12:49
8月22日,可灵AI正式发布基于2.1模型的全新首尾帧功能,其效果较1.6模型提升235%,在视频转场、 视觉冲击力、复杂运镜及创意营销等维度表现卓越。专业评测显示,其整体GSB得分全面超越 Midjourney与Seedance1.0mini。可灵2.1首尾帧的推出,进一步提升了AI视频生成的可控性,广泛适用于 广告营销、影视、短剧、动画等创意制作场景。 ...
可灵2.1最强首尾帧上线 生成效果提升235%
智通财经· 2025-08-22 12:45
智通财经获悉,8月22日,可灵AI正式发布基于2.1模型的全新首尾帧功能,其效果较1.6模型提升 235%,在视频转场、视觉冲击力、复杂运镜及创意营销等维度表现卓越。专业评测显示,其整体GSB 得分全面超越Midjourney与Seedance1.0mini。可灵2.1首尾帧的推出,进一步提升了AI视频生成的可控 性,广泛适用于广告营销、影视、短剧、动画等创意制作场景。 ...
好莱坞特效师花300多块钱,用AI做了一部科幻短片
第一财经· 2025-08-22 00:02
AI视频生成技术发展 - 百度蒸汽机音视频一体模型生成10秒有声片段成本仅约330.6元人民币[7] - 传统实拍或CG制作同类短片需花费数百万元成本[6] - 单个复杂好莱坞镜头成本可达数十万至上百万元[6] 行业竞争格局 - 快手可灵AI 2025年第二季度营业收入超2.5亿元人民币[8] - 赛道参与者包括字节、阿里、腾讯及MiniMax等创业公司[8] - 谷歌Veo3模型实现环境音与人物对话同步生成[8] 技术突破与局限 - 百度实现多人有声视频一体化生成 技术难点在于多角色动作与声音匹配[8] - 当前视频生成时长局限在5-10秒 因扩散模型架构下延长时长会导致成本指数级增长[9] - 视频时长从10秒延长至100秒可能使成本增加100倍[9] 商业化应用场景 - 短剧投流市场爆发推动视频生成模型自研需求[7] - 百度视频生成模型上线50天 主要用户包括内部搜索业务及企业客户[8] - 行业仍处起始阶段 未来市场空间被广泛看好[9]
马斯克奥特曼中文对喷, AI 视频终于从「玩具」变成「工具」
搜狐财经· 2025-08-21 21:20
核心观点 - AI视频生成面临的最大挑战之一是处理包含复杂情绪的中文对白,百度蒸汽机2.0通过全球首个中文音视频一体化生成技术解决了这一问题 [2][3][15] - 百度蒸汽机2.0将AI视频从"玩具"升级为"生产力工具",专注于中文对话场景,简化创作流程为"一张图+一句话" [3][12][15] - 该技术显著降低了视频制作成本,如好莱坞级特效镜头生成成本从百万元级别降至数百元 [16][17] 技术突破 - 采用音视频一体化生成逻辑,声音和画面同步构思而非后期匹配,实现口型精准、情感自然的中文对话 [8][15] - 首创多模态潜在空间规划器技术,可自主规划角色身份、台词及互动逻辑 [9] - 支持1080p电影级画质和复杂运镜,对摄影术语理解准确 [13][14] 应用场景 - 适用于Meme二创、虚拟人对话、知识讲解、短剧制作等场景 [12] - 在品牌营销中实现传统需4-6周制作的奇幻场景,周期缩短至几天 [19] - 专业影视制作中可快速生成特效素材,如40多个镜头仅花费330.6元 [16] 产品性能 - 提供4款生成模型,支持5s或10s视频,分辨率达1080p [5][7] - 中文语音细节还原度高,支持东北话等方言 [10] - 人物表情、肢体动作流畅,与原始图片保持高度一致 [7][8] 行业影响 - 颠覆了内容创作门槛和权利,使导演梦普及化 [20] - 重塑内容行业成本公式和竞争规则 [19] - 推动AI视频从特效插件向完整叙事工具转变 [17][19]
刚刚,好莱坞特效师展示AI生成的中文科幻大片,成本只有330元
机器之心· 2025-08-21 21:08
多模态AI视频生成技术进展 - 多模态生成是AI未来发展方向,视频生成技术实现全链路覆盖:文字/语音→图像→视频,支持图片上传生成带音效视频并一键分享[1][2] - 百度蒸汽机2.0实现人物口型、表情、动作毫秒级同步,国产AI视频进入"有声有色"新阶段,运镜达到专业导演水准[4][5][6] - 技术突破包括时序对齐(口型与语音毫秒级同步)、多模态特征融合(语调对应微表情)、长时序连贯性、环境音效匹配及多角色交互精准定位[31] 百度蒸汽机2.0产品矩阵与商业化 - 推出Turbo版(720p/5s)、Lite版(轻量高效)、Pro版(1080p/电影级)、有声版(720p/5-10s音画一体)四大版本,全系价格仅为竞品70%,Turbo版5秒视频限价1.4元[8][10] - 通过百度搜索、APP及"绘想"平台开放体验,支持JPEG/PNG/WEBP格式输入,可添加背景音,实测显示单人吃播/多人对话/侧脸场景均表现自然[12][15][16][24] - 在VBench I2V评测中1.0版以89.38%总分全球第一,2.0版在指令遵循、运镜能力、叙事流畅度显著提升[32][33] 核心技术架构创新 - 首创LMMP(Latent Multi-Modal Planner)模型,通过扩散架构实现角色身份/台词/情感/互动的自动规划,保证多角色交互自然度与一致性[39] - 采用海量中文多模态数据训练,完成内容/人声/台词/环境音的信号抽取与对齐,构建专业镜头语言数据集[36][37] - 端到端训练音视频一体化系统,规划层与生成层相互校正,提升语义逻辑准确性,未来将拓展长视频生成技术[39][40] 行业应用与生态协同 - 模型深度融入百度搜索/内容/商业生态,降低创作门槛使普通用户可生成专业级视频,企业可低成本快速产出营销素材[42] - 好莱坞视效团队运用该技术,将2分钟科幻短片制作成本从传统上百万元降至330元,效率提升显著[44] - 开创应用驱动研发范式,形成"场景催生模型-模型反哺业务"闭环,强化搜索表现力与商业想象力[42]
多人有声视频一体化生成!用百度最新AI生成营销视频,现在1.4元/5秒
量子位· 2025-08-21 19:10
百度蒸汽机2.0视频生成大模型升级 - 百度蒸汽机(MuseSteamer)视频生成大模型升级至2.0版本,主打多人有声音视频一体化生成[1] - 蒸汽机2.0擅长复杂运镜,镜头叙事能力更强,画质进一步提升[2] - 能够一体化生成人物表演、情绪、声音,细节精致如美人鱼鱼鳞和妆容[3] - 支持多种创意玩法,如古代武士打麻将、踩缝纫机绣花等[3] - 可将图片转换成不同风格的视频[3] 产品版本与特性 - 提供四个版本:Turbo版、Lite版、Pro版和有声版[6] - Turbo版:720p画质,应用广泛,生成5秒视频[6] - Lite版:720p画质,极致性价比,生成5秒视频[6] - Pro版:1080p超高画质[6] - 有声版:720p画质,一体化有声,生成5秒/10秒视频[6] - 全系模型已登陆百度智能云,企业用户可通过百度千帆大模型平台使用API服务[7] - 价格低至行业70%,Turbo有声版2.5元/秒,限时优惠1.4元/5秒[8] 技术优势 - 行业首次实现多人有声音视频一体化生成,语音与唇形、表情、动作毫秒级精准对齐[17] - 首创多模态潜在空间规划技术(Latent Multi-Modal Planner),自主协调多角色身份、情感与互动逻辑[17] - 深度适配中文场景,超98%还原度精准呈现中文语音细节与情感表达[18] - 端到端电影级画质生成,精准主体动态刻画,打造真实细腻人物表现力[19] - 大师级运镜控制,内置数十种专业镜头语言,精准响应文本指令[20] 应用场景与案例 - 研发由应用驱动,满足搜索、内容生态、信息流分发、垂类及商业业务需求[21] - 已在百度移动生态广泛使用,强化搜索、内容、商业等多模态体验[22] - 一汽大众揽境七夕营销案例:行业首支汽车类AIGC创意视频《揽境天阶·七夕重逢》[24] - 伊利倍畅成人羊奶粉营销案例:首支AIGC品牌宣传片《漂"羊"过海来看你》[25] - 好莱坞级大片镜头不再需要百万预算,专业影视视效指导姚骐用其制作科幻短片《归途》[14][12] 用户体验与展示 - 用户可通过百度搜索"百度蒸汽机"或登录"绘想"平台体验[5] - 展示效果包括自然音效的海边场景、科幻大片、穿越时空的趣味场景等[11] - 支持生成卡通视频,覆盖各种风格[12]