AI视频生成 - 财报，业绩电话会，研报，新闻 - Reportify

AI视频生成

搜索文档

可灵2.1最强首尾帧上线生成效果提升235%

智通财经· 2025-08-22 12:45

智通财经获悉，8月22日，可灵AI正式发布基于2.1模型的全新首尾帧功能，其效果较1.6模型提升 235%，在视频转场、视觉冲击力、复杂运镜及创意营销等维度表现卓越。专业评测显示，其整体GSB 得分全面超越Midjourney与Seedance1.0mini。可灵2.1首尾帧的推出，进一步提升了AI视频生成的可控性，广泛适用于广告营销、影视、短剧、动画等创意制作场景。 ...

可灵2.1首尾帧

可灵2.1首尾帧

好莱坞特效师花300多块钱，用AI做了一部科幻短片

第一财经· 2025-08-22 00:02

AI视频生成技术发展 - 百度蒸汽机音视频一体模型生成10秒有声片段成本仅约330.6元人民币[7] - 传统实拍或CG制作同类短片需花费数百万元成本[6] - 单个复杂好莱坞镜头成本可达数十万至上百万元[6] 行业竞争格局 - 快手可灵AI 2025年第二季度营业收入超2.5亿元人民币[8] - 赛道参与者包括字节、阿里、腾讯及MiniMax等创业公司[8] - 谷歌Veo3模型实现环境音与人物对话同步生成[8] 技术突破与局限 - 百度实现多人有声视频一体化生成技术难点在于多角色动作与声音匹配[8] - 当前视频生成时长局限在5-10秒因扩散模型架构下延长时长会导致成本指数级增长[9] - 视频时长从10秒延长至100秒可能使成本增加100倍[9] 商业化应用场景 - 短剧投流市场爆发推动视频生成模型自研需求[7] - 百度视频生成模型上线50天主要用户包括内部搜索业务及企业客户[8] - 行业仍处起始阶段未来市场空间被广泛看好[9]

百度蒸汽机音视频一体模型

OpenAI视频生成模型Sora

谷歌Veo3模型

百度蒸汽机音视频一体模型

OpenAI视频生成模型Sora

谷歌Veo3模型

马斯克奥特曼中文对喷， AI 视频终于从「玩具」变成「工具」

搜狐财经· 2025-08-21 21:20

核心观点 - AI视频生成面临的最大挑战之一是处理包含复杂情绪的中文对白，百度蒸汽机2.0通过全球首个中文音视频一体化生成技术解决了这一问题 [2][3][15] - 百度蒸汽机2.0将AI视频从"玩具"升级为"生产力工具"，专注于中文对话场景，简化创作流程为"一张图+一句话" [3][12][15] - 该技术显著降低了视频制作成本，如好莱坞级特效镜头生成成本从百万元级别降至数百元 [16][17] 技术突破 - 采用音视频一体化生成逻辑，声音和画面同步构思而非后期匹配，实现口型精准、情感自然的中文对话 [8][15] - 首创多模态潜在空间规划器技术，可自主规划角色身份、台词及互动逻辑 [9] - 支持1080p电影级画质和复杂运镜，对摄影术语理解准确 [13][14] 应用场景 - 适用于Meme二创、虚拟人对话、知识讲解、短剧制作等场景 [12] - 在品牌营销中实现传统需4-6周制作的奇幻场景，周期缩短至几天 [19] - 专业影视制作中可快速生成特效素材，如40多个镜头仅花费330.6元 [16] 产品性能 - 提供4款生成模型，支持5s或10s视频，分辨率达1080p [5][7] - 中文语音细节还原度高，支持东北话等方言 [10] - 人物表情、肢体动作流畅，与原始图片保持高度一致 [7][8] 行业影响 - 颠覆了内容创作门槛和权利，使导演梦普及化 [20] - 重塑内容行业成本公式和竞争规则 [19] - 推动AI视频从特效插件向完整叙事工具转变 [17][19]

百度集团(US:BIDU)

中文音视频一体化生成技术

百度蒸汽机（MuseSteamer）视频模型2.0

中文音视频一体化生成技术

百度蒸汽机（MuseSteamer）视频模型2.0

刚刚，好莱坞特效师展示AI生成的中文科幻大片，成本只有330元

机器之心· 2025-08-21 21:08

多模态AI视频生成技术进展 - 多模态生成是AI未来发展方向，视频生成技术实现全链路覆盖：文字/语音→图像→视频，支持图片上传生成带音效视频并一键分享[1][2] - 百度蒸汽机2.0实现人物口型、表情、动作毫秒级同步，国产AI视频进入"有声有色"新阶段，运镜达到专业导演水准[4][5][6] - 技术突破包括时序对齐（口型与语音毫秒级同步）、多模态特征融合（语调对应微表情）、长时序连贯性、环境音效匹配及多角色交互精准定位[31] 百度蒸汽机2.0产品矩阵与商业化 - 推出Turbo版(720p/5s)、Lite版(轻量高效)、Pro版(1080p/电影级)、有声版(720p/5-10s音画一体)四大版本，全系价格仅为竞品70%，Turbo版5秒视频限价1.4元[8][10] - 通过百度搜索、APP及"绘想"平台开放体验，支持JPEG/PNG/WEBP格式输入，可添加背景音，实测显示单人吃播/多人对话/侧脸场景均表现自然[12][15][16][24] - 在VBench I2V评测中1.0版以89.38%总分全球第一，2.0版在指令遵循、运镜能力、叙事流畅度显著提升[32][33] 核心技术架构创新 - 首创LMMP(Latent Multi-Modal Planner)模型，通过扩散架构实现角色身份/台词/情感/互动的自动规划，保证多角色交互自然度与一致性[39] - 采用海量中文多模态数据训练，完成内容/人声/台词/环境音的信号抽取与对齐，构建专业镜头语言数据集[36][37] - 端到端训练音视频一体化系统，规划层与生成层相互校正，提升语义逻辑准确性，未来将拓展长视频生成技术[39][40] 行业应用与生态协同 - 模型深度融入百度搜索/内容/商业生态，降低创作门槛使普通用户可生成专业级视频，企业可低成本快速产出营销素材[42] - 好莱坞视效团队运用该技术，将2分钟科幻短片制作成本从传统上百万元降至330元，效率提升显著[44] - 开创应用驱动研发范式，形成"场景催生模型-模型反哺业务"闭环，强化搜索表现力与商业想象力[42]

多模态生成

Artificial Intelligence

百度蒸汽机（MuseSteamer）2.0

多模态生成

Artificial Intelligence

百度蒸汽机（MuseSteamer）2.0

多人有声视频一体化生成！用百度最新AI生成营销视频，现在1.4元/5秒

量子位· 2025-08-21 19:10

百度蒸汽机2.0视频生成大模型升级 - 百度蒸汽机（MuseSteamer）视频生成大模型升级至2.0版本，主打多人有声音视频一体化生成[1] - 蒸汽机2.0擅长复杂运镜，镜头叙事能力更强，画质进一步提升[2] - 能够一体化生成人物表演、情绪、声音，细节精致如美人鱼鱼鳞和妆容[3] - 支持多种创意玩法，如古代武士打麻将、踩缝纫机绣花等[3] - 可将图片转换成不同风格的视频[3] 产品版本与特性 - 提供四个版本：Turbo版、Lite版、Pro版和有声版[6] - Turbo版：720p画质，应用广泛，生成5秒视频[6] - Lite版：720p画质，极致性价比，生成5秒视频[6] - Pro版：1080p超高画质[6] - 有声版：720p画质，一体化有声，生成5秒/10秒视频[6] - 全系模型已登陆百度智能云，企业用户可通过百度千帆大模型平台使用API服务[7] - 价格低至行业70%，Turbo有声版2.5元/秒，限时优惠1.4元/5秒[8] 技术优势 - 行业首次实现多人有声音视频一体化生成，语音与唇形、表情、动作毫秒级精准对齐[17] - 首创多模态潜在空间规划技术（Latent Multi-Modal Planner），自主协调多角色身份、情感与互动逻辑[17] - 深度适配中文场景，超98%还原度精准呈现中文语音细节与情感表达[18] - 端到端电影级画质生成，精准主体动态刻画，打造真实细腻人物表现力[19] - 大师级运镜控制，内置数十种专业镜头语言，精准响应文本指令[20] 应用场景与案例 - 研发由应用驱动，满足搜索、内容生态、信息流分发、垂类及商业业务需求[21] - 已在百度移动生态广泛使用，强化搜索、内容、商业等多模态体验[22] - 一汽大众揽境七夕营销案例：行业首支汽车类AIGC创意视频《揽境天阶·七夕重逢》[24] - 伊利倍畅成人羊奶粉营销案例：首支AIGC品牌宣传片《漂"羊"过海来看你》[25] - 好莱坞级大片镜头不再需要百万预算，专业影视视效指导姚骐用其制作科幻短片《归途》[14][12] 用户体验与展示 - 用户可通过百度搜索"百度蒸汽机"或登录"绘想"平台体验[5] - 展示效果包括自然音效的海边场景、科幻大片、穿越时空的趣味场景等[11] - 支持生成卡通视频，覆盖各种风格[12]

多模态潜在空间规划技术

Software and Internet

百度蒸汽机（MuseSteamer）视频生成大模型

多模态潜在空间规划技术

Software and Internet

百度蒸汽机（MuseSteamer）视频生成大模型

可灵AI启动全新首尾帧功能内测

经济观察网· 2025-08-15 16:02

产品功能升级 - 可灵2.1模型开启全新首尾帧功能内测显著提升视频生成效果 [1] - 新增自定义首尾帧图像功能生成连贯高质量视频内容 [1] - 实现更加流畅的电影级运镜控制与丝滑自然转场效果 [1] 技术能力突破 - 精准理解复杂语义有效克服转场生硬与文本响应不足等痛点问题 [1] - 大幅提升视频内容的一致性和稳定性 [1] 应用场景拓展 - 新功能特别适用于产品宣传片 AI电影 AI短剧等专业创作场景 [1]

Artificial Intelligence

可灵2.1模型

可灵AI全新首尾帧功能

Artificial Intelligence

可灵2.1模型

可灵AI全新首尾帧功能

新手体验热门AI视频生成双雄即梦与万兴天幕AI，天幕性价比友好度拉满！

搜狐财经· 2025-08-15 12:53

行业市场前景 - 全球生成式AI市场规模预计突破1000亿美元其中视频生成赛道规模达400亿美元成为核心增长引擎[1] - 短视频成为日常信息获取和娱乐的主要方式视频创作者数量快速增长高效视频工具需求呈指数级增长[1] - AIGC视频创作处于爆发临界点行业正推动"全民创作平权"与"专业效率革命"的双轨探索[1] 产品定位与竞争格局 - 即梦AI依托抖音生态打造"全民创意引擎" 主打低门槛和高社区互动特性[1] - 万兴科技作为A股上市公司聚焦音视频垂直领域推出全链路解决方案产品万兴天幕AI[1] - 两家公司代表中国AIGC视频工具差异化技术路径成为行业标杆性产品[1] 定价策略与成本分析 - 万兴天幕AI标准版连续包月价格138元/月低于即梦AI的199元/月[4] - 按活动首月优惠计算万兴天幕AI仅需98元较即梦AI的119元更具价格优势[4] - 万兴天幕AI单条视频生成成本0.35元即梦AI单条成本0.5元万兴成本仅为即梦的70%[4] 用户界面设计比较 - 两家产品均采用左右结构设计并保持简洁明快风格[6][9] - 即梦AI界面区分度不明显万兴天幕AI操作指令性更清晰且对新手更友好[6][9] - 万兴天幕AI提供更专业的模块化功能选择即梦AI具备进度提示功能[9][18] 文生视频性能测试 - 在"猫咪站在麦当劳后厨"测试中两家产品均获得5分满分完成时间分别为60秒和45秒[10][12] - 在"猫咪制作汉堡"复杂场景测试中即梦AI得分4分出现物体突然消失问题万兴天幕AI得分4.2分但提示词扩展不足[14][16] - 即梦AI具备提示词优化能力能拆分复杂动作万兴天幕AI在运镜控制方面表现优异[14][16] 产品功能特性 - 即梦AI提供画布功能模块集成多图层编辑和AI生成与精细化修改能力[8] - 万兴天幕AI提供视频生成、续写、图片生成和音频生成等全链路功能[9] - 即梦AI注重社区互动和内容展示万兴天幕AI强调工作流简化和模块化操作[8][18]

软件与服务

软件与服务

可灵AI再进化 2.1模型将推出“电影级”首尾帧功能

证券时报网· 2025-08-15 12:05

产品功能升级 - 快手旗下可灵2.1模型于8月15日开启全新首尾帧功能内测 [1] - 新功能支持用户自定义首尾帧图像生成连贯高质量视频内容 [1] - 升级带来更流畅的电影级运镜控制与丝滑自然转场效果 [1] 技术能力提升 - 模型实现精准复杂语义理解并提升文本响应能力 [1] - 功能显著增强视频一致性和稳定性 [1] - 有效克服AI视频生成中转场生硬和文本响应不足等痛点 [1] 应用场景拓展 - 新功能特别适用于产品宣传片等专业创作场景 [1] - 可支持AI电影和AI短剧等高阶视频内容制作 [1]

可灵2.1模型

可灵2.1模型

港股科技ETF（513020）涨超2.5%，技术迭代与成本优化驱动AI视频产业扩容

每日经济新闻· 2025-08-13 13:53

AI视频生成技术进展 - AI视频生成技术在成本优化和内容创新方面取得显著进展快手可灵通过技术迭代实现推理成本下降阿里Wan2.2的MoE架构可节省50%计算消耗 [1] - 行业普遍采用此类技术将降低用户使用成本并提升渗透率 AI参与度从50%提升至80% 真人实拍环节也可被AI工具替代 [1] - AI漫剧生成和转绘等新形态推动内容市场扩容测算显示AI视频潜在空间达416亿美元其中B端商业化空间约397亿美元（渗透率20%） P端创作者市场约38亿美元 [1] 行业趋势 - 视频时长延伸年内或达1分钟成本下降带动"更好更便宜" 新内容品类扩充供给 [1] - 技术突破与成本优化将加速产业趋势尤其看好多模态AI应用出海布局的公司其商业化进程或更快 [1] 港股科技ETF - 港股科技ETF（513020）跟踪的是港股通科技指数（931573）该指数主要覆盖通过港股通渠道可投资的科技相关企业 [1] - 成分股以非必需性消费行业为主同时涵盖汽车药品及生物科技资讯科技器材等多个恒生二级行业旨在反映市场中科技板块的整体表现 [1] 基金产品 - 没有股票账户的投资者可关注国泰中证港股通科技ETF发起联接C（015740）国泰中证港股通科技ETF发起联接A（015739） [2]

资讯科技器材

港股科技ETF（513020）

国泰中证港股通科技ETF发起联接C（015740）

国泰中证港股通科技ETF发起联接A（015739）

资讯科技器材

港股科技ETF（513020）

国泰中证港股通科技ETF发起联接C（015740）

国泰中证港股通科技ETF发起联接A（015739）

6秒造一个「视频博主」，Pika让一切图片开口说话

机器之心· 2025-08-13 11:27

Pika音频驱动表演模型 - Pika推出名为"音频驱动表演模型"的新模型允许用户上传音频文件结合静态图像生成高度同步的视频实现精确口型同步自然表情变化和流畅身体动作 [3][4] - 该技术可将任意静态图片与音频结合生成动态视频如自拍搭配语音可实现口型神同步眉毛挑动等细节精准匹配生成时间仅需6秒支持720p高清且视频长度不限 [6] - 目前功能仅限iOS端且需要邀请码尚未全面开放 [7] 技术应用场景 - 适用于社交媒体内容创作如生成说唱视频脱口秀片段等可快速制作创意短片和Meme [16][17] - 潜在应用包括游戏开发(NPC对话动画) 教育领域(生动讲解视频) 未来可能发展个人AI数字分身 [17] - 支持多语言音频输入对不同语种表现良好 [14] 用户实测效果 - 网友测评显示唇同步准确性极高有效避免AI视频常见"假唱"问题说唱停顿处人物表情自然但手部动作仍有瑕疵 [11] - 官方展示案例包括跨语言视频脱口秀模仿和实景吐槽等演员表现力突出 [12][15][16] 行业影响 - 技术显著降低视频制作门槛传统需顶级特效师耗时半月的工作现可6秒完成 [6] - 可能引发新一轮创意视频爆发但同时也带来虚假信息鉴别等新挑战 [17]

Artificial Intelligence

音频驱动表演模型（Audio-Driven Performance Model）

Artificial Intelligence

音频驱动表演模型（Audio-Driven Performance Model）