Workflow
刚刚,好莱坞特效师展示AI生成的中文科幻大片,成本只有330元
机器之心·2025-08-21 21:08

多模态AI视频生成技术进展 - 多模态生成是AI未来发展方向,视频生成技术实现全链路覆盖:文字/语音→图像→视频,支持图片上传生成带音效视频并一键分享[1][2] - 百度蒸汽机2.0实现人物口型、表情、动作毫秒级同步,国产AI视频进入"有声有色"新阶段,运镜达到专业导演水准[4][5][6] - 技术突破包括时序对齐(口型与语音毫秒级同步)、多模态特征融合(语调对应微表情)、长时序连贯性、环境音效匹配及多角色交互精准定位[31] 百度蒸汽机2.0产品矩阵与商业化 - 推出Turbo版(720p/5s)、Lite版(轻量高效)、Pro版(1080p/电影级)、有声版(720p/5-10s音画一体)四大版本,全系价格仅为竞品70%,Turbo版5秒视频限价1.4元[8][10] - 通过百度搜索、APP及"绘想"平台开放体验,支持JPEG/PNG/WEBP格式输入,可添加背景音,实测显示单人吃播/多人对话/侧脸场景均表现自然[12][15][16][24] - 在VBench I2V评测中1.0版以89.38%总分全球第一,2.0版在指令遵循、运镜能力、叙事流畅度显著提升[32][33] 核心技术架构创新 - 首创LMMP(Latent Multi-Modal Planner)模型,通过扩散架构实现角色身份/台词/情感/互动的自动规划,保证多角色交互自然度与一致性[39] - 采用海量中文多模态数据训练,完成内容/人声/台词/环境音的信号抽取与对齐,构建专业镜头语言数据集[36][37] - 端到端训练音视频一体化系统,规划层与生成层相互校正,提升语义逻辑准确性,未来将拓展长视频生成技术[39][40] 行业应用与生态协同 - 模型深度融入百度搜索/内容/商业生态,降低创作门槛使普通用户可生成专业级视频,企业可低成本快速产出营销素材[42] - 好莱坞视效团队运用该技术,将2分钟科幻短片制作成本从传统上百万元降至330元,效率提升显著[44] - 开创应用驱动研发范式,形成"场景催生模型-模型反哺业务"闭环,强化搜索表现力与商业想象力[42]