AI视频生成新品实测:这怎么不算影院级呢?
模型性能表现 - 作为全球首个中文音视频一体化生成的I2V模型,在中文语音和口型同步方面表现自然[3][6] - 升级版本擅长复杂运镜和镜头叙事能力,画质进一步提升[7] - 视频生成精细度较高,生成视频大小达20.8M,比对比产品3M大很多[18] 功能应用场景 - 仅用1张图片和1段提示词即可生成带音效的视频,例如猫呼噜声和虫子叫声[4] - 支持宠物动态写真生成,使照片自然动起来[20][29] - 支持创意实现如让林黛玉念《葬花吟》或麦当劳叔叔推荐肯德基[34] - 提供5秒和10秒两种视频长度选择[47] 语义理解能力 - 对提示词中部分内容如"奔跑"和"黄蝴蝶"存在理解忽略现象[15][45] - 对情绪把控有待提升,出现中气十足林黛玉和被迫营业麦当劳的情况[35] - 人手生成仍是历史难题,还有进步空间[46] 音效处理特性 - 可生成效果音和对话,但不会自主生成背景音,需要手动添加BGM[44] - 音效表现突出,如键盘敲击声效果不错[43] - 提供单独的背景音选项但选择后无变化[44] 价格优势 - 限时优惠价格1.4元/5秒,低至行业70%[49] - 登录赠送每月210免费额度[50] - 正常价格2.5元/5秒,200秒视频仅需100元,比对比产品便宜一大半[52] 生成效率 - 视频生成需3分钟,相比对比产品不到1分钟的速度较慢[16][17] - 可能因画面精细度较高导致生成时间较长[18] 生态整合 - 已在百度移动生态广泛使用,结合本土中文生态更适合中国创作者[57] - 提供免费额度获取机会[52]