6秒造一个「视频博主」,Pika让一切图片开口说话
机器之心·2025-08-13 11:27
Pika音频驱动表演模型 - Pika推出名为"音频驱动表演模型"的新模型 允许用户上传音频文件结合静态图像生成高度同步的视频 实现精确口型同步 自然表情变化和流畅身体动作 [3][4] - 该技术可将任意静态图片与音频结合生成动态视频 如自拍搭配语音可实现口型神同步 眉毛挑动等细节精准匹配 生成时间仅需6秒 支持720p高清且视频长度不限 [6] - 目前功能仅限iOS端且需要邀请码 尚未全面开放 [7] 技术应用场景 - 适用于社交媒体内容创作 如生成说唱视频 脱口秀片段等 可快速制作创意短片和Meme [16][17] - 潜在应用包括游戏开发(NPC对话动画) 教育领域(生动讲解视频) 未来可能发展个人AI数字分身 [17] - 支持多语言音频输入 对不同语种表现良好 [14] 用户实测效果 - 网友测评显示唇同步准确性极高 有效避免AI视频常见"假唱"问题 说唱停顿处人物表情自然 但手部动作仍有瑕疵 [11] - 官方展示案例包括跨语言视频 脱口秀模仿和实景吐槽等 演员表现力突出 [12][15][16] 行业影响 - 技术显著降低视频制作门槛 传统需顶级特效师耗时半月的工作现可6秒完成 [6] - 可能引发新一轮创意视频爆发 但同时也带来虚假信息鉴别等新挑战 [17]