Workflow
VSSFlow
icon
搜索文档
苹果发布VSSFlow模型:让无声视频「开口说话」,加速为国行版AI铺路?
36氪· 2026-02-12 08:31
Apple Intelligence 国行进展与VSSFlow模型 - 苹果于2024年WWDC公布其人工智能平台Apple Intelligence,并于2024年秋季在美国开启测试,但国行版Apple Intelligence至今仍未落地,苹果官方表示其推出时间需依监管部门审批情况而定 [1] - 有报道指出,苹果联合中国人民大学推出了VSSFlow新型AI模型,在音频生成技术上取得突破,此举被视为释放与国行Apple Intelligence相关的积极信号 [3] VSSFlow模型的技术细节与能力 - VSSFlow模型的核心优势在于打破了以往“环境音”和“对话语音”需要分别生成的限制,能够一站式同步为无声视频生成环境声和人声 [3] - 该模型通过“流匹配(Flow-matching)”技术,每秒读取10帧视频画面作为线索,在随机噪声中逐步“构建”出环境音,其关键在于对视频画面和文字脚本的准确理解 [6] - 模型通过结合视频脚本与视频画面(如人物口型、表情)来生成人声,从而匹配语音的语气、情绪和节奏,生成更真实的AI人声 [8] - 为实现同时生成环境声和人声,VSSFlow在训练中混合使用了无声视频配环境音、无声说话视频配文本以及纯文本转语音的数据 [8] VSSFlow模型的应用场景与行业对比 - VSSFlow的应用场景可能包括老旧电影的音频修复、失语障碍人士的辅助音频、影视作品配音等,但由于仍需依赖文字脚本生成人声,其更接近于一款高级配音工具 [9] - 该技术与影视行业传统工作(如拟音师模拟声音、声优配音)存在交集,未来可能对影视行业产生冲击 [13] - 与谷歌Deepmind的V2A(视频转音频)模型功能相近,V2A同样根据视频画面和文字脚本生成环境音与人物对话,其技术方案是在视觉信息与听觉信息之间建立映射机制 [9] - 目前,视频生成语音技术对普通用户而言应用场景相对局限,不如当下流行的视频生成技术(如Sora、Seedance 2.0)受创作者和普通用户欢迎 [11] - VSSFlow等语音生成模型更可能作为赋能技术,与视频生成模型(如谷歌Veo)结合,以提升AI生成视频的整体音频质量,而非作为独立应用向普通用户推出 [13][14] 苹果AI战略与国行市场布局 - 苹果与国内重点高校(中国人民大学)合作发布VSSFlow,被视为愿意深耕国内市场、推动国行AI落地的积极信号,在该项目中苹果更接近于支持者与参与者 [17] - 国行版Apple Intelligence的落地预计将与国内AI巨头合作,此前有传言称方案可能涉及阿里提供本地模型支持、百度文心一言提供云端AI支持,但2025年因工程难题及AI表现一般未能落地 [18] - 国行版与海外版Apple Intelligence将互不兼容,即国行版iPhone等设备无法使用外版Apple Intelligence,未来外版硬件产品也不能用国行版Apple Intelligence [17] - 与竞争对手相比,苹果的AI布局被认为相对落后,海外版Apple Intelligence已实现的功能(如集成ChatGPT的Siri、写作助理、图片消除)被评价为体验震撼感不强 [18][19] - 三星作为对照组,早在2024年就推出了AI手机并快速完成国行AI本地化,其方案整合了百度文心一言、美图奇想智能等国内模型,为国行AI方案提供了可借鉴的范例 [20] - 苹果国行AI进展缓慢,部分原因被归咎于苹果自身的执行力,其海外版Apple Intelligence的落地过程也较为坎坷且功能体验一般 [22] - 苹果为iOS 26规划的AI增强功能(如Siri获得上下文理解、跨应用操作等能力)预计在iOS 26.4测试版中推出,但被认为仍缺乏惊喜感 [20] - 尽管面临挑战,苹果参与研发VSSFlow等AI成果,表明其在AI领域并非毫无作为,持续产出AI研究成果被视为构建苹果未来底层竞争力的关键 [22]