VSSFlow - 财报，业绩电话会，研报，新闻

VSSFlow

搜索文档

36氪· 2026-02-12 08:31

Apple Intelligence 国行进展与VSSFlow模型 - 苹果于2024年WWDC公布其人工智能平台Apple Intelligence，并于2024年秋季在美国开启测试，但国行版Apple Intelligence至今仍未落地，苹果官方表示其推出时间需依监管部门审批情况而定 [1] - 有报道指出，苹果联合中国人民大学推出了VSSFlow新型AI模型，在音频生成技术上取得突破，此举被视为释放与国行Apple Intelligence相关的积极信号 [3] VSSFlow模型的技术细节与能力 - VSSFlow模型的核心优势在于打破了以往“环境音”和“对话语音”需要分别生成的限制，能够一站式同步为无声视频生成环境声和人声 [3] - 该模型通过“流匹配（Flow-matching）”技术，每秒读取10帧视频画面作为线索，在随机噪声中逐步“构建”出环境音，其关键在于对视频画面和文字脚本的准确理解 [6] - 模型通过结合视频脚本与视频画面（如人物口型、表情）来生成人声，从而匹配语音的语气、情绪和节奏，生成更真实的AI人声 [8] - 为实现同时生成环境声和人声，VSSFlow在训练中混合使用了无声视频配环境音、无声说话视频配文本以及纯文本转语音的数据 [8] VSSFlow模型的应用场景与行业对比 - VSSFlow的应用场景可能包括老旧电影的音频修复、失语障碍人士的辅助音频、影视作品配音等，但由于仍需依赖文字脚本生成人声，其更接近于一款高级配音工具 [9] - 该技术与影视行业传统工作（如拟音师模拟声音、声优配音）存在交集，未来可能对影视行业产生冲击 [13] - 与谷歌Deepmind的V2A（视频转音频）模型功能相近，V2A同样根据视频画面和文字脚本生成环境音与人物对话，其技术方案是在视觉信息与听觉信息之间建立映射机制 [9] - 目前，视频生成语音技术对普通用户而言应用场景相对局限，不如当下流行的视频生成技术（如Sora、Seedance 2.0）受创作者和普通用户欢迎 [11] - VSSFlow等语音生成模型更可能作为赋能技术，与视频生成模型（如谷歌Veo）结合，以提升AI生成视频的整体音频质量，而非作为独立应用向普通用户推出 [13][14] 苹果AI战略与国行市场布局 - 苹果与国内重点高校（中国人民大学）合作发布VSSFlow，被视为愿意深耕国内市场、推动国行AI落地的积极信号，在该项目中苹果更接近于支持者与参与者 [17] - 国行版Apple Intelligence的落地预计将与国内AI巨头合作，此前有传言称方案可能涉及阿里提供本地模型支持、百度文心一言提供云端AI支持，但2025年因工程难题及AI表现一般未能落地 [18] - 国行版与海外版Apple Intelligence将互不兼容，即国行版iPhone等设备无法使用外版Apple Intelligence，未来外版硬件产品也不能用国行版Apple Intelligence [17] - 与竞争对手相比，苹果的AI布局被认为相对落后，海外版Apple Intelligence已实现的功能（如集成ChatGPT的Siri、写作助理、图片消除）被评价为体验震撼感不强 [18][19] - 三星作为对照组，早在2024年就推出了AI手机并快速完成国行AI本地化，其方案整合了百度文心一言、美图奇想智能等国内模型，为国行AI方案提供了可借鉴的范例 [20] - 苹果国行AI进展缓慢，部分原因被归咎于苹果自身的执行力，其海外版Apple Intelligence的落地过程也较为坎坷且功能体验一般 [22] - 苹果为iOS 26规划的AI增强功能（如Siri获得上下文理解、跨应用操作等能力）预计在iOS 26.4测试版中推出，但被认为仍缺乏惊喜感 [20] - 尽管面临挑战，苹果参与研发VSSFlow等AI成果，表明其在AI领域并非毫无作为，持续产出AI研究成果被视为构建苹果未来底层竞争力的关键 [22]

苹果(US:AAPL)

Artificial Intelligence

图乐园（Image Playground）

Artificial Intelligence

图乐园（Image Playground）