AI实时视频生成

搜索文档
 大神Karpathy都投的AI实时视频生成模型:直播都能立即转,无限时长几乎零延迟
 量子位· 2025-07-19 13:15
 核心技术突破   - 推出全球首个零延迟无限实时视频生成模型MirageLSD,采用自定义实时流扩散模型Live-Stream Diffusion(LSD),攻克传统自回归视频模型中误差累积的核心难题[4][9][11]   - 通过因果自回归结构和Diffusion Forcing技术实现逐帧生成时保持时间连贯性,支持无限时长视频生成[14][15]   - 历史增强策略主动添加模拟伪影训练模型预判纠正能力,推理阶段明确告知历史帧可能不准确以持续纠错[16][17]   - 改进Transformer架构搭配视觉编码器和位置编码优化,处理速度比前代模型快16倍,达每秒24帧[6][18]   - 应用KV缓存技术和蒸馏策略减少延迟,动态输入系统支持超低延迟响应玩家指令[20][21][22]     产品性能优势   - 实现40毫秒以下延迟,支持直播/游戏/视频通话等多形式输入,无时长限制实时生成[5][6]   - 前代产品Oasis已实现每秒20帧零延迟生成,MirageLSD性能提升至24帧/秒[26][28]   - 集成帧级提示词处理机制,可即时解析键盘指令和自然语言,实现"抖衣换装"等实时交互效果[21][23]     公司发展动态   - Decart为2023年成立的加州AI初创公司,获AI专家Karpathy天使投资[7][25]   - 2024年推出首款实时生成式AI开放世界模型Oasis,MirageLSD为最新迭代产品[26][28]   - 计划定期升级模型功能,包括面部一致性/语音控制等模块[28]     应用场景展示   - 支持用扫帚/盒子等日常物品替代专业设备进行沉浸式直播[1]   - 实时修改游戏画面风格满足个性化需求[2]   - 全双工通信通道实现输入输出并行处理,消除数据传输延迟[22]

