核心技术突破 - 推出全球首个零延迟无限实时视频生成模型MirageLSD,采用自定义实时流扩散模型Live-Stream Diffusion(LSD),攻克传统自回归视频模型中误差累积的核心难题[4][9][11] - 通过因果自回归结构和Diffusion Forcing技术实现逐帧生成时保持时间连贯性,支持无限时长视频生成[14][15] - 历史增强策略主动添加模拟伪影训练模型预判纠正能力,推理阶段明确告知历史帧可能不准确以持续纠错[16][17] - 改进Transformer架构搭配视觉编码器和位置编码优化,处理速度比前代模型快16倍,达每秒24帧[6][18] - 应用KV缓存技术和蒸馏策略减少延迟,动态输入系统支持超低延迟响应玩家指令[20][21][22] 产品性能优势 - 实现40毫秒以下延迟,支持直播/游戏/视频通话等多形式输入,无时长限制实时生成[5][6] - 前代产品Oasis已实现每秒20帧零延迟生成,MirageLSD性能提升至24帧/秒[26][28] - 集成帧级提示词处理机制,可即时解析键盘指令和自然语言,实现"抖衣换装"等实时交互效果[21][23] 公司发展动态 - Decart为2023年成立的加州AI初创公司,获AI专家Karpathy天使投资[7][25] - 2024年推出首款实时生成式AI开放世界模型Oasis,MirageLSD为最新迭代产品[26][28] - 计划定期升级模型功能,包括面部一致性/语音控制等模块[28] 应用场景展示 - 支持用扫帚/盒子等日常物品替代专业设备进行沉浸式直播[1] - 实时修改游戏画面风格满足个性化需求[2] - 全双工通信通道实现输入输出并行处理,消除数据传输延迟[22]
大神Karpathy都投的AI实时视频生成模型:直播都能立即转,无限时长几乎零延迟
量子位·2025-07-19 13:15