技术突破 - Decart发布全球首个实时无时长限制的扩散视频模型MirageLSD,支持任意视频流输入并实现40毫秒超低延迟转换[3] - 该技术突破视频生成两大瓶颈:实现无限长视频生成(突破传统模型20-30秒质量衰减限制)和零延迟交互(响应速度较前代提升16倍至24帧/秒)[19][20][28] - 核心技术采用实时流扩散(LSD)架构,通过逐帧去噪、历史增强方法及因果自回归结构保持时间连贯性[18][25][32] 应用场景 - 实时视频风格转换:可将摄像头画面/游戏画面实时转化为任意风格世界,支持文本提示控制[4][7][12] - 影视创作革新:实现自导自演实时电影,AI同步完成布景/风格化/剪辑[8] - 游戏开发提效:用基础几何体编码机制后由AI自动生成精美贴图,30分钟完成游戏原型开发[9][15] - AR/VR增强:支持视频会议虚拟背景、实时虚拟试衣及AR眼镜现实卡通化功能[11][12][13] 技术原理 - 采用Diffusion Forcing技术逐帧去噪,通过历史帧扰动训练增强模型对误差累积的鲁棒性[25] - 定制CUDA mega kernels和模型剪枝技术优化计算效率,使单帧生成时间压缩至40毫秒内[31] - 因果反馈机制实时融合历史帧/输入帧/用户提示,实现动态内容适应与零延迟响应[33][34][35] 发展潜力 - 前特斯拉AI总监Andrej Karpathy已作为天使投资人参与,认为技术具备通用性[14] - 公司计划升级面部一致性、语音控制、物体精准操控功能,并集成流媒体/游戏/视频通话场景[16] - 当前局限包括长期记忆窗口不足、极端风格下几何失真等问题,未来拟通过结构化控制信号提升编辑精度[36][37][38]
世界首个「实时、无限」扩散视频生成模型,Karpathy投资站台
机器之心·2025-07-19 11:13