Workflow
实时生成
icon
搜索文档
李飞飞世界模型大更新, 实时生成3D世界,只要一块GPU
36氪· 2025-10-17 16:03
技术核心与创新 - 公司发布名为RTFM的全新实时世界生成模型,可从单张静态图片实时渲染出可供自由探索和交互的3D场景[1][4] - 该模型采用类似Sora的“自回归扩散Transformer”架构,不构建任何显式的3D模型,而是通过端到端学习海量视频数据来直接预测新视角画面[9] - 模型核心创新在于引入“空间记忆”机制,为每一帧画面赋予3D空间中的精确姿态,并通过“上下文杂耍”技术仅调用局部参考帧,以维持世界持久性而不显著增加计算负担[11] 性能与效率突破 - 模型经过架构、蒸馏和推理过程的极致优化,设计目标为在现有硬件上运行明日模型,成功实现在单块H100 GPU上以交互式帧率进行实时推理和生成[1][8] - 实时生成4K 60fps交互视频流对算力要求极高,每秒需处理token量约等于一本《哈利·波特》文字量,持续一小时的交互需处理超1亿个token,当前基础设施难以负担[6] - 该技术路线相比传统3D引擎的显式建模方法,能更好地利用增长的数据和算力,实现无限扩展[9][11] 应用与演示现状 - 模型已作为研究预览版正式发布,并提供了名为FRAMEBOY的Demo供体验,其逼真的光影、反射和阴影效果在实时交互中呈现[1][3] - 当前Demo体验时间限制为3分钟,3分钟后世界状态无法维持,展示了模型在空间智能和持续交互方面的探索方向[13] - 该技术被视作通往AGI空间智能方向的重要一步,其单GPU高效运行的特性为未来世界模型的普及提供了可能性[13][15]
多模态内容生成的机会,为什么属于中国公司?
Founder Park· 2025-06-24 19:53
多模态技术发展现状 - 中国企业在视频生成、3D创作等多模态细分领域已跻身全球第一梯队,与美国在大语言模型领域的领先形成差异化竞争[1] - Pixverse的视频生成产品用户规模超过许多美国知名产品,VAST在3D技术上实现核心突破,Feeling AI探索多模态融合创新路径[1] - 中国团队在场景理解、数据积累和工程落地方面具备综合优势,抖音、快手等产品背后的视觉技术为视频生成奠定基础[7] 中国团队的核心优势 - 视频技术领域有多年积累,组织架构灵活性助力创新,全球用户量最大的视频生成产品多数来自国内团队[7] - 多模态领域技术路径尚未定型,中国丰富的应用场景和人才储备为创新提供沃土[7] - 差异化技术策略实现突破,3D领域从核心技术攻坚转向产品化落地,专注画质而非功能丰富性[8] 竞争格局与战略应对 - 面对阿里、腾讯等巨头的开源攻势,创业公司通过保持战略定力、聚焦细分需求寻找突破口[9] - 大厂竞争是创业公司的"成人礼",战略节奏领先是关键,先聚拢顶尖科学家实现技术突破,再转向产品化和商业化[9][10] - 开源是创业公司可以借力的东风,但难以满足特定场景需求,需要在开源基础上进行深度定制[12] 技术发展趋势 - 实时生成成为重点方向,Pixverse线上模型5秒生成5秒视频,目标实现真正实时生成[17] - 多模态融合趋势显著,GPT-4o强调的原生多模态实现训练时共享同一语义空间[14] - 3D生成转向自回归路线,生成模型面数低且拓扑结构类似人工建模,方便二次编辑[18] 产品与用户策略 - Pixverse采取双轨策略:网页版服务专业用户,移动端"拍我"App面向大众,模板化生成降低创作门槛[21][22] - VAST调整用户定位,从游戏玩家转向专业用户,打造完整3D创作工作流而非简单模型生成[25] - Feeling AI面向海外14-24岁年轻群体,结合游戏、创作和虚拟陪伴体验,模糊创作者与消费者界限[27][28] 未来目标与挑战 - Pixverse目标实现高质量实时视频生成,用户规模达3亿-5亿[37] - VAST希望降低3D创作门槛,探索可交互内容新生态,可能出现"3D版抖音"[37] - 行业共识是技术进步将让更多普通用户参与多模态创作,AI加速动态3D内容发展进程[33]