实时视频生成
搜索文档
马斯克真没吹牛!世界模型 Genie 3 一键打造 GTA6 不是梦
搜狐财经· 2026-01-30 17:25
技术架构与原理 - 项目本质上是一个实时渲染的交互环境,其技术底座由三部分组成:负责图像控制的Nano Banana Pro、负责理解语言指令的Gemini模型,以及负责物理反馈的Genie 3模型[1] - 其机制类似于人类做梦,由计算机构建一个包含视听触觉的沉浸式虚拟世界,允许用户进入互动[3] - 与基于文本统计规律的模型不同,Genie 3本质上是一个“物理世界模型”,它通过观看几百万次物体运动视频,自行学会了重力、惯性等物理规则,而非学习物理公式[3] 产品功能与体验 - 体验方式简单:用户可将照片转换为特定风格的角色并上传,通过输入场景描述(如“沙漠场景”)来生成环境,随后以该角色身份在场景中自由探索[5] - 用户可预览环境并调整视角,使用键盘方向键控制时,系统会实时预测并生成前方的路径和场景,过程类似玩游戏,但用户同时是世界的导演[5] - 目前产品处于开发阶段,单次探索时间被限制在60秒,时间过长会导致画面逻辑崩坏、产生幻觉,且实时生成的计算成本极高[6][8] - 场景可随时通过修改指令进行切换(如从沙漠变为赛博城市),角色的动作逻辑会保留[8] - 有用户试玩反馈存在延迟,自定义提示未生效,只能使用官方预设内容,且物理规律模拟不够准确,穿模或轨迹怪异的情况常有发生[10][11] 行业影响与前景 - 该技术路径被视为“实时视频生成”,未来可能与基于代码的传统游戏引擎分庭抗礼[10] - 行业观点认为,2026年将是世界模型爆发之年,该技术让“普通人在几分钟内生成《GTA6》”这类判断听起来不再遥远[8][10] - 项目的核心野心在于解决AI通往通用人工智能(AGI)道路上的关键瓶颈:数据枯竭与具身智能瓶颈[12] - 互联网高质量文本数据即将耗尽,且机器人无法仅通过阅读学习物理技能,而该项目可作为无限的合成数据生成器,模拟十亿个不同的环境(如厨房、仓库),让机器人在其中积累“肌肉记忆”后再应用于现实[13] - 类似的技术路径还包括蚂蚁灵波开源的LingBot-VA模型,它能在生成画面的同时推演动作序列,提升机器人执行如制作早餐、拾取物品等任务的能力[13] 潜在应用场景 - 在心理治疗与教育领域具应用潜力:例如,生成“满是蜘蛛的房间”帮助孩子在安全虚拟环境下进行脱敏练习;或在历史课上生成18世纪的巴黎街道让学生亲历其境[15] - 尽管目前存在画质粗糙、时长短、延迟高、无法多人联机等问题,但该技术被认为推开了通往物理现实模拟的大门[15]