实时视频生成 - 财报，业绩电话会，研报，新闻

实时视频生成

搜索文档

搜狐财经· 2026-01-30 17:25

技术架构与原理 - 项目本质上是一个实时渲染的交互环境，其技术底座由三部分组成：负责图像控制的Nano Banana Pro、负责理解语言指令的Gemini模型，以及负责物理反馈的Genie 3模型[1] - 其机制类似于人类做梦，由计算机构建一个包含视听触觉的沉浸式虚拟世界，允许用户进入互动[3] - 与基于文本统计规律的模型不同，Genie 3本质上是一个“物理世界模型”，它通过观看几百万次物体运动视频，自行学会了重力、惯性等物理规则，而非学习物理公式[3] 产品功能与体验 - 体验方式简单：用户可将照片转换为特定风格的角色并上传，通过输入场景描述（如“沙漠场景”）来生成环境，随后以该角色身份在场景中自由探索[5] - 用户可预览环境并调整视角，使用键盘方向键控制时，系统会实时预测并生成前方的路径和场景，过程类似玩游戏，但用户同时是世界的导演[5] - 目前产品处于开发阶段，单次探索时间被限制在60秒，时间过长会导致画面逻辑崩坏、产生幻觉，且实时生成的计算成本极高[6][8] - 场景可随时通过修改指令进行切换（如从沙漠变为赛博城市），角色的动作逻辑会保留[8] - 有用户试玩反馈存在延迟，自定义提示未生效，只能使用官方预设内容，且物理规律模拟不够准确，穿模或轨迹怪异的情况常有发生[10][11] 行业影响与前景 - 该技术路径被视为“实时视频生成”，未来可能与基于代码的传统游戏引擎分庭抗礼[10] - 行业观点认为，2026年将是世界模型爆发之年，该技术让“普通人在几分钟内生成《GTA6》”这类判断听起来不再遥远[8][10] - 项目的核心野心在于解决AI通往通用人工智能（AGI）道路上的关键瓶颈：数据枯竭与具身智能瓶颈[12] - 互联网高质量文本数据即将耗尽，且机器人无法仅通过阅读学习物理技能，而该项目可作为无限的合成数据生成器，模拟十亿个不同的环境（如厨房、仓库），让机器人在其中积累“肌肉记忆”后再应用于现实[13] - 类似的技术路径还包括蚂蚁灵波开源的LingBot-VA模型，它能在生成画面的同时推演动作序列，提升机器人执行如制作早餐、拾取物品等任务的能力[13] 潜在应用场景 - 在心理治疗与教育领域具应用潜力：例如，生成“满是蜘蛛的房间”帮助孩子在安全虚拟环境下进行脱敏练习；或在历史课上生成18世纪的巴黎街道让学生亲历其境[15] - 尽管目前存在画质粗糙、时长短、延迟高、无法多人联机等问题，但该技术被认为推开了通往物理现实模拟的大门[15]