Workflow
Project Genie
icon
搜索文档
劈柴哥和哈萨比斯亲自站台!谷歌世界模型Project Genie刷屏,幕后团队揭秘60秒不是极限,内存是巨大约束
AI前线· 2026-01-30 17:58
文章核心观点 - 谷歌正式发布世界模型原型产品Project Genie,标志着世界模型从长期的前沿研究方向,正式迈入可落地、可探索的关键阶段 [2][12] - Project Genie基于最新的世界模型Genie 3构建,能够根据一句话或一张图生成可交互的实时虚拟世界,其生成画面的精细度和完成度直逼成熟游戏产品 [2][7] - 该产品被认为是通往通用人工智能(AGI)的关键一步,因为它让智能体能够预测世界演化及自身行为的影响,这是实现推理、规划和现实行动的基础 [11] - 世界模型的应用边界将被迅速打开,在自动驾驶模拟、具身智能训练、游戏开发、影视制作、互动教育等领域展现出巨大潜力 [13] 产品技术特点与突破 - **核心技术**:Project Genie是一个基于Genie 3、Nano Banana Pro和Gemini构建的原型Web应用 [10] - **生成机制**:采用自回归生成机制,根据世界描述和用户操作逐帧生成环境状态,而非播放预先生成好的内容,实现了真正的实时交互 [10][16] - **关键性能指标**: - 生成世界最长可探索60秒 [17] - 画面分辨率约为720p,帧率约为20–24帧/秒 [16][17] - 响应延时非常低,操作带来强烈沉浸感 [24] - **主要技术突破**: - **长期一致性**:生成的世界可以在数分钟内保持稳定,记忆用户造成的关键变化最长可达约一分钟 [16] - **实时交互**:世界以20–24帧/秒运行,用户操作即时反馈到环境中 [16] - **高质量视觉**:画面真实感和细节水平明显高于以往世界模型 [16] 当前能力与局限性 - **当前能力**: - 用户可通过WASD键移动角色、旋转视角、跳跃,在生成世界中自由探索 [7] - 支持从预设模板选择或完全自定义环境和角色来构建虚拟世界 [20] - 能够实现一些基础交互,如控制球体滚动留下痕迹、扮演刷墙工人实时刷墙等,体现了世界一致性 [25][26] - **已知局限性**: - 生成世界质量偏低,结构简单,难以实时交互或只能交互一两步 [15] - 长期一致性不稳定,系统有时会“忘记”此前生成的内容,画面和规则会“漂移” [15][32] - 不符合物理和因果逻辑,更像梦境而非世界 [15] - 对知名游戏IP存在明显限制,相关角色无法直接用于生成可交互世界 [32] - 生成时间受限(60秒),且随着时间拉长,世界的动态感会逐渐减弱 [17][38] - 交互智能体只能执行有限操作,多模型间难以协同互动,渲染清晰文本、还原现实具体地点存在困难 [34] 研发背景与团队定位 - **研发历程**:从论文阶段的Genie 1,演进到普通用户可体验的Genie 3,是谷歌跨部门(谷歌实验室、谷歌创意实验室、服务团队、基础设施团队、沟通团队)高度协同合作的结果 [40][48][51] - **产品定位**:团队并不将其视为一款游戏,而是一个快速演化的实验场,更关注其在增强创意过程、提升构思能力以及加快原型制作方面的潜力 [35][40] - **发布目的**:选择此时推出是为了观察用户的真实使用方式,从而发现此前未预料到的新应用场景 [14] - **访问限制**:目前仅向美国地区、18岁以上的Google AI Ultra订阅用户开放 [17] 潜在应用场景 - **娱乐与内容创作**:在游戏开发、影视制作、新型媒体内容创作方面潜力巨大,网友已创作出各类游戏风格世界 [13][28] - **教育与培训**:可打造个性化虚拟学习体验,例如帮助克服恐惧症(如怕蜘蛛的孩子在虚拟世界适应) [56] - **具身智能与机器人**:为智能体提供训练环境,例如与Simmer项目(由Gemini驱动的目标导向智能体)合作,生成全新虚拟世界来训练智能体完成任务 [40][53][54] - **行业影响**:根据Informa报告,33%的美国受访游戏开发者及28%的全球受访者在过去两年至少经历过一次裁员,Project Genie可能会进一步扩大这种趋势 [30] 未来发展方向 - **近期重点**:研发方向是降低算力成本,让能力能够被更多人用得起,而非进一步加速生成速度 [39][47] - **功能拓展**:未来会优化产品功能、操控方式、应用架构,并推出开发者API,让更多开发者参与 [56] - **长期愿景**:最终目标是生成与现实高度逼真、无法区分的虚拟世界,在其中自由移动和互动 [62] - **技术演进**:世界模型被视为继图像生成(Nano Banana Pro)、视频生成(VO)之后的第三次技术跃迁,构成生成式技术的连续体 [41][67]
马斯克真没吹牛!世界模型 Genie 3 一键打造 GTA6 不是梦
搜狐财经· 2026-01-30 17:25
技术架构与原理 - 项目本质上是一个实时渲染的交互环境,其技术底座由三部分组成:负责图像控制的Nano Banana Pro、负责理解语言指令的Gemini模型,以及负责物理反馈的Genie 3模型[1] - 其机制类似于人类做梦,由计算机构建一个包含视听触觉的沉浸式虚拟世界,允许用户进入互动[3] - 与基于文本统计规律的模型不同,Genie 3本质上是一个“物理世界模型”,它通过观看几百万次物体运动视频,自行学会了重力、惯性等物理规则,而非学习物理公式[3] 产品功能与体验 - 体验方式简单:用户可将照片转换为特定风格的角色并上传,通过输入场景描述(如“沙漠场景”)来生成环境,随后以该角色身份在场景中自由探索[5] - 用户可预览环境并调整视角,使用键盘方向键控制时,系统会实时预测并生成前方的路径和场景,过程类似玩游戏,但用户同时是世界的导演[5] - 目前产品处于开发阶段,单次探索时间被限制在60秒,时间过长会导致画面逻辑崩坏、产生幻觉,且实时生成的计算成本极高[6][8] - 场景可随时通过修改指令进行切换(如从沙漠变为赛博城市),角色的动作逻辑会保留[8] - 有用户试玩反馈存在延迟,自定义提示未生效,只能使用官方预设内容,且物理规律模拟不够准确,穿模或轨迹怪异的情况常有发生[10][11] 行业影响与前景 - 该技术路径被视为“实时视频生成”,未来可能与基于代码的传统游戏引擎分庭抗礼[10] - 行业观点认为,2026年将是世界模型爆发之年,该技术让“普通人在几分钟内生成《GTA6》”这类判断听起来不再遥远[8][10] - 项目的核心野心在于解决AI通往通用人工智能(AGI)道路上的关键瓶颈:数据枯竭与具身智能瓶颈[12] - 互联网高质量文本数据即将耗尽,且机器人无法仅通过阅读学习物理技能,而该项目可作为无限的合成数据生成器,模拟十亿个不同的环境(如厨房、仓库),让机器人在其中积累“肌肉记忆”后再应用于现实[13] - 类似的技术路径还包括蚂蚁灵波开源的LingBot-VA模型,它能在生成画面的同时推演动作序列,提升机器人执行如制作早餐、拾取物品等任务的能力[13] 潜在应用场景 - 在心理治疗与教育领域具应用潜力:例如,生成“满是蜘蛛的房间”帮助孩子在安全虚拟环境下进行脱敏练习;或在历史课上生成18世纪的巴黎街道让学生亲历其境[15] - 尽管目前存在画质粗糙、时长短、延迟高、无法多人联机等问题,但该技术被认为推开了通往物理现实模拟的大门[15]
谷歌开放世界模型一夜刷屏,AI游戏门槛归零时刻来了?
机器之心· 2026-01-30 16:49
去年 8 月,谷歌预发布了通用世界模型 Genie 3 ,它能够生成多样化的交互式环境。在这一早期阶段,受邀测试者们已经创造出了令人印象深刻且极具吸引力的虚 拟世界与沉浸式体验,并挖掘出了全新的使用方式。 接下来的目标是构建一个专注于「沉浸式世界创建」的交互式原型,进一步扩大受众范围。 因此自即日起,谷歌面向 美国 18 岁及以上的 Google AI Ultra 用户 开放了 Project Genie 的访问权限。 Project Genie 的多样性玩法 世界模型能够模拟环境的动态变化,并预测环境的演变方式以及动作对环境的影响。 谷歌世界模型,再一次惊艳了所有人! 今天一早, 谷歌 DeepMind 开放了世界模型 Genie 3 的实验性研究原型「Project Genie」,允许用户创建、编辑并探索虚拟世界 。 在世界模型 Genie 3 之外,Project Genie 同样由图像生成与编辑模型 Nano Banana Pro 和语言模型 Gemini 提供技术支撑。 与静态 3D 快照中的可探索体验不同,谷歌通用世界模型 Genie 3 会在用户移动并与世界交互时,实时生成前方的路径。 它能够为 ...
世界模型竞赛提速:蚂蚁灵波首次开源世界模型 谷歌开放世界模型体验平台
环球网资讯· 2026-01-30 16:38
蚂蚁灵波开源具身智能模型系列 - 蚂蚁集团旗下灵波科技于1月27日至30日连续四天密集开源发布四大核心模型,构建了一套完整的开源具身智能开发套件 [1] - 开源模型包括:空间感知模型LingBot-Depth、具身大模型LingBot-VLA、世界模型LingBot-World、具身世界模型LingBot-VA [1][2][3] - 此举标志着长期以来由少数巨头把持的世界模型壁垒,首次被中国科技企业以开源方式撕开关键缺口 [1] 开源模型技术细节与性能 - **LingBot-Depth**:专为提升机器人等智能终端的三维视觉精度与可靠性而设计,在多项国际基准测试中达到领先水平 [2] - **LingBot-VLA**:基于超过2万小时的真实机器人数据预训练,覆盖9种主流双臂机器人构型,仅需少量演示数据即可实现高质量任务迁移,大幅降低下游应用的适配门槛与成本 [2] - **LingBot-World**:在视频生成质量、动态程度、长时一致性等关键指标上媲美谷歌同期发布的Genie 3模型,成功攻克视频生成中常见的“长时漂移”难题,实现了近10分钟的连续稳定生成,并将端到端交互延迟控制在1秒以内 [2] - **LingBot-VA**:首次提出自回归视频-动作世界建模框架,将大规模视频生成模型与机器人控制深度融合,使机器人能够“边推演、边行动” [3][4] - 公司不仅提供了模型权重,更开放了包含数据处理、高效微调、自动化评估在内的全套工具链,旨在为全球开发者提供一个低成本、高性能的“具身数字演练场” [4] 谷歌的应对举措 - 在蚂蚁灵波宣布世界模型开源后不到24小时,谷歌DeepMind宣布面向美国地区18岁以上的Google AI Ultra订阅用户,逐步开放其世界模型研究原型“Project Genie”的体验 [5] - Project Genie基于Genie 3模型构建,是一款网页应用原型,允许用户通过文本提示或上传图像来创建、探索和混合生成交互式世界 [6] - 该原型尚处于早期阶段,存在生成效果不够逼真、操作延迟较高、单次生成时长限制为60秒等局限 [6] - 谷歌此次开放的是受限的体验平台而非完全开源,其核心模型代码并未开源 [6][10] 开源与体验平台背后的战略差异 - 蚂蚁灵波选择了彻底的开源策略,将包括世界模型在内的全套核心技术代码与模型权重向社区免费开放 [7] - 德国财经媒体AdHocNews评论称,LingBot-World能创建用于训练AI智能体的真实数字孪生环境,其性能与谷歌领先模型的性能相当,亮点在于机器人可以在模拟中安全、可扩展且经济地演练复杂场景 [7] - 法国科技媒体PauseHardware认为,LingBot-World若在长时序一致性和控制能力上得到验证,将极大加速实时智能体的发展 [8] - 谷歌目前采取的是一种更为谨慎的“可控开放”策略,通过订阅制面向高端用户开放体验入口,旨在收集用户反馈并控制风险 [10] - 这一差异反映两者不同的生态构建思路:蚂蚁灵波通过开源快速吸引开发者构建应用生态,意在具身智能等新兴领域确立事实标准;谷歌则倾向于在保持核心技术控制力的前提下,逐步探索商业化与普及路径 [14] 行业影响与评价 - 世界模型竞赛正从封闭研发加速转向开放生态的协同演进 [1] - 德国财经媒体AdHocNews评论称,这是在全球机器人领域话语权争夺战中的一项战略性举措,蚂蚁集团正在成为不断增长的人形机器人和物理AI市场中的核心推动者 [1][7] - AI技术评测网站Gaga.art直接对比指出:“LingBot-World在质量上与Google Genie 3相当,同时完全面向开发者开放。” [11] - 行业专家观点认为,此前这类训练环境通常是专有的且成本昂贵,现在每位开发者都能接触到工业标准技术 [14]