Odyssey世界模型
搜索文档
视频实时生成可交互! 两位自动驾驶大牛创业世界模型:40毫秒/帧,无需任何游戏引擎,人人免费可玩
量子位· 2025-05-29 15:19
公司概况与融资背景 - 公司Odyssey由Oliver Cameron和Jeff Hawke联合创立,两位创始人均在自动驾驶领域有深厚从业背景[5][28] - 公司成立不到2年,已从EQT Ventures、谷歌GV和Air Street Capital等投资机构筹集2700万美元(约合人民币1.9亿元)[5] - 皮克斯创始人兼图灵奖得主Ed Catmull为公司董事会成员[5] - 公司90%以上的技术人员职业生涯大部分时间在Cruise、Wayve、Waymo和特斯拉等公司从事自动驾驶开发[30] 核心技术:世界模型 - 世界模型与视频模型存在根本区别:世界模型一次预测一帧并对事件做出反应,每个未来都是可能的,且完全互动;视频模型则一次性生成完整视频,结局固定且无互动性[10] - 世界模型能够根据当前状态和用户动作灵活预测下一个状态,支持实时交互,而视频模型适合生成固定帧的视频剪辑[11] - 公司开发了窄分布模型,先在广泛视频数据上预训练,后在特定地点密集视频数据上后训练,以提高模型稳定性和自回归生成持久性[20] - 公司正在开发下一代世界模型以提高泛化能力[21] 技术性能与当前阶段 - AI能以40毫秒/帧的速度实时生成视频,远超人类眨眼所需的100-400毫秒[1] - 当前预览版由美国和欧盟的H100 GPU集群提供算力支持,传输速度为30 FPS,能输出5分钟甚至更长时间的连贯视频[25] - 世界模型目前仍处于起步阶段,最大挑战是自回归建模,即根据先前状态预测未来状态,复杂的状态空间可能导致模型不稳定性[17][18] - 公司承认从开放式真实视频中学习相当困难,因视频内容嘈杂多样、动作连续且不可预测[16] 产品发布与市场定位 - Odyssey产品发布即免费可用,用户可实时观看并与AI生成的世界交互,官方称每小时体验成本为1-2美元[2][6][27] - 公司相信从几十年真实生活视频中学习像素和动作能提升模型上限,因真实世界视频具有更丰富的视觉信息和不受限制的动作类型[15] - 目前已有超过10家车企和自动驾驶公司提出世界模型概念,包括特斯拉、蔚来、理想、地平线、商汤等[38] - 自动驾驶车企被视为孕育世界模型的天然温床[40]