World Model
搜索文档
Roblox (NYSE:RBLX) 2026 Conference Transcript
2026-03-05 00:47
公司:Roblox 行业:互动娱乐/游戏平台 核心观点与论据 * **AI被视为业务顺风而非威胁**:公司认为市场对AI的看法是错误的,AI是其业务的顺风和加速器,而非颠覆性威胁[5] 公司正积极投资并利用游戏专用AI来巩固其作为游戏平台的地位,目标是成为其领域的颠覆者[6] * **AI将彻底改变内容创作**:公司认为AI技术将最终使人们无需编写代码即可创建游戏,从而带来更多创作者和内容[6] 公司内部演示显示,AI代理能在24小时内根据提示创建出一个物理精确的旧金山街道探索游戏,预示着未来小团队可能在极短时间内开发出3A级游戏[13] * **平台对AI工具持开放态度**:公司的目标是提供所有可用的工具来制作高质量游戏,对于开发者使用内部工具还是第三方工具持中立态度,因为最终目标都是丰富平台内容[14] * **2025年业绩表现强劲**:2024年底至2025年底,平台用户增长了70%,全年预订量增长55%[19] 用户增长得益于平台多维度举措的协同作用,而非单一因素[19] * **平台业务多元化,非依赖爆款驱动**:Roblox是一个拥有超过1400万不同体验、数百万创作者、1.44亿日活跃用户和约1250亿小时参与度的平台[23] 2025年,平均约三分之二的参与时间花费在排名前10名以外的体验中[23] 2025年第四季度,前10名以外体验的预订量同比增长了约55%-56%[23] 即使在没有大型新爆款出现的季度,业务仍能实现高增长(如Q4预订量增长63%)[24] * **品类扩张是受众扩张的关键**:公司认为品类扩张对于吸引新用户至关重要[27] 强制年龄检查数据显示,公司在吸引18-34岁美国用户方面渗透率不足10%,存在巨大机会[27] * **2026年增长指引的四大支柱**:1) **用户**:2025年新增用户留存率、参与度和货币化表现健康[31] 2) **内容**:假设平台将有持续的新鲜内容流,但不依赖不可预测的爆款[32] 3) **面部年龄估计**:已考虑其推出初期对参与度和预订量造成的阻力[33][34] 4) **产品路线图**:各项产品计划对增长的影响已纳入考量[34][35] * **面部年龄估计带来安全与体验双重提升**:该技术始于安全需求,旨在为所有年龄段提供安全体验[37] 了解用户年龄后,公司可以设置适当的防护措施(如限制不同年龄段用户的通信),并能根据年龄提供更匹配的内容和社交体验,提升产品乐趣[38][39][40] * **直接支付提升运营杠杆**:推动支付向网络平台等低成本渠道转移,以及礼品卡业务(成本低于应用商店),显著降低了收入成本率,在2025年贡献巨大[44] 尽管2026年因开发者兑换计划增加面临利润率阻力,但预计收入成本率的持续改善将帮助利润率大致持平[44] 收入成本率的持续改善将是未来运营杠杆的来源,可用于资助利润率扩张或增加开发者激励[45] * **广告业务长期潜力巨大**:公司对平台长期的广告机会感到兴奋,因其拥有可安全触达年轻受众、每日约3小时的高参与度等独特资产[48] 广告业务分为品牌广告和 endemic广告(创作者用户获取)[49] 奖励视频是品牌侧重点,赞助位是创作者侧核心产品,两者都显示出强劲的产品市场匹配度和高增长率[50][51] 广告收入在损益表中作为运营费用抵消开发者兑换,目前贡献适中但增长迅速,长期机会巨大[52] * **国际市场增长空间广阔**:在日本、印度、印度尼西亚等亚太市场,用户和货币化增长迅猛,但渗透率仍然很低,存在巨大增长机会[54] 2025年,国际付费用户数量大约翻了一番[54] 这些市场的货币化水平与美国相比仍有较大差距,存在增长空间[54] 驱动增长的公式(产品、内容、受众扩张)在全球市场具有杠杆效应[55] * **长期市场渗透目标**:公司内部设定了比公开的10%游戏软件市场份额(约2000亿美元市场)更雄心勃勃的美国市场份额目标[57][58] 实现路径在于技术、品类/内容扩张(带动受众扩张),最终转化为增长和货币化[58] * **AI的最大挑战是短期与长期的权衡**:公司面临的最大挑战是平衡短期(如下一季度预订量)与长期(五年后的业务价值)的焦点,公司更专注于后者[60] 其他重要内容 * **平台技术进展**:在搜索与发现方面的持续演进带来了内容多样化,月度用户参与的独特体验数量实现两位数增长,在不同体验上的花费时间也实现两位数增长[20] 货币化方面,区域定价和价格优化等工具帮助开发者优化虚拟商品定价,促进了国际付费用户增长[20][21] 为支持更高保真度、更复杂的游戏,公司在纹理流式传输、SLIM、服务器权威等技术上持续投入[28] * **开发者经济**:公司通过用户界面设计、推广算法、站外用户获取合作、经济参与度等杠杆,鼓励开发者开发吸引年长受众的内容[29] 在运营杠杆与开发者激励之间,公司倾向于先获取运营杠杆,再利用其资助业务其他部分[46] * **用户参与基础**:平台的成功源于搜索与发现、货币化工具、安全措施(如面部年龄估计)等多方面能力的结合[21] 公司对2026年的内容渠道和雄心勃勃的产品路线图感到满意[21]
走向融合统一的VLA和世界模型......
自动驾驶之心· 2025-12-23 17:29
文章核心观点 - 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型正呈现出明显的融合趋势,其终极目标一致,旨在构建具备类人认知与决策能力的驾驶大脑 [2][5] - 两大技术路线并非对立,而是高度互补,未来将通过深度融合塑造“既会思考,又会沟通”的终极驾驶大脑,形成“感知-推理-仿真-决策-解释”的增强闭环 [19][51] VLA技术概述 - VLA是一种“视觉-语言-行动”模型,其输入为摄像头画面和人类语言指令,输出为直接的驾驶动作或轨迹,实现了从感知、理解到行动生成的端到端映射 [8][9] - 其系统架构分为三层:输入端融合多模态感知信息;中间层由视觉编码器、语言处理器与动作解码器构成,进行统一推理与决策生成;输出端直接驱动车辆 [9][10] World Model技术概述 - 世界模型是一种生成式时空神经网络系统,旨在让自动驾驶车辆具备“在脑海中预演未来”的能力,通过内部仿真评估不同决策后果,从而做出更安全、前瞻的规划 [12] - 其系统架构同样分为三层:输入端为时序多模态传感器数据;核心层负责状态编码、记忆与生成式推演;输出端提供未来场景表征,为下游规划模块提供前瞻信息 [13][14] VLA与世界模型的区别与联系 - **主要区别**:目标上,VLA侧重人车交互与可解释的端到端驾驶,世界模型侧重构建预测与仿真系统;输入上,VLA包含显式语言指令,世界模型侧重时序观测;输出上,VLA输出直接动作或轨迹,世界模型输出未来场景状态;技术上,VLA利用大模型推理能力,世界模型依赖状态编码与生成式预测 [15] - **核心联系**:技术起源背景一致,均源于对传统模块化pipeline的反思;终极目标一致,均旨在赋予机器类人的认知与决策能力;都面临解决长尾场景的挑战;技术底层均重度依赖“预训练+微调”范式与Transformer等核心架构 [16][17][18][19] VLA与世界模型的融合路径与案例 - **架构级融合**:以世界模型作为核心的“预测与仿真”引擎,以VLA作为“交互与决策解释”层,二者协同工作 [22] - **训练数据互补**:利用世界模型生成大量逼真场景数据训练VLA,同时VLA产生的语言标注数据可提升世界模型的语义理解 [22] - **形成闭环智能**:VLA做出初步决策,世界模型进行快速“脑内推演”并评估风险,再将信息反馈给VLA进行调整或解释 [22] - **3D-VLA**:由东北大学、加州大学洛杉矶分校、麻省理工学院等机构于2024年3月提出,是一个能打通3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标状态,让模型学会“想象未来” [24][25] - **WorldVLA**:由阿里巴巴达摩院、浙江大学等机构于2025年6月提出,是一个将VLA与世界模型统一于单一框架的自回归动作世界模型,实现了动作与图像的联合理解与生成,在机器人操作基准测试中动作生成成功率超过同类模型约4% [28][29][31] - **IRL-VLA**:由清华大学AIR研究院、上海交通大学等机构于2025年8月提出,是一种基于逆强化学习奖励世界模型的闭环强化学习框架,用于训练端到端自动驾驶VLA策略,在NAVSIM v2闭环驾驶基准上取得领先性能 [34][35] - **DriveVLA-W0**:由中国科学院自动化研究所等机构于2025年10月提出,通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的问题,在NAVSIM基准测试中超越多传感器基线模型,并能放大数据扩展定律 [37][38][39][40] - **WM-MoE**:由麻省理工、夏威夷大学等机构于2025年10月提出,是一个基于世界模型并融合专家混合网络与大型语言模型的运动预测框架,旨在系统性解决自动驾驶中的极端案例难题,在多个公开数据集上展现出卓越的鲁棒性和泛化能力 [42][43][45] - **FutureSightDrive**:由西安交通大学、阿里巴巴达摩院等机构于2025年11月提出,其核心创新是引入视觉时空链式思考作为中间推理步骤,让VLA模型能够进行“视觉思考”,有效弥合了感知与规划之间的模态鸿沟 [47][49][50] 行业动态与展望 - 工业界已开始布局相关融合技术,例如华为强调其世界模型能力,小鹏汽车正在开发VLA 2.0,而理想汽车在发布会上也展示了相关理解,预计未来将有更多厂商入局 [51] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路推进 [51]
从具身到自驾,VLA和世界模型的融合趋势已经形成......
自动驾驶之心· 2025-12-18 08:06
文章核心观点 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型——正呈现出明显的融合趋势,旨在共同塑造一个“既会思考,又会沟通”的终极驾驶大脑,以解决传统模块化方案和早期端到端模型的局限性 [1][16][47] 技术路线解析:VLA - **定义与目标**:VLA 是“视觉-语言-行动”模型,旨在实现人车交互与可解释的端到端自动驾驶,其核心是将人类语言指令融入系统,让车辆“能听懂、会解释、直接开” [4][11] - **系统架构**:采用输入-中间层-输出的“三明治架构” [5] - **输入端**:融合多摄像头图像生成的BEV/体素表征、激光雷达/毫米波雷达数据以及人类语言指令 [5] - **中间层**:由视觉编码器、基于大语言模型的处理器和动作解码器构成,进行统一推理与决策生成 [5] - **输出端**:直接输出车辆的低层控制指令或未来数秒的行驶轨迹 [6] - **核心优势**:交互自然、可解释性强,并能利用语言常识处理复杂语义场景 [11] - **当前挑战**:面临语言与行动对齐困难、算力需求大等难题 [11] 技术路线解析:World Model - **定义与目标**:世界模型是一种生成式时空神经网络系统,旨在为自动驾驶系统构建一个可预测和仿真的内部世界,使其具备“在脑海中预演未来”的能力,从而支持更安全、前瞻的规划 [8][11] - **系统架构**:同样遵循输入-核心模型-输出的架构 [9] - **输入端**:侧重于时序的多模态传感器数据及自车状态,专注于对物理世界状态的建模 [9] - **核心层**:由编码器、记忆模块和生成式预测模块构成,负责状态编码与未来场景的生成式推演 [10] - **输出端**:生成未来场景的丰富表征,如图像序列、BEV地图或4D占据栅格,为下游规划模块提供前瞻信息,而非直接控制车辆 [10] - **核心优势**:能够预测和仿真未来,方便量化风险,并可通过仿真生成大量极端案例数据 [11] - **当前挑战**:缺乏高级语义理解、实时高保真推演的计算成本高,且本身不直接产出驾驶策略 [11] VLA与世界模型的异同 - **主要区别**:两者在目标、输入输出、核心技术及优势挑战上存在显著差异,具体对比如文章中的表格所示 [11] - **内在联系**:尽管路径不同,但二者存在多方面的共同点 [12][13][14][15] - **技术起源一致**:均源于对传统模块化流水线和早期“黑箱”端到端模型的反思 [12] - **终极目标一致**:都是为了让自动驾驶系统具备类人的认知与决策能力 [13] - **关键挑战一致**:都需要解决剩余20%的极端案例难题 [14] - **技术底层一致**:都重度依赖“预训练+微调”的深度学习范式及Transformer等核心架构 [15] 技术融合趋势与实例 行业研究显示,VLA与世界模型的融合已成为明确趋势,旨在形成“感知-推理-仿真-决策-解释”的增强闭环 [16][21][47]。近期多项研究工作体现了这一融合方向: - **3D-VLA (2024.03)**:提出了一个融合3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标图像、深度图和点云,让模型具备“想象未来”的能力。在一个包含约200万个样本的3D具身指令数据集上训练,在3D推理定位等多任务上表现超越2D模型 [20][22] - **WorldVLA (2025.06)**:将VLA模型与世界模型统一于单一框架,实现动作与图像的联合理解与生成。在LIBERO基准测试中,其动作生成成功率超过同类离散动作模型约4%,视频生成质量优于单纯世界模型约10% [25][26][27] - **IRL-VLA (2025.08)**:提出基于逆强化学习奖励世界模型的闭环强化学习框架来训练VLA策略。在NAVSIM v2闭环驾驶基准上取得领先性能,并在CVPR 2025自动驾驶大挑战中获得亚军 [30][31] - **DriveVLA-W0 (2025.10)**:通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的根本瓶颈。在NAVSIM基准测试中,仅用单目前置摄像头即超越多传感器基线模型。在大规模内部数据集上的实验表明,该方法能放大数据扩展定律 [34][35][36] - **WM-MoE (2025.10)**:提出首个基于世界模型,并融合专家混合网络与大型语言模型的运动预测框架,专门针对极端案例。在多个公开数据集上的实验表明,其在整体精度和极端案例处理上均超越现有先进方法 [39][40][41] - **FutureSightDrive (2025.11)**:引入视觉时空链式思考作为中间推理步骤,让VLA模型进行“视觉思考”。该框架首先生成包含物理合理先验信息的统一未来帧,再基于此进行轨迹规划,有效弥合感知与规划间的模态鸿沟 [44][45][46] 行业动态与展望 - 工业界已开始布局相关技术,例如华为强调其世界模型能力,小鹏汽车正在研发VLA 2.0,而理想汽车也在发布会上展示了相关理解,预示着将有更多厂商进入该领域 [47] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路演进,构建具备闭环智能的驾驶系统 [47]