Workflow
人工智能
icon
搜索文档
突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述
机器之心· 2026-04-24 07:37
文章核心观点 - 视频生成模型正从生成“特效”向模拟物理规律的“世界模型”演进,被视为通向通用人工智能(AGI)的关键赛道[2] - 当前视频生成模型要成为实用的世界模拟器,面临“长时一致性”、“实时高可用”与“物理准确性”难以兼得的“不可能三角”挑战,核心瓶颈在于巨大的计算成本与速度[3] - 行业研究首次系统性地从“高效性”视角出发,综述如何通过提升效率将视频生成器转化为实用的世界模型,梳理了高效建模范式、模型架构、推理算法及下游应用[4] 高效建模范式 - 该部分探讨如何将模型从短片段生成扩展到支持长周期、交互式的世界建模,是构建高效视频世界模型的基础[8][9] 高效模型架构 - 架构设计旨在直接缓解时空冗余和注意力机制的平方计算复杂度,涵盖了四大方向的研究[10] - 方向包括:**扩散模型蒸馏**,可将采样步数压缩至几步甚至单步;**自回归与混合方法**,旨在实现长周期推理与高保真度;**层次化与VAE设计**,通过级联生成或隐空间压缩降低成本;**长上下文与记忆机制**,以维持长周期的物理与逻辑一致性[12] - 方向还包括:**高效注意力机制**,利用稀疏注意力、窗口注意力、线性注意力或状态空间模型(如Mamba)替代昂贵的全局注意力;**外推与RoPE技术**,通过优化位置编码实现无需训练的长序列外推生成[12] 高效推理算法 - 面向数十亿参数级大模型的实际部署,总结了四类关键的推理优化策略[11] - 策略包括:**并行化**,如分布式推理(空间、序列及流水线并行);**缓存机制**,利用扩散模型相邻去噪步之间的时空冗余进行特征复用;**剪枝**,包含token级合并/丢弃及网络架构(通道、层级别)剪枝;**量化**,以8bit、4bit部署,涵盖从注意力机制量化到训练后量化与量化感知训练,以及时间维度的动态量化策略[12] 赋能应用:自动驾驶 - 视频世界模型在自动驾驶领域有三大核心应用方向[12] - **数据合成**:用于批量生成“鬼探头”、极端天气等现实稀缺的长尾场景数据,为感知和规划模型提供训练素材,代表工作如GAIA系列、MagicDrive-V2[13] - **闭环交互模拟**:将世界模型作为虚拟考场,让AI系统在其中不断试驾、学习,形成“生成—评估—重训”的闭环,例如Vista、ADriver-I实现了“在AI生成的虚拟世界里无限开车”[13] - **生成式规划**:模型通过“想象”多条未来轨迹并选择最优路径来指导执行,使自动驾驶系统具备前瞻性规划能力,例如Drive-WM、DriveLAW将视频生成与动作规划共享同一个隐空间[14] 赋能应用:具身智能 - 视频世界模型为机器人领域解决了数据采集成本高、分布窄的难题,扮演三重角色[15] - **数据引擎**:例如GigaWorld-0通过文本引导真实视频编辑扩充数据,DreamGen用世界模型的“想象”生成轨迹级监督信号,GenMimic将人类运动视频“迁移”到人形机器人进行强化学习[16] - **交互式模拟器**:机器人可在世界模型生成的虚拟环境中安全试错,例如Ctrl-World、DreamDojo[16] - **生成式策略学习**:例如GR-1在大规模视频上预训练后迁移到机器人操作,Fast-WAM提出的WAM范式证明世界模型的增益主要来自视频联合训练塑造的物理表征,仅15M参数的LeWorldModel证明小而精的隐空间模型也能实现高效规划[16] 赋能应用:游戏与交互式世界模拟 - 游戏提供了闭环交互接口和可控评测环境,是视频世界模型的理想试验田[17] - 具体应用包括:GameGen-X将键盘鼠标操作注入生成过程;Matrix-Game 2.0在GTA5和虚幻引擎数据上训练,实现了约25 FPS的交互生成和分钟级长序列滚动推演;DreamerV4用世界模型充当强化学习的虚拟训练场[17] - 在通用方向上,WorldPlay主打高分辨率实时生成,Yume1.5通过上下文压缩和蒸馏降低长序列延迟,开源项目LingBot-World将分层语义数据引擎与多阶段训练结合,追求低延迟交互与长期记忆的统一[17]
奇瑞汽车与英伟达合作布局物理AI,实现“从云端到车端”全面布局
选股宝· 2026-04-23 22:34
4月23日,奇瑞汽车与英伟达(NVIDIA)达成全球战略合作。双方将在辅助驾驶、座舱AI、机器人三 大领域共同开发并布局物理AI ,加速推进奇瑞汽车在全球范围内的业务拓展,实现"从云端到车端"的 全面布局。 英伟达在2026年GTC大会上发布了物理AI全栈基础设施,涵盖L4自动驾驶平台DRIVE Hyperion、推理 型VLA模型Alpamayo 1.5和Physical AI数据工厂。当前,AI与汽车的深度融合进入全栈纵深拓展阶段, 全球多个头部整车企业(如比亚迪、吉利、现代、奔驰等)均与英伟达及其生态伙伴围绕物理AI、L4 级自动驾驶平台达成战略合作。 证券时报表示,英伟达在机器人物理AI领域具备强大模型、芯片和仿真训练平台(如Omniverse),可 为奇瑞在生产、物流、面向Robotaxi等业务开辟新赛道。Rubin平台作为英伟达新一代全栈算力基础设 施,将在2026年下半年上市,具备更高AI推理性能、更低令牌成本,且产能供应稳定。这为奇瑞长期 全球化战略和大规模智能车量产提供了算力与生态基础。 公司方面,据证券时报表示, 索辰科技:公司推出的物理AI平台"天工·开物"对标英伟达Omniverse, ...
美股异动|Oklo大涨超11%,与英伟达和洛斯阿拉莫斯国家实验室达成合作
格隆汇· 2026-04-23 21:57
公司股价与市场反应 - 核能技术公司Oklo股价大幅上涨,涨幅超过11%,最高触及每股80.64美元,创下自今年1月末以来的新高 [1] 战略合作与核心内容 - 公司与英伟达及洛斯阿拉莫斯国家实验室达成合作协议,共同推进核燃料验证和关键核基础设施建设 [1] - 合作汇集了Oklo的先进钠快堆平台、英伟达的人工智能基础设施,以及洛斯阿拉莫斯国家实验室在材料科学与核燃料领域的专业知识 [1] - 合作旨在结合先进核电、人工智能、数字孪生、建模和仿真技术,为联邦政府的Genesis任务提供支持 [1]
现金流击穿悲观,但资本开支抬升:特斯拉为何盘后从涨转跌
美股研究社· 2026-04-23 20:24
财报核心数据与市场即时反应 - 公司一季度营收为223.87亿美元,同比增长16%,但低于市场预期的226亿美元 [4] - GAAP毛利率为21.1% [4] - 运营现金流为39.37亿美元,自由现金流为14.44亿美元,显著好于市场预期的现金流出约14.3亿美元 [4] - 财报公布后,盘后股价一度上涨约4%,但在电话会后转跌,跌幅一度达2.4% [4] 利润修复的构成与性质 - 汽车业务收入为162.34亿美元,同比增长16% [7] - 服务及其他收入为37.45亿美元,同比增长42% [7] - 能源业务收入为24.08亿美元,同比下滑12% [7] - 利润改善由多重因素驱动:更高的车辆平均售价、更强的服务业务毛利、更高的完全自动驾驶(FSD)销售与订阅收入、较低的单车材料成本以及汇率正面影响 [7] - 利润中包含与关税和质保相关的一次性收益,并非完全由需求自然回暖驱动 [7] - 监管积分收入从上年同期的5.95亿美元降至3.8亿美元 [8] 运营与交付指标 - 一季度总运营费用为37.79亿美元,同比增长37%,主要受AI及其他研发项目、CEO奖励相关股权激励以及销售、管理和行政费用扩张推动 [9] - 研发支出为19.46亿美元,销售、管理和行政费用为18.33亿美元 [9] - 全球车辆交付量同比增长6%至35.8万辆,但库存天数从上一季度的15天升至27天 [9] - 储能部署为8.8GWh,同比下降15% [9] 资本开支计划与未来现金流指引 - 公司将2026年资本开支目标从年初的“超过200亿美元”上调至“超过250亿美元” [4] - 首席财务官表示公司正进入一个将持续数年的重大资本投资阶段,并预计2026年余下时间将出现负自由现金流 [4] - 一季度资本开支为24.93亿美元,同比增长67%,但仍比分析师平均预期低了约40% [5] 战略转型与业务进展 - 公司正积极推进Robotaxi扩张、Cortex 2算力集群、Dojo 3、Optimus工厂和芯片制造布局 [1] - Robotaxi付费里程环比接近翻倍,4月已在达拉斯和休斯敦推出无监督乘坐服务,并计划向更多城市扩张 [11] - FSD(Supervised)于4月获荷兰批准,为后续欧盟其他国家审批打开路径 [11] - Cybercab和Tesla Semi都将在2024年实现量产 [13] - Optimus第一代大规模工厂将在二季度开始准备,设计产能为年产100万台;得州的第二代产线按长期年产1000万台的目标设计 [13] 市场估值逻辑的转变 - 财报表面上证明盈利恢复,但电话会提醒市场:公司正在被重新定价,越来越像一家具备制造底座的AI投建型公司,而非单纯的卖车公司 [1] - 市场对利润表的反应表明,焦点已从当期盈利转向未来资本开支和现金流路径 [4] - 对于AI和机器人平台公司,资本市场更在意收入兑现速度和自由现金流被压制的时长 [13] - 公司估值的提升需要更清晰的Robotaxi商业闭环和可验证的AI收入兑现路径,以证明大规模投资能带来回报 [14]