Marble
搜索文档
“AI教母”,公布最新世界模型
财联社· 2025-10-17 20:28
世界模型RTFM的技术突破 - 李飞飞团队发布全新世界模型RTFM,能够实时生成交互式三维世界[2] - 模型设计围绕效率、可扩展性和持久性三大原则,仅需单块H100 GPU即可渲染持久一致的3D世界[2] - 实现4K+60FPS交互式视频流,传统架构需每秒生成超过十万个token,相当于一本《弗兰肯斯坦》的文本量,当前算力下经济上不可行[2] AI算力成本与需求趋势 - 降低算力成本成为硬件厂商重要议程,OpenAI与博通战略合作部署10吉瓦AI加速器,形成英伟达、AMD、博通多元算力体系以倒逼成本下降[3] - 尽管模型效率提升,但算力总需求预期未减,存在“杰文斯悖论”,即效率提升反而增加总消耗量,例如DeepSeek R1性能增强但算力需求持续增长[4] - 预计针对更大推理预算的更大型模型将继续改进,未来算力需求增长预期稳固[3] 世界模型的行业进展与意义 - World Labs在9月发布世界生成模型Marble,可通过单张图片或文字生成3D世界,相比前代实现更优几何结构和更多样化风格[4] - 世界模型的意义在于不仅能理解推理文字信息,还能理解推理物理世界的运作规律[4] - 行业公司积极布局,xAI从英伟达挖来专家,Meta、谷歌加注世界模型,国内宇树、智元等机器人厂商也已开源其世界模型[4] 算力基础设施的估值逻辑 - 算力更便宜易得时,开发者会将更复杂模型系统作为新基准,提升参数量、上下文与并行度[5] - 模型架构迭代可能减小单次推理训练算力,但如Genie3等生成视频的世界模型需跨数量级算力提升才能满足[5] - AI算力更高的天花板和更好的竞争格局将支撑其相对4G/5G的更高估值框架和更强Beta[5]
“AI教母”李飞飞发布实时生成式世界模型!一张H100就能运行
第一财经· 2025-10-17 14:32
公司技术进展 - 斯坦福大学教授李飞飞创立的World Labs公司发布全新实时生成式世界模型RTFM (Real-Time Frame Model) [3] - RTFM模型具备实时 持续运行且保持3D一致性的特点 亮点是可在单个H100 GPU上运行 [3] - 模型设计围绕效率 可扩展性和持久性三个关键原则 可在很小的GPU上运行并随计算量增加而扩展 [5] - RTFM是基于大规模视频数据端到端训练的自回归扩散Transformer模型 学会了建模3D几何 反射 阴影等特征 [6] - 上个月公司上线了空间智能研究成果Marble 只需一张图片就能生成持久存在的3D世界 [7] 技术优势与行业意义 - 生成式世界模型的算力需求将极其庞大 远超当今的大语言模型 [6] - 采用能够随计算能力提升而平滑扩展的简单方法 可受益于计算成本的指数级下降 [6] - 该技术可赋能创造 设计 学习 AR/VR 机器人等领域 具有广泛应用场景 [8] - 行业认为世界模型可能直接面向内容生产行业 瞄准游戏公司或电影制片厂 [7] - 技术对艺术家 设计师 开发者和工程师等职业群体都有重要意义 [8] 公司背景与融资情况 - 李飞飞于2024年创办World Labs 目标是开发具备空间智能的下一代AI系统 [7] - 公司在短短几月内完成约2.3亿美元(约合人民币16亿元)融资 [7] - 公司估值迅速突破10亿美元(约合70亿元) 成为AI领域最新独角兽企业 [7] - 投资方包括a16z Radical Ventures 英伟达NVentures AMD Ventures和Intel Capital等重量级玩家 [7] 未来发展规划 - 公司旨在开发能够利用图像和其他数据对三维世界进行决策的软件 致力于构建大型世界模型 [8] - 第一阶段将专注于构建对三维性 物理性以及空间和时间概念有深入理解的模型 [9] - 随后将支持增强现实(AR)技术和机器人技术等领域 [9] - 公司计划生成虚拟三维空间 用户可以控制其中的物理等变量 并允许人们创建自己的三维世界 [8]
“AI教母”李飞飞发布实时生成式世界模型!一张H100就能运行
第一财经· 2025-10-17 12:40
公司技术产品RTFM - 斯坦福大学教授李飞飞的创业公司World Labs发布了实时生成式世界模型RTFM,该模型具有实时、持久运行和保持3D一致性的特点[1][3] - RTFM的设计围绕三个关键原则:效率、可扩展性和持久性,使其能在很小的GPU上运行并随计算资源增加而扩展,且构建的世界是永久的[4] - 该模型是一款基于大规模视频数据端到端训练的自回归扩散Transformer,通过观察训练样本学会了建模3D几何、反射和阴影等特征[4] - 团队设定简单目标,最终开发出可高效部署在单个H100 GPU上的模型,无论交互时长均能保持帧率和世界持久性[5] 技术挑战与行业前景 - 生成式世界模型的算力需求将极其庞大,远超当今大语言模型,若用现有架构生成60帧4K交互视频流每秒需超10万个token,持续一小时交互需处理上下文token超1亿[4] - 以当前计算基础设施看,高算力需求既不可行也不经济,团队相信能平滑扩展的简单方法将主导AI领域,因其能受益于计算成本指数级下降[4] - 行业认为世界模型将带来巨大变革,应用远超游戏领域,可能直接面向内容生产行业如游戏公司或电影制片厂[8] - 空间智能技术被李飞飞视为AI领域真正难题,该技术可赋能创造、设计、学习、AR/VR及机器人等广泛领域[9] 公司融资与发展规划 - 李飞飞于2024年创办World Labs,旨在开发具备空间智能的下一代AI系统,公司在短短几月内完成约2.3亿美元(约合人民币16亿元)融资,估值迅速突破10亿美元(约合70亿元)[8] - 公司投资方阵容强大,包括a16z、Radical Ventures、英伟达NVentures、AMD Ventures和Intel Capital等科技与风投界重要玩家[8] - World Labs致力于构建大型世界模型,计划生成虚拟三维空间供用户控制物理等变量,并允许人们创建自己的三维世界,该技术对艺术家、设计师、开发者和工程师等职业群体具有重要意义[9] - 公司未来规划第一阶段专注于构建对三维性、物理性及空间和时间概念有深入理解的模型,随后将支持增强现实技术和机器人技术等领域[10]
单块GPU上跑出实时3D宇宙,李飞飞世界模型新成果震撼问世
机器之心· 2025-10-17 10:11
文章核心观点 - World Labs公司发布名为RTFM的生成式世界模型,该模型可在单个H100 GPU上实时运行,实现3D一致性渲染 [2] - RTFM作为一种学习型渲染器,无需显式构建3D表示,仅通过输入2D图像即可生成新视角的2D图像,模糊了重建与生成的界限 [5][20] - 生成式世界模型被认为是未来渲染和空间智能的关键方向,其计算需求可能超过当今大语言模型,但将受益于计算成本的持续下降 [8][11][14] 技术原理与创新 - RTFM是端到端训练的自回归扩散Transformer,基于大规模视频数据训练,学会建模3D几何、反射、阴影等特征 [5][17] - 模型通过为每一帧建模其在三维空间中的姿态,配合上下文调度机制,实现世界的持久性,解决自回归帧生成模型的记忆挑战 [24][25] - 该技术将输入图像转换为神经网络的激活(KV缓存)以隐式表示世界,通过注意力机制生成与输入视角一致的新视图 [17] 性能与效率突破 - 模型在单个H100 GPU上即可运行,保持交互式帧率,并能提供持久的世界体验 [2][15] - 生成4K分辨率、60帧每秒的交互式视频流需要每秒输出超过10万个token,而保持一小时以上交互一致性需处理超过一亿个token的上下文 [11][12] - 团队设计目标是构建一个足够高效、今天就可部署的模型,并能够随着算力增长持续扩展 [15] 行业意义与发展前景 - 生成式世界模型契合计算成本指数级下降的趋势,将在未来充分受益 [13][14] - 该技术代表了计算机图形学方法的转变,从依赖人工设计的传统3D渲染转向数据驱动的学习型渲染器 [17] - RTFM与Marble空间智能模型结合,可从单幅图像创建3D世界,渲染通过端到端学习而来的复杂效果如光照和反射 [18]
重大突破!斯坦福李飞飞推出空间智能模型Marble!单图&文本生成永久免费3D世界!
机器人大讲堂· 2025-09-24 19:09
模型核心能力 - 基于单张图片或文本提示生成可永久存在、自由探索的3D世界,几何结构干净、风格丰富且支持场景拼接[4][5] - 核心技术包括场景几何结构解析与重建,能自主识别空间关系并还原隐藏区域,通过估算深度地图和识别几何边界确保物理空间逻辑合理[6] - 同步处理光照、材质、纹理等细节元素,通过训练学习图像特征与三维属性对应关系,实现全维度转化[6][7] - 生成的高斯点云格式相比传统网格模型大幅降低数据体积,支持跨设备适配,包括台式机、笔记本电脑、移动设备和VR头显[9] 技术优势对比 - 相比传统3D生成技术仅能提供简化场景,该模型可构建包含多层结构和复杂装饰的完整空间,避免加载中断或物体形变[9] - 与谷歌Genie相比,该模型以永久性场景生成为核心,无时间限制和探索范围约束,用户可自由切换视角并保存场景[10][12] - 谷歌Genie参数规模110亿,训练数据基于超20万小时二维游戏视频,但场景存在时效性且交互逻辑受限[14] 商业化应用潜力 - 在游戏开发中可将复杂场景搭建周期从数周至数月压缩至几分钟,仅需输入参考图即可生成基础3D框架[13][15] - 在VR内容创作领域直接适配VR头显,提供沉浸式探索体验,无需额外开发投入[16] - 在影视场景搭建中快速生成不同风格原型,帮助导演直观确认效果,降低后期修改成本[21] 当前技术局限 - 功能聚焦3D环境创建,暂不支持人物、动物等动态中心对象的生成,需借助其他工具手动导入[22] - 场景规模受限,仅能生成房间大小的3D空间,构建更大规模场景会出现加载延迟和细节丢失问题[24]
传媒行业周报:Grok4Fast上线,《三角洲行动》DAU破3000万-20250923
国元证券· 2025-09-23 17:03
行业投资评级 - 推荐|维持 [6] 核心观点 - 看好AI应用、文化出海等主题方向 重点关注游戏、IP、短剧、出版等子板块 [4][37] - 建议关注巨人网络、恺英网络、姚记科技、神州泰岳、吉比特、浙数文化、完美世界、快手、美图公司、心动公司、上海电影、芒果超媒、南方传媒、皖新传媒等标的 [4][37] 市场表现 - 传媒行业(申万)周度上涨0.92% 排名行业第8名 同期沪深300跌0.44% 上证指数跌1.30% 深证成指涨1.14% 创业板指涨2.34% 恒生科技指数涨5.09% [1][12] - 细分行业中游戏II板块涨3.51% 广告营销跌0.26% 影视院线涨0.64% 数字媒体涨2.10% 出版板块跌2.92% [12] - 个股方面星辉娱乐周涨25.95% 完美世界周涨14.55% 迅游科技周涨13.37% 芒果超媒周涨12.62% *ST返利周涨11.31% 恒生科技成分股中百度集团-SW周涨14.25% 哔哩哔哩-W周涨6.64% [1][19] AI应用数据 - 2025年8月原生AI软件用户规模2.77亿 字节豆包月活1.57亿环比增长6.6%超过Deepseek 腾讯元宝环比增长22.4% [23] - 最近一周iOS端下载量豆包210.12万次环比+0.66% Deepseek 50.25万次环比+4.30% 夸克63.39万次环比-15.06% 腾讯元宝78.96万次环比-8.79% [2][24] - 行业事件包括OpenAI发布GPT 5-Codex新模型 宇树开源UnifoLM-WMA-0 腾讯混元3D 3.0模型发布 李飞飞发布世界模型Marble 天工超级智能体海外版上线Vibe Coding Agent 生数科技完成A轮数亿元融资 马斯克xAI上线Grok 4 Fast模型 [2][35][36] 游戏数据 - 《三角洲行动》DAU破3000万 多日登顶iOS畅销榜第一 《超自然行动组》排名稳定15名左右 [3][27] - 心动公司新游《伊瑟》国服9月25日上线 此前海外表现亮眼 [3][28] - 重点游戏活动更新包括腾讯《胜利女神:新的希望》与《剑星》联动 网易《第五人格》开启《故宫观唐》联动 腾讯《金铲铲之战》《王者荣耀》开启新赛季 [31][32] 电影数据 - 周度总票房8.31亿元 《731》周度票房5.80亿元占比69.7% 《捕风追影》票房7829万元占比9.4% 《浪浪山小妖怪》票房4469万元占比5.3% [3][32] - 国庆档14部影片定档 《刺杀小说家2》想看人数34.4万排名第一 《志愿军:浴血和平》想看人数22.6万排名第二 《熊猫计划2》想看人数15.4万排名第三 [3][33] 重点公司盈利预测 - 恺英网络2025年预测EPS 1.05元 PE 25.64倍 [9] - 姚记科技2025年预测EPS 1.45元 PE 19.92倍 [9] - 吉比特2025年预测EPS 20.24元 PE 27.15倍 [9] - 快手-W 2025年预测EPS 4.65元 PE 16.31倍 [9] - 心动公司2025年预测EPS 3.33元 PE 26.21倍 [9]
AI周报:DeepSeek论文登上《Nature》封面 英伟达宣布50亿美元入股英特尔
第一财经· 2025-09-21 08:32
英伟达与英特尔合作 - 英伟达以每股23.28美元价格投资50亿美元入股英特尔 交易需获监管批准[1] - 英特尔为英伟达定制x86架构CPU 用于数据中心AI基础设施平台[1] - 双方合作开发集成英伟达RTX GPU的x86架构SoC芯片 用于个人计算设备[1] - 合作预计带来每年250亿至500亿美元市场机会 将x86架构引入NVLink生态[1] DeepSeek研究进展 - DeepSeek-R1模型研究论文登上《Nature》封面 训练成本仅29.4万美元[2] - 团队回应蒸馏质疑 称未使用OpenAI合成数据 所有数据均通过网页抓取[2] - 研究获得学术界认可 实验表明其推理方案可能无需基于OpenAI示例训练[2] OpenAI用户数据 - ChatGPT周活跃用户突破7亿 相当于全球成年人口的10%[3] - 女性用户比例首次超过男性 18-25岁用户贡献46%消息量[3] - 73%聊天与工作无关 较一年前53%大幅增加 主要用途为写作(40%) 使用指导和信息查询[3] 3D生成技术突破 - 李飞飞团队World Labs推出3D世界生成模型Marble 可从单照片生成完整3D场景[4] - 技术可解析几何结构 空间关系 深度 光照 材质和纹理等信息[4] - 目前专注于环境生成 尚未支持人物或动物 大型游戏场景仍需技术突破[4] 寒武纪业务声明 - 寒武纪否认网上传播的载板订单 收入预测等不实信息[5] - 产品在运营商 金融 互联网等重点行业规模化部署并通过验证[5] - 股价从1500元/股波动至1349.24元/股 已连续三个季度盈利[6] AI应用市场竞争 - 移动端AI应用整体用户规模达6.45亿 原生App用户2.77亿[7] - 豆包以6.6%环比增速超越DeepSeek 重夺月活第一 腾讯元宝增速22.4%居第三[7] - 市场呈现两极分化 亿级应用强者恒强 10万以下应用增长困难[7] 腾讯技术布局 - 腾讯云异构计算平台全面适配主流国产芯片 整合多种芯片资源提供AI算力[8] - 腾讯股价突破660港元/股 市值达6万亿港元 云业务海外客户同比翻番[9] - 连续22个交易日回购1984.9万股股票用于注销 元宝DAU居国内前三[9] 百度股价表现 - 百度港股上涨18%至134港元/股 创两年最大涨幅 20日累计涨超50%[10] - 受人民币票据发行 昆仑芯获中国移动10亿级订单及AI/自动驾驶看好推动[10] - 智能云成新增长引擎 但传统搜索广告业务持续受AI冲击[10] AI人才市场 - AI新发布岗位量一年增长10倍 算法岗最高薪 科学家月薪超13万[11] - 大模型算法岗月薪68959元 近7成岗位涨薪 2成涨薪30%[11] - 人才供需比从1.00升至1.11 简历投递量增长11倍 竞争加剧[11] 行业战略方向 - 联想杨元庆提出AI发展两大方向:大模型技术突破与行业应用落地[12] - 强调中国在AI应用领域潜力巨大 "AI向实"是制造业升级历史机遇[12] AI芯片融资动态 - Groq融资7.5亿美元 估值达69亿美元 资金用于扩大数据中心容量[13] - LPU芯片主打高速特性 适用于AI推理场景 投资方包括贝莱德 三星等[13]
AI周报|DeepSeek论文登上《Nature》封面;英伟达宣布50亿美元入股英特尔
第一财经· 2025-09-21 08:21
芯片行业合作与投资 - 英伟达以每股23.28美元价格投资50亿美元入股英特尔 双方将合作开发定制x86架构CPU和集成RTX GPU的SoC芯片 预计年市场机会达250亿至500亿美元[2] - 英特尔与英伟达合作可能影响AMD和博通等芯片厂商竞争力[2] - AI芯片公司Groq融资7.5亿美元 估值达69亿美元 资金将用于扩大数据中心容量[15] - Groq芯片为LPU语言处理单元 以速度快为特点 适用于AI推理场景[15] AI模型研发进展 - DeepSeek团队R1模型训练成本仅29.4万美元 预训练阶段未故意加入OpenAI合成数据 全部数据通过网页抓取[1][3] - DeepSeek在预训练中针对数据污染进行处理 已观察到网页包含大量OpenAI模型生成答案[3] - 李飞飞团队World Labs推出3D世界生成模型Marble 可根据照片生成包含几何结构、空间关系和材质的3D世界[5] - Marble目前专注于生成3D环境 尚未能生成人物或动物 距离商业化应用仍有距离[5] 互联网企业AI布局 - 腾讯云异构计算平台全面适配主流国产芯片 提供AI算力[9] - 腾讯云海外客户规模同比翻番 计划在日本大阪和沙特新建可用区[10] - 腾讯市值突破6万亿港元 股价达660港元/股 连续22个交易日回购1984.9万股股票[10] - 百度港股股价上涨18%至134港元/股 创两年来最大涨幅 过去20个交易日上涨超50%[11] - 百度智能云成为新增长引擎 昆仑芯获中国移动10亿级订单[11] AI应用市场动态 - ChatGPT周活跃用户突破7亿 占全球成年人口10% 女性用户比例首次超过男性[4] - 73%聊天与工作无关 较一年前53%大幅增加 主要用途为使用指导、信息查询和写作[4] - 移动端AI应用整体用户规模达6.45亿 豆包以6.6%环比增速超越DeepSeek居月活第一[8] - 腾讯元宝月活环比增速22.4% 居原生App月活TOP10第三位[8] AI人才市场状况 - AI新发布岗位量一年增长10倍 算法岗最高薪 平均月薪超13万元[13] - 大模型算法岗月薪68959元 近7成算法岗涨薪 约2成涨薪30%[13] - AI岗位人才供需比从1.00升至1.11 投递量同比增长11倍[13] 企业声明与市场表现 - 寒武纪否认网上传播的载板订单、收入预测及供应链等不实信息[6][7] - 寒武纪股价从1500元/股跌至1349.24元/股 已连续三个季度盈利[7] - 联想杨元庆提出"AI向实"是中国制造历史性机遇 中国拥有完整制造业体系和市场规模[14]
刚刚,李飞飞空间智能最新成果!3D世界生成进入「无限探索」时代
自动驾驶之心· 2025-09-20 00:03
产品发布与核心功能 - 斯坦福大学教授李飞飞团队通过创业公司World Labs发布空间智能模型Marble限量测试预览版 [4][19] - 模型支持单张图片或文本提示作为输入生成持久存在、可自由导航探索的宏大3D世界 [5][8][18] - 生成内容具备永久性、零成本浏览器导航支持、高斯点云导出与多段拼接能力 [9][21][22] 技术特性与性能提升 - 生成场景规模较以往更大、风格更多样化、几何结构更干净 [21][23][26] - 支持通过组合多个生成结果构建更大世界 得益于模型在一致性和风格遵循上的进步 [22][31] - 生成场景具备丰富几何复杂度 支持从输入视角背后或更远处进行完整探索 [24] 应用生态与兼容性 - 导出高斯点云可在开源渲染库Spark支持下无缝集成Three.js [21] - 兼容桌面电脑、笔记本电脑、移动设备和VR头显运行 [21][12] - 用户测试反馈积极 有建议提及GUI界面连接世界功能优化 [14] 行业影响与定位 - 被行业人士评价为"真正的大规模3D生成" 与谷歌Genie形成差异化竞争 [9][10][11] - 正式将空间智能推向"无限探索"时代 突破房间尺度限制 [3][31] - 目前通过白名单地址开放试用 官方博客提供详细技术细节 [17][33]
从 ChatGPT 到 Marble,李飞飞押注的下一个爆发点是 3D 世界生成?
锦秋集· 2025-09-18 15:33
文章核心观点 - 李飞飞创立的World Labs推出空间智能模型Marble 其核心突破在于通过一张图片或文本提示生成持久存在且可自由导航的3D世界 在几何一致性、风格多样性、世界规模和跨设备支持上显著优于同类产品[1][2] - Marble并非孤立产品 而是李飞飞"世界模型-空间智能-三维表征"思路的集中落地 代表从语言理解到世界理解再到AGI的演进路径[3][6] - 世界模型被视为AI发展的第三阶段范式 其核心在于三维表征与时空一致性 而不仅是多模态拼接 这将推动内容生产、机器人和AR/VR领域的变革[6][21][29] 大语言模型边界与空间智能必要性 - 大语言模型在写作、推理等任务中展现强大能力 但其基于一维序列的结构无法原生理解三维世界 语言作为有损编码方式难以传递几何、物理和时序因果信息[5][9][10] - 二维像素和视频输入不会自动生成三维结构 关键在模型内部表征需原生支持三维表达 满足可微渲染、视角一致性和物理一致性要求[11][14] - 空间智能是AGI的必要条件 因为世界本质是三维的 二维观测是不完备投影 且语言训练信号是纯生成的 无法替代对三维结构的直接建模[16] 世界模型的技术实现路径 - 数据策略采用混合路径:真实采集+重建生成+仿真合成 以解决三维数据匮乏问题 同时强调数据质量与一致性约束的重要性[20][26] - 算法层面注重"重建与生成合流" 同一套三维表示既能重建真实场景 也能生成虚拟世界 NeRF等方法让小规模算力也能实现原创突破[20][24] - 算力资源配置体现学术与产业分工:工业界侧重系统工程与产品化 学术界专注表示方法和跨模态原理研究[25] 产业发展与落地节奏 - 内容生产为首要落地场景 目标将3D内容生成成本从AAA游戏级降至创作者可及水平 应用覆盖游戏、虚拟摄影、工业设计和教育领域[6][29] - 机器人被视为天然应用场景 空间智能连接数字脑与物理界面 但需先打磨三维表示与交互能力 再承接高风险实体操作[30] - AR/VR作为后续发展阶段 需实现从静态场景到动态要素、可交互性和场景语义的逐步演进[29] 范式演进与投资逻辑 - AI发展遵循三要素共振规律:数据×算力×算法 ImageNet时代是二维标注数据驱动 世界模型时代是三维表示驱动[18][21][23] - 范式演进分为三阶段:监督学习(ImageNet)→生成式建模(扩散/GAN)→三维世界模型(重建×生成)[21][24] - 投资逻辑围绕"找到时代最被低估的数据形态" 三维表示被视为当前最具潜力的数据形态[21][23]