Workflow
Marble
icon
搜索文档
未来智造局|当AI走进物理世界:从一场技能赛看具身智能的“能”与“不能”
新华财经· 2025-12-18 00:53
新华财经上海12月17日电(记者杜康、龚雯)在日前举办的2025全球开发者先锋大会上,机器人在插 花、搬运、救灾等真实场景中"各显神通"。冷冰冰的技术参数,在这里化作了鲜活的技能比拼。当然, 大赛也暴露了具身智能"笨拙"的一面:在叠衣服、拧螺丝等精细操作背后,不少机器人仍连着"遥操 作"的手柄。 恰恰是在这"能"与"不能"的缝隙中,公众得以窥见这一火热领域的技术边界与未来方向。 从机器人的"能"里看技术进阶 回望过去一年,中国具身智能领域"快步疾行":智元远征A2人形机器人完成无间断百公里跨省行走, 充分证明了机器人能够"走得稳";行业商业化"大单"频现,机器人真正进入工厂,负责分拣、上下料; VLA(视觉-语言-动作)模型的进化,则让机器人大脑更聪明,能够听懂人的需求。 在2025全球开发者先锋大会上,观众再一次真切看到了机器人的"能"。 更棘手的是环境干扰。"光照变化、桌子周边物体的摆放、强光下周边物体在桌子上的倒影等,都有可 能让机器人'智商下线',操作不准。这种难以将目标与'背景噪音'剥离的困境,折射出当下具身智能在 物理场景理解能力上的短板——泛化性不足。"参赛队员对记者表示。 ——拧螺丝等精细活儿 ...
深度解析世界模型:新范式的路线之争,实时交互与物理仿真
海外独角兽· 2025-12-17 15:53
我们相信 26 年会是多模态技术的大年,其中视频生成会快速进步让应用大规模落地,而世界模型 则会有研究上的科学突破,甚至开始从 research 走向 production。 在相当长的一段时间内, World Model 这一概念始终处于较为混沌的状态;直到近半年,随着技术 路径逐渐收敛,尤其是在具身智能与真实交互场景中出现了初步落地的案例,世界模型的轮廓开始 变得清晰。 作者:Cage、Haozhen 如果和语言模型对比:语言模型解决的是语义层面的压缩和推理,预测下一个 token;世界模型是 在解决下一步更根本的问题,AI agent 是否能真正理解时间与空间,并进行预测下一帧、下一个行 动。如果和视频生成模型对比:世界模型在交互性、实时性、长时记忆和物理合理性这四点上都需 要更进一步。 于是行业中的玩家开始在这些提升方向有了各自的 bet, World Model 领域逐步分化出两条路线: 一条以实时视频生成为核心,服务文娱、游戏等 for human 的消费者场景;另一条以显式 3D 结构 为中心,服务机器人、自动驾驶等 for AI 的领域。 本文沿着这个路线分化展开,拆解两条路线的技术趋势和落地 ...
世界太小,不够世界模型们用了
36氪· 2025-12-04 17:29
文章核心观点 - AI行业对“世界模型”的定义和技术路径存在显著分歧,但普遍认为其是超越大语言模型、通往通用人工智能的必经之路 [1][2] - “世界模型”概念正经历严重的通货膨胀,其外延被无限扩大,成为一个涵盖环境理解与模拟上下游技术的宽泛“筐” [2][3][18][19] - 世界模型的兴起背后交织着资本焦虑、技术瓶颈和对AGI的渴望,并被视为一场“反LLM中心主义”的运动 [20][22] 概念起源与演变 - “世界模型”的思想最早可追溯至1943年认知科学家Kenneth Craik提出的“心智模型”,即大脑通过构建外部世界的微缩模型来进行预测 [4] - 2018年Jürgen Schmidhuber等人的论文《Recurrent World Models Facilitate Policy Evolution》首次系统定义了神经网络世界模型的框架 [4] - 近两年,随着大语言模型的爆发和对AGI的渴望,该概念迅速繁殖,衍生出众多抽象定义,如“自主智能”、“空间智能”、“压缩即智能”等 [5] 主要技术流派:表征派 - 以杨立昆为代表,主张世界模型是一个在潜在空间运作、预测“抽象状态”的“大脑”,而非生成具体画面 [7] - 其定义的世界模型需同时输入四个变量来预测下一时刻的世界状态,追求逻辑上的因果推演,而非视觉逼真 [12] - 提出的I-JEPA和V-JEPA模型摒弃了生成式AI“预测每一个像素”的做法,以避免浪费算力在不可预测的噪音细节上 [12] 主要技术流派:生成派 - 与表征派的核心区别在于旨在重建和模拟视觉世界,认为“我若无法创造,便不能理解” [13] - OpenAI的Sora被视为世界模拟器,其通过在海量视频数据上预测下一帧像素,试图涌现出对物理规律的理解 [13] - 生成派进一步衍生出互动式生成视频,如谷歌DeepMind的Genie 3,支持生成720p分辨率、24fps帧率的实时互动画面,理解动作与环境的因果关系 [14] 主要技术流派:3D空间智能 - 以李飞飞为代表,主张通过构建持久、高精度的3D环境来实现“空间智能” [16] - World Labs发布的Marble采用类似“3D高斯泼溅”的技术,将世界表征为成千上万个高斯体,以生成符合物理规律的3D世界 [16] - 该路线旨在生成可下载、高精度且物理准确的3D空间,区别于Sora的视频流和Genie 3的实时生成 [16] 行业现状与驱动因素 - 当前各技术路线的成果均未达到理想的世界模型状态,但概念已广泛挂钩于具身智能、自动驾驶、游戏视频、多模态模型、3D模型乃至视觉信息压缩等领域 [18] - 热潮背后存在巨大泡沫,部分源于创投圈需要新叙事来突破大语言模型竞争已定的格局,将“视频生成”等工具概念提升至AGI高度以吸引投资 [20] - 科研人员大规模下场创业,使得学术上的“定义之争”蔓延至商业世界,不同定义直接关联数十亿级别的算力投入和产业链方向 [21] - 行业对大语言模型产生集体性技术焦虑,认为其存在“离身”的先天缺陷,且性能提升的边际效益递减,因此转向对物理现实的模拟与交互被视为关键 [23]
从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?
海外独角兽· 2025-12-03 20:05
文章核心观点 - 大语言模型在语言理解和生成方面展现出强大能力,但仅依赖语言不足以支撑真正的智能,构建能够理解和操作世界的空间智能与世界模型成为下一代人工智能发展的关键方向[2][4] - 空间智能被定义为在三维空间中进行推理、理解、移动和交互的深层能力,与语言智能互补,是通往通用人工智能不可或缺的拼图[4] - 语言是对三维世界的“有损压缩”,而视觉和空间感知是更接近“无损”的表征方式,让AI理解像素和三维空间中的物理规律难度高于处理符号化语言[10][11] - World Labs公司推出的Marble模型是全球首个高保真度3D世界生成模型,旨在突破模型“只懂文本”的限制,具备在三维环境中定位、推理、模拟、生成和执行任务的能力[15][17] 空间智能的必要性与理论基础 - 从生物演化角度看,大自然花费5.4亿年优化动物的视觉感知与空间行动能力,而人类语言形成历史仅约50万年,忽视这5.4亿年的进化积淀仅通过语言构建通用人工智能是不合理的[7][8] - 空间智能是人类进行高级科学创造不可或缺的思维工具,DNA双螺旋结构的发现就依赖于高强度空间推理,通过在三维空间中对分子结构进行几何构建和逻辑验证而完成[12][13] - 根据多元智能理论,人类智能是多维度的,至少具备八种相互独立的智能,空间智能与语言智能并非对立而是互补关系[4][5] Marble模型的技术特点 - 模型采用多模态输入方式,用户可输入文本描述、单张图像或一组图像,并能基于照片在虚拟空间中重构3D模型[20] - 具备交互式编辑功能,用户可对生成场景下达具体修改指令,模型能根据新约束条件重新生成并调整整个3D世界,形成“生成-反馈-修改”的闭环[20][21] - 选择Gaussian Splats作为3D世界的基础原子单元,通过大量3D高斯体表示和渲染场景,实现了在移动设备上30fps甚至60fps的实时渲染能力[24][25] - 模型架构基于Transformer,其本质是集合模型而非序列模型,置换等变的特性使其天然适合处理3D空间数据[28][29] Marble模型的应用场景 - 在创意与影视领域提供精确的相机放置控制,能极大降低特效制作门槛和成本,成为电影工业强大的生产力工具[21][31] - 室内设计成为典型涌现用例,用户通过手机拍摄厨房照片即可在虚拟空间重构3D结构并随意尝试各种设计方案,无需掌握复杂CAD软件[31][32] - 在机器人领域可作为强大模拟器,生成高保真合成数据填补真实数据与互联网视频之间的鸿沟,为具身智能体提供零成本虚拟训练环境[34][35] 技术发展趋势与挑战 - 当前世界模型面临的最大挑战是视觉真实与物理真实的差距,生成看起来合理的3D场景不等于模型理解物理定律[27] - 公司正在探索将传统物理引擎与生成式模型结合的混合路径,包括通过物理引擎生成模拟数据训练模型,以及给Splats赋予物理属性等方式[27][28] - 在算力被巨头垄断的时代,学术界应专注于探索短期内看似不可行但具备长远颠覆性的研究方向,如打破硬件彩票现象,寻找替代矩阵乘法的计算原语[36][37][38]
潮声丨人工智能有时比人还“蠢”,AI版图缺的这块拼图是什么
搜狐财经· 2025-12-03 08:35
文章核心观点 - 当前以大语言模型和图像分类器为主导的人工智能发展已达到极限,缺乏对物理世界的深度理解,导致生成内容常出现不合常理的问题[2][6][7][10] - 空间智能被视为人工智能突破当前瓶颈、实现下一个飞跃的关键前沿,其核心是让机器像人一样理解并交互于三维物理世界[2][11][12] - 实现空间智能的根本路径在于构建“世界模型”,该模型能赋予AI对物理规则进行推理和预测的能力,已成为学术界和产业界新的重点投入方向[19][20][23] 人工智能当前发展的局限性 - 现有大语言模型和多模态模型在生成可靠文本方面强大,但在处理与物理世界相关的任务时表现不佳,常被调侃为“人工智障”[6][7] - 具体案例显示AI缺乏物理常识:豆包模型在图像生成中将骆驼比例严重失调,并添加了不符合生物特征的动物[7];OpenAI的Sora模型生成的蚂蚁视频中蚂蚁只有四条腿,且升级版Sora2在视频细节衔接上仍存在不符合常识的瑕疵[10] - 根本原因在于语言是人造信号,处理过程有信息损耗,而AI缺乏对真实物理世界体系的经验和根基[10] 空间智能的定义与重要性 - 空间智能概念源于教育心理学,指对空间信息进行感知、理解与操作的综合智能,涉及三维思维和空间想象,是人类从婴儿期发展的本能[12] - 在人类文明进步中,空间智能是关键驱动力,例如用于计算地球周长、发明珍妮纺纱机(使单人工效提升八倍)以及发现DNA双螺旋结构[12] - 将空间智能迁移至科技领域,旨在让机器获得理解并交互于三维世界的能力,这是AI发展的终极愿景之一,例如响应“去买杯咖啡”这类需要自主任务拆解与规划的高层指令[11][12] 空间智能的技术发展与产业应用现状 - 空间智能研究历史悠久,早在1970年代,大卫·马尔在《视觉》一书中就系统提出了从图像恢复三维世界的框架[15] - 技术已在部分产业中应用,例如手机AR测量、VR眼镜、扫地机器人、服务型机器人和机器狗,但这些应用或需人为操控,或对环境适应能力不强,容易因识别不清等问题导致故障[16] - 自动驾驶被视为目前规模最大、最成熟的空间智能应用,但其系统仍难以在复杂城市街道上进行安全推理,例如无法从突然出现的小球推测出可能有儿童跑上马路的潜在危险[17] - 当前技术的瓶颈在于“感知-推理-行动”链条中的“推理”环节,即缺乏能够理解物理规则并进行因果预测的内部模型[17] 实现突破的关键:世界模型 - 在数据(高质量语言数据可能在2026年左右耗尽)和算力(训练GPT-4成本可能超过1亿美元)存在限制的背景下,模型成为推动AI发展的关键[19] - “世界模型”于2018年提出,灵感来自人脑构建并运用“内部世界”的机制,旨在让AI能够整合感官信息,对物理世界进行直觉式推理和预测,例如预判咖啡杯滑落轨迹并接住[19] - 世界模型被视为实现空间智能的根本路径,因此成为产业界竞相投入的新焦点[20][23] 产业界的最新动态与投入 - 2025年1月,英伟达在CES上宣布推出可预测和生成“物理感知”视频的Cosmos世界模型[22] - 2025年3月,拥有全球最大室内场景空间数据集的空间智能企业群核科技,开源了空间语言模型SpatialLM,该模型登上HuggingFace模型趋势榜第二位[22] - 2025年8月,谷歌DeepMind发布了支持“实时交互”的世界模型Genie 3,为智能体训练及游戏开发等领域带来新可能性[22] - 近期,李飞飞参与创建的公司World Lab发布了首款多模态世界模型产品Marble,支持通过多种输入生成可编辑的3D环境[22] 未来展望与挑战 - 大语言模型的成功验证了“基础模型”技术路线的潜力,促使业界瞄准下一个前沿——赋予AI对物理世界的理解与交互能力[23] - 世界模型的搭建仍面临诸多难点:真实世界的复杂性与不确定性难以用现有数学模型全面处理;某些领域(如地球内部构造)数据获取有限;物理学本身对暗物质等现象的认知局限也限制了模型的完整性[23] - 尽管挑战巨大,但发展空间智能和世界模型代表了AI技术演进的重要方向[24]
2026年互联网传媒投资策略:国内AI纵深发展,悦己消费全球化
申万宏源证券· 2025-11-28 15:46
核心观点 - 2026年互联网传媒行业投资机会将集中在AI重估和悦己消费全球化两大方向 [3] - AI云进入资本开支扩张第二年,投资重点从资本支出规模转向投入回报率,资本开支与经营现金流比率成为关键指标 [3] - AI应用从概念阶段转向商业化落地,重点关注用户和收入兑现,国内大厂将Chatbot升级为ToC应用生态 [3] - 悦己消费领域经过估值消化后,业绩持续性成为关键,游戏、视频、音乐、潮玩等细分领域存在年轻化全球化机遇 [3] - 部分行业处于底部复苏阶段,包括分众传媒、视源股份、教育出版等 [3] A股传媒及港股互联网复盘 - 近三年A股传媒板块受政策周期向上和悦己消费景气支撑,业绩实现增长,游戏版号审批自22年后逐步宽松 [7] - 2025年8月广电21条政策优化电视剧内容审查机制,显示政策底部确立,全球化年轻化驱动游戏潮玩动画IP等领域业绩高增长 [7] - 恒生科技投资叙事从23-24年回购分红的价值股转向25年AI资本开支扩张的科技股价值重估 [10] - 中国科技重估主要体现在AI算力基建上,包括云、芯片、服务器、晶圆代工等领域,AI应用表现尚不明显 [10] AI云 - 国内互联网公司加大资本开支投入,阿里巴巴表示三年3800亿元AI基础设施投资规划偏少,未来投入将更积极 [18] - 腾讯控股25年资本开支计划从占收入比例low teens调整为绝对值高于24年,24年资本开支为768亿元,占收入比例11.6% [18] - 使用资本开支与经营性现金流比率衡量云厂商投入健康度,腾讯该比率仅为25%,微软、Meta、谷歌处于50%-70%区间,亚马逊和阿里巴巴已超过经营性现金流水平 [19] - AI云产品利润率高于传统云产品,各互联网云厂利润率整体呈上行趋势,阿里巴巴目标提升份额优先于提升毛利率 [29] - 2026年国产芯片加速上市,互联网大厂自研芯片具备开发生态优势,百度昆仑芯、阿里平头哥等拥有庞大内部工作负载和开发者群体 [31] AI应用 - 中国开发的AI应用在全球具备竞争力,a16z GenAI移动端Top50中有22个由中国开发,仅3个主要在国内使用 [34] - 美图公司占据移动榜5席,字节跳动占据4席,显示出海应用实力强劲 [34] - OpenAI将ChatGPT从对话工具升级为串联多种能力的超级平台,周活用户达8亿,年底前向所有开发者开放应用审核 [35] - 国内互联网大厂持续布局AI入口,字节跳动豆包接入抖音商城,腾讯在微信引入元宝能力测试,阿里巴巴C端入口转向千问 [39] - AI赋能数字广告全链路,Meta的Lattice模型将广告转化率提升3%,腾讯25年前三季度广告收入达1039亿元,哔哩哔哩超50%效果广告素材使用AIGC工具 [50] - AI视频技术大幅压缩制作成本,从零制作AI漫剧成本降至2000-5000元/分钟,部分平台甚至达到1000元/分钟,市场规模预计突破200亿元 [57] - 世界模型进入初步商业化阶段,李飞飞团队推出的Marble支持单张2D图像生成高保真可交互3D场景,应用于游戏开发、VR/VFX等领域 [71] 悦己消费 - 视频影视行业政策拐点已现,广电总局21条优化审核机制,红果免费短剧25年9月MAU已超过优酷,人均单日使用时长超2小时 [75] - 游戏版号审批持续宽松,25年1-10月国产版号月均达135个,创监管常态化后新高,进口版号25年1-10月发布88个 [82] - 中国游戏市场Z世代用户占比达65%,年轻用户带来搜打撤、女性向等结构性产品红利,美国90后+00后玩家占比为51% [88] - 海外SLG市场规模约80亿美元,行业进化至第三阶段,点点互动通过产品创新将用户获客成本降至几美元水平 [97] - 音乐流媒体平台分化明显,腾讯音乐和网易云音乐聚焦Z世代社群与高质量版权,汽水音乐主打免费加广告模式 [104] - 泡泡玛特商业模式具备延长IP生命周期能力,国际化进程顺利,欧美渗透率仍低,25年上半年收入实现高增长 [110] - 大麦娱乐演出业务收入25财年同比增长236%,IP衍生业务收入增长339%,战略向上游延伸并布局ToC业态 [114] 底部复苏行业 - 分众传媒互联网广告投放大幅增长,毛利率达到74.10%,归母净利率45.11%,公司承诺24-26年分红不低于扣非净利润80% [122] - 视源股份AI教育业务加速落地,希沃AI备课助手激活用户超60万,MAXHUB品牌会议交互智能平板国内销量份额26.5% [125] - 出版行业经营出现分化,南方传媒25年前三季度归母净利润同比增长61%,中原传媒增长47%,山东出版单三季度同比大幅增长 [129]
图灵奖得主 Yann LeCun:大模型是“死胡同”,下一步押在哪一条路?
36氪· 2025-11-28 09:43
核心观点 - 图灵奖得主Yann LeCun宣布离开Meta,创办专注于先进机器智能的新公司,标志着AI技术路线可能发生重大集体转向[1][2] - Yann LeCun和OpenAI前首席科学家Ilya Sutskever在一周内先后质疑大语言模型主流路线,认为“拼算力”时代结束,后LLM时代正在成形[3][8][31] - 下一代AI的竞争焦点将从模型规模和训练数据转向新架构的发明以及系统的强大与可控性[31][32][39] 对LLM的批判 - LLM被Yann LeCun称为通往人类智能的“死胡同”,因其缺乏对真实世界的理解、常识和因果关系,仅是统计相关性的堆叠[3][5] - 模型规模增大带来语言流畅度提升,但世界理解力未同步跟上,Meta的Llama 4在真实场景中表现远不如基准测试即为例证[5] - LLM能力在实验室显露天花板,性能趋于饱和,更大模型不一定带来更高真实智能,继续堆算力边际收益越来越低[6][7][8] - LLM的核心缺陷在于无法进行多步骤推理、长期规划和具身交互,智能本质是行动能力而非语言能力[12][13] - 语言被视为人类智能的副产品而非核心机制,真正的智能应源于对物理世界的建模、预测和行动[9][10][11] 世界模型与JEPA架构 - Yann LeCun提出的下一代AI路径是构建“世界模型”,让AI能从多模态输入中构建对世界的内部理解,并基于此预测和行动[14][15] - 世界模型的关键在于让AI具备类似人类和动物的抽象内部投影能力,以理解重力、速度、距离等物理概念[15] - LeCun推动的新架构是联合嵌入预测架构,其与LLM的核心差异在于处理多模态数据、预测抽象状态变化及结合表征学习与因果建模[16][17][26] - JEPA架构的学习模式是让AI在模拟环境中自主互动,从中提取因果关系并形成持续记忆,最终具备规划行动能力,不依赖更多token而依赖更好的世界模型[19][20][21] 后LLM时代的技术路线分歧 - Yann LeCun押注世界模型方向,目标是让AI具备对物理世界的理解和行动能力,判断10年内会出现具身AGI原型[25][28] - Ilya Sutskever押注安全超智能方向,关注点在解决AI系统的泛化脆弱性,确保AI能力提升过程中的安全可控[25][29] - 两位先驱代表了后LLM时代的两个主要方向:架构创新派和安全优先派[30] 工业界的动向与影响 - 工业界出现悄然转向迹象:OpenAI确认首个AI硬件原型已完成,计划2年内发布无屏幕AI设备[34] - Google挖来波士顿动力前CTO,推动Gemini成为通用机器人控制平台,目标是让同一模型适配任何形态的机器人[34] - 李飞飞的World Labs融资2.3亿美元后发布商业产品Marble,Figure AI估值达390亿美元,Tesla Optimus计划2026年量产,显示下一代AI将不局限于对话框[35][36][37] - 新架构的突破需要时间,LeCun预估需几年到十年,Sutskever预估需5到20年,当前LLM仍是主流应用基础[38][39][40] - 对创业者和开发者的启示包括:不要迷信模型规模、垂直场景存在机会、开源路线重要以及需做好长期准备[41][42][43][44]
李飞飞:不要让AI把你变愚蠢,必须守住“人”的主导权
虎嗅APP· 2025-11-25 18:19
AI技术本质与影响 - AI是一种文明级技术,其产生的巨大影响力和规模超出预期,已触及每个人的工作、福祉与未来 [2][4][6] - 技术具有双刃剑属性,既可能被故意误用,也可能产生意料之外的后果 [7] - AI对劳动力市场将产生深远影响,例如客服岗位可能被大规模取代,但技术革命最终会催生新的就业图景 [25][26] AI技术发展方向 - 空间智能是AI进化的下一关键阶段,赋予机器在三维空间中理解、感知、推理与交互的能力,与语言智能形成互补 [5][9][22] - World Labs公司专注于空间智能前沿探索,其基础模型Marble能通过简单指令生成完整的3D世界,应用领域包括设计、游戏开发、机器人训练和教育 [9][23] - 人类智能建立在海量数据感知基础上,现代AI性能与数据规模密切相关,ImageNet数据集包含2.2万个物体类别和1500万张标注图像 [12][13] AI行业格局与治理 - 当前AI技术权力集中在少数科技公司手中,行业希望技术走向普惠与开放,打破垄断 [5][8] - 中国是AI领域的重要力量,全球公认的AI领跑者是中美两国,世界各地都表现出在AI领域占据一席之地的进取心 [5][21] - 超级智能的挑战根源在于人类治理能力,而非技术本身,亟需建立有效的国际监管框架与责任机制 [5][27] AI可持续发展 - AI算力增长带来能源与环境压力,应务实推进可再生能源与绿色技术创新,将能源政策转型作为AI长期发展的基础支撑 [5][33] - 当前巨额资本主要流向科技巨头,AI作为新兴领域仍有大量科学难题待解,需要持续投入,其在软件工程、医疗健康、教育等领域的应用前景广阔 [32] AI时代的教育与人才培养 - 在AI时代应回归教育本质,培养孩子的好奇心、批判性思维与责任感,使其成为技术驾驭者而非被动个体 [5][31] - 教育工作者需要支持以运用AI工具提升教学,并指导学生正确使用技术,培养自主思考能力和永葆求知欲 [31][34] - 使用AI的根本原则是不要让工具使人变愚蠢,例如依赖AI完成本应自己思考的作业或制造虚假信息 [36]
Meta再推WorldGen,一句话「盖」出50×50米一座城
具身智能之心· 2025-11-25 08:03
文章核心观点 - Meta公司推出名为WorldGen的突破性生成式AI系统,能够仅通过一段文本提示生成完整、可交互、可导航的3D世界,覆盖面积达50x50米,并在整个区域内保持风格和几何结构的一致性[12][13][19] - 该技术融合了程序化推理、扩散模型3D生成以及面向对象的场景分解,代表了生成式AI从2D内容创作向复杂3D环境构建的重大跨越[13][17] - WorldGen的输出可直接兼容Unity、Unreal等主流游戏引擎,无需额外转换,展示了在游戏开发、仿真和沉浸式社交环境等领域的巨大应用潜力[22][29] 技术方法与创新 - 系统采用多阶段流程:规划(程序化blockout生成、导航网格提取)、重建(图像到3D基础模型)、分解(场景部件提取)、精修(网格与纹理优化)[21] - 与基于Gaussian Splatting等技术(如World Labs的Marble)相比,WorldGen以网格为基础输出几何结构,原生支持物理模拟、碰撞检测和导航,功能性更强[29] - 传统方法通常从单一视角向外扩展,移动3-5米后质量骤降,而WorldGen能生成50x50米完整纹理化场景并保持一致性[18][19] 应用前景与行业影响 - 该技术有望大幅降低3D内容制作门槛,使普通人无需编写代码即可从文本提示创建虚拟世界,推动内容创作大众化[22][30] - 对游戏开发、技术美术和关卡设计师等工作流程将产生变革,从业者可从手动建模转向使用AI提示词驱动并筛选编辑输出[30][31] - 生成过程算力需求较高,开发者需评估本地与云端渲染能力以确定合适部署方式[31] 当前状态与发展方向 - WorldGen目前仍处于研究阶段,尚未对开发者开放,但已展示出跨行业节省时间和成本的潜力[22] - 未来版本计划支持更大规模世界生成并降低生成延迟,进一步提升实用性[20][22]
李飞飞最新长文:AI很火,但方向可能偏了
创业邦· 2025-11-23 19:15
当前AI大模型的局限性 - 当前大语言模型的核心能力是基于统计规律“预测下一个词”,而非真正理解世界[6] - 模型在处理简单物理世界问题时会出现错误,例如无法准确判断车辆与树木的距离,或出现“杯子松手后飞上天”等违背常识的情况[7] - 这种局限被比喻为“黑暗中的秀才”:虽然通过阅读万卷书掌握了丰富的语言统计规律,但从未行万里路,缺乏对现实世界的直接感知和互动[7] 空间智能的定义与重要性 - 空间智能被定义为“不通过语言,理解物理世界,和物理世界互动的能力”,其核心是感知、想象和行动[8] - 智能的本质是能在不确定的世界中持续预测、行动并达成目标,这不能仅靠大脑凭空产生,而需扎根于物理现实[8] - 大自然花费了5亿年进化视觉系统,而语言仅进化了几万年,表明感知世界远比描述世界更为基础和重要[13] 世界模型:AI的未来发展方向 - 未来AI的发展方向可能从“预测下一个词”转向“预测下一帧世界”,即遵循物理逻辑而非语法逻辑[14][15] - 世界模型能生成具有真实物理规律(如重力、光影、遮挡关系)的可探索空间,与当前仅生成像素序列的AI视频有本质区别[15] - 实现世界模型需解决的核心挑战包括寻找类似“预测下一个词”的优雅任务函数,以及从互联网二维视频中提取海量空间数据[17] 空间智能的应用前景与商业机会 - 空间智能的成熟将推动机器人真正进入家庭,使其能够理解“花瓶易碎需绕行”等物理常识,执行叠衣服、整理房间乃至照顾老人等复杂任务[20] - 在内容创作领域,具备空间智能的AI可实现真正“可控”的视频生成,满足商业广告、电影制作中对角色走位、光影角度等的精确控制需求[20] - 李飞飞团队与索尼虚拟制作公司的合作案例显示,使用Marble技术搭建场景可使生产效率提升40倍[21] - 面向消费者的“想象成真”应用前景广阔,例如通过上传毛坯房照片和风格描述,几秒内生成可自由探索和修改的虚拟样板间[21] - 空间智能技术还可用于心理治疗(如恐高症暴露疗法)以及为机器人公司提供特定领域的合成数据“教材”[22]