Workflow
量子位
icon
搜索文档
用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能
量子位· 2025-11-13 19:52
行业现状与瓶颈 - 当前视频检索研究陷入闭环困境,以MSRVTT为代表的窄域基准主导模型优化,导致训练数据有偏、模型能力受限,难以应对真实世界中细粒度、长上下文、多模态组合等复杂检索需求[1] - 主流模型如CLIP4Clip、InternVideo2和Unite等在经典基准上表现优异,但能力边界局限于粗粒度的文本-视频匹配任务,对多模态输入和细粒度语义理解支持有限[6][7] - 图像检索领域已逐步走向统一的多模态表征框架,通用性正成为视觉检索系统的核心目标,视频检索领域亟需从"针对特定任务优化"转向支持多任务、多粒度、多域的通用建模[8][9][10] 通用视频检索新范式 - 香港科技大学(广州)联合阿里巴巴通义实验室首次提出通用视频检索概念,构建了包含16个数据集的综合评测基准UVRB,覆盖多任务与多领域[2][16][17] - 基准要求模型在9种能力上均有优秀表现,包括3大任务类型(纯文本TXT、图文组合CMP、纯视觉VIS)和3大领域(粗粒度CG、细粒度FG、长上下文LC),其中细粒度分为空间S、时间T、部分相关PR[17][18] - 团队合成了155万条高质量、多模态、任务多样化的视频-语言训练对UVRD,覆盖文本→视频、图像→视频、图文→视频、视频→视频等多种模态组合[2][19][20] 模型架构与训练策略 - 设计基于Qwen2.5-VL的通用视频表征大模型GVE,包含3B与7B两个版本,以Qwen2.5-VL为基座,冻结视觉编码器,仅用LoRA微调LLM部分[22][23] - 提出模态金字塔课程学习策略,采用自底向上的自适应课程调度,先学简单任务(如文本-图像对齐),再逐步进阶到复杂任务(如图文组合检索)[22][23][24] - 输入融合支持任意模态组合(文本/图像/视频),通过特殊token注入视觉特征,表征提取取最后一个token的隐藏状态,经L2归一化后用于检索,训练目标为对称InfoNCE损失加难负样本挖掘[23] 性能表现与竞争优势 - 在严格零样本设置下,GVE-7B模型以平均0.573的Recall@1得分,显著超越当前最强基线Unite-7B(0.538),领先幅度达6.5%[3][26][27] - GVE-3B模型(平均分0.544)仅含38亿参数,但性能超过了参数量翻倍的Unite-7B,证明其优势源于更优的训练数据与学习策略而非模型规模[27] - 按任务类型与领域维度分析,GVE-7B在所有关键能力上均取得领先,尤其在部分相关视频检索任务中以0.419的得分展现出卓越的语义判别力[28][29] 技术突破与行业影响 - 消融实验表明,合成数据集UVRD的引入显著提升模型在组合推理等复杂任务上的能力,GVE-3B在CMP任务上相对提升达27%,模态金字塔课程使GVE-7B整体能力从0.594提升至0.600[31] - 研究系统性揭示了当前模型的四大关键发现:传统基准MSRVTT与真实能力相关性仅0.58已"失灵";空间感知与时间推理能力完全脱节(相关性仅0.12);CLIP与MLLM架构走向不同能力进化路径;参数规模对基础视觉感知能力几乎无益[38][39][41][43] - 部分相关视频检索维度与整体能力相关性高达0.97,成为衡量模型嵌入质量的"试金石",时间能力对细粒度理解的决定性作用显著(相关性0.98),而空间信息贡献微弱(仅0.39)[38][40]
LeCun在Meta的最后一篇论文
量子位· 2025-11-13 19:52
论文核心观点 - 论文提出了一种名为LeJEPA的新型自监督学习方法,其核心是通过引入SIGReg正则化,使嵌入空间遵循各向同性高斯分布,从而有效解决表示崩溃问题并提升模型泛化能力[5][6] - LeJEPA是Yann LeCun在Meta任职期间以Meta身份发表的最后一篇公开研究成果,于11月11日在arXiv提交,被视为他在Meta的告别之作[2][4][69] 技术原理与创新 - 传统JEPA框架面临表示崩溃问题,即模型将所有输入映射到单一低维空间,导致嵌入空间样本不可区分[6] - LeJEPA通过最小二乘回归分析表明,各向同性高斯分布能够最小化训练过程中的偏差和方差,在总方差相同的情况下,非等向分布会导致更高偏差和方差[8][9] - 研究提出的SIGReg正则化方法将分布匹配转化为统计假设检验,通过Epps-Pulley测试判断嵌入分布与目标分布的匹配程度[15][16][17] - SIGReg通过两条机制解决高维计算挑战:嵌入函数的Sobolev平滑性保证仅需O(K)个方向切片即可约束整个空间;SGD迭代特性使方向数量很少时也能快速收敛[21][22] 实验验证结果 - 实验在ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等多种大型架构上进行,模型规模接近10亿参数[20] - LeJEPA在这些架构上表现超越现有方法,保持了训练的简便性和鲁棒性[23] - 在领域特定数据集如Galaxy10、Food101上,LeJEPA在直接目标数据预训练时超越了基于DINOv2的迁移学习方法[24] JEPA架构发展历程 - JEPA是LeCun于2022年提出的自监督学习框架,旨在通过嵌入空间的联合预测提升模型表达和推理能力[28][31] - 与生成式模型不同,JEPA仅捕捉x和y之间的依赖关系而不显式生成y的预测[32] - JEPA可通过分层架构增强抽象能力,低层处理短期预测,高层用于长期预测,提高可预测性和减少信息损失[34][35][36] - JEPA架构发展三年来已产生多个变体:I-JEPA充分利用Transformer架构灵活性处理图像[43][45];V-JEPA将其扩展至视频领域[49][51];V-JEPA 2进一步提升了动作预测和世界建模能力[58][60];MC-JEPA使其能够包含运动信息[61][63] 行业影响与人物背景 - LeCun自2013年加入Meta以来个人被引次数飙升,达到406919次,占总数的93%,其中与三巨头合写的《深度学习》综述贡献超10万次[77][78] - 尽管JEPA架构提供新路径,但毁誉参半,被批评过于抽象难以应用到主流模型,与生成式AI的背离也被部分人归咎于Meta的AI研究失利[67][68] - LeCun已开始筹集资金创办初创公司继续推进世界模型工作,但其过于学术的风格在商业世界的适应性受到关注[72][73]
只演示一次,机器人就会干活了?北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗
量子位· 2025-11-13 17:25
文章核心观点 - 研究团队提出DemoHLM框架,通过仅需1次仿真环境中的人类演示即可自动生成海量训练数据,解决人形机器人移动操作领域依赖硬编码、真实数据成本高、跨场景泛化差的核心痛点 [1] 核心挑战与现有痛点 - 人形机器人移动操作面临数据效率低、任务泛化差、Sim-to-Real迁移难三大难题 [3][6] - 传统方法需消耗数百小时真实遥操作数据,且依赖任务特定的硬编码设计,难以满足复杂场景需求 [3][6] - 基于仿真训练的策略常因物理引擎差异和传感器噪声无法在真实机器人上稳定运行 [6] DemoHLM框架技术方案 - 采用分层控制架构,包含低层全身控制器和高层操作策略,解耦运动控制与任务决策 [7] - 低层控制器基于AMO框架优化,运行频率50Hz,负责将高层指令转化为关节力矩并保证机器人平衡 [12] - 高层策略通过视觉闭环反馈向低层发送任务指令,运行频率10Hz,支持ACT、Diffusion Policy等多种行为克隆算法 [12] - 为机器人设计2DoF主动颈部与RGBD相机,通过比例控制器实现视觉追踪稳定,避免物体遮挡导致的感知失效 [7] 单演示数据生成流程 - 关键突破在于无需真实数据,仅用1次仿真遥操作演示即可生成海量多样化训练数据 [8] - 核心流程分三步:预操作阶段采用物体中心坐标系确保末端执行器精准对齐目标;操作阶段切换为本体感知坐标系解决抓取搬运难题;批量合成阶段通过随机初始化位姿自动生成数百至数千条成功轨迹 [8] - 演示采集通过Apple Vision Pro捕捉人类动作并映射到仿真机器人,记录1条成功操作轨迹 [13] - 将演示轨迹拆解为移动、预操作、操作三阶段,并通过坐标系转换实现泛化 [13] 仿真环境实验结果 - 数据量与性能呈正相关,例如PushCube任务成功率从52.4%提升至89.3%,OpenCabinet任务从18.9%提升至67.3% [14] - 算法适配灵活,在ACT、MLP、Diffusion Policy三种算法上均表现优异,其中ACT与Diffusion Policy在LiftBox任务成功率均超96% [14] 真实世界迁移验证 - 在改装后的Unitree G1机器人上实现零样本迁移,10项任务中全成功率任务如LiftBox和PressCube均实现5/5成功 [16][19] - 高稳定任务如PushCube和Handover实现4/5成功,复杂任务如GraspCube和OpenCabinet成功率超60% [19] - 迁移成功的关键在于高层策略通过视觉闭环实时调整指令,抵消仿真与真实的物理差异 [18] 行业应用价值 - 将训练成本从数百小时真实遥操作降至小时级仿真演示,大幅降低行业应用门槛 [20] - 无需任务特定设计,1套框架适配家庭搬运、工业辅助、服务交互等多场景,加速机器人从实验室到真实环境的落地 [20] - 分层架构可兼容触觉传感器、多相机感知等升级,为更复杂场景操作打下基础 [21]
今日硅谷科技头条是一个游戏机
量子位· 2025-11-13 17:25
公司产品发布概况 - Valve公司连发三款游戏硬件设备:VR头显Steam Frame、游戏主机Steam Machine和新款手柄Steam Controller,全部预计于2026年初推出 [4][5] - 此次发布标志着公司整合手柄、主机、VR和PC,结合自研操作系统SteamOS,构建起软硬件+内容的闭环生态系统 [7][33] Steam Frame VR头显产品细节 - 产品定位为“独立运行+无线串流”的VR头显,内置高通骁龙8 Gen 3级Arm芯片和microSD插槽,可本地运行游戏或无线串流PC游戏 [10][12] - 采用模块化轻量设计,重量约为440克,比上一代Valve Index的809克显著减轻,用户可自由替换头带、电池等配件,存储版本包括256GB和1TB [13] - 采用双LCD屏幕,每眼分辨率2160×2160像素,最高支持144Hz刷新率,配备双驱动扬声器和21.6 Wh后置电池 [14][16] - 引入眼动追踪与视线聚焦渲染技术,能以每秒80次的频率追踪玩家视线,优化带宽使用与渲染效率 [19] - 官方建议主要使用方式为无线串流,配备插在PC上的USB接收器,通过6GHz频段传输画面,价格将低于Valve Index的1000美元 [17][23] Steam Machine游戏主机与Steam Controller手柄 - Steam Machine是一款搭载SteamOS的台式电脑,性能相比Steam Deck升级6倍以上,拥有AMD Zen 4 CPU和RDNA3 GPU,内存可选512GB或2TB,支持4K/60帧游戏 [24][27] - Steam Machine可与Steam Frame联动,用户无需连接物理显示器即可通过VR头显唤醒主机,快速进入高性能PC VR体验 [25][28] - 新款Steam Controller手柄配备磁力摇杆、双触控板和四个背部握把按钮,续航超35小时,磁力摇杆支持电容式触控,内置陀螺仪和加速器可模拟方向盘等控制 [29][31] 市场定位与行业影响 - 在Apple、Meta等科技巨头转向AI眼镜的背景下,Valve公司选择继续深耕VR领域 [7] - Steam Frame与Meta Quest 3、Samsung Galaxy XR相比,在显示面和重量上更具优势,预计将完全取代已停止生产的Valve Index的市场地位 [23] - 尽管Steam Frame本地性能与PC存在差距,但其作为专为Steam玩家设计的无线串流、轻量化、模块化VR头显,有望成为下一代VR市场中最具潜力的产品之一 [23]
一个模型读懂所有医学数据,Hulu-Med探索医学大模型开源新范式 | 浙大x上交xUIUC
量子位· 2025-11-13 17:25
模型概述与行业意义 - 医学AI正从解决单一任务的“专科助手”向统一理解多种医学数据的“全能型选手”进化 [1] - Hulu-Med是首个能在单一模型内统一理解医学文本、2D图像、3D体积和医学视频的通用医学视觉语言大模型 [1] - 该模型实现了“一个模型,看懂医学世界的所有”,旨在解决医学AI领域长期存在的碎片化和信息孤岛问题 [2][7] 核心创新:透明度与开放性 - 模型训练完全基于公开可获取的数据集和自研合成数据,摆脱对私有敏感数据的依赖,显著降低隐私与版权风险 [4][5][16] - 研究团队构建了目前已知规模最大的开放医学多模态语料库,包含1670万样本,覆盖12个人体主要器官系统和14种主要医学影像模态 [16] - 开发了5种专门的数据合成管线,生成约286万高质量合成样本,以解决公开数据模态覆盖不均、图文对齐质量差等问题 [16][17] - 端到端全流程开源,公开数据筛选与合成流程、三阶段训练代码、评估脚本及所有模型权重,赋能整个研究社区进行复现和改进 [17][18] 核心创新:统一架构与技术突破 - 创新性地应用旋转位置编码和统一视觉编码单元,首次在单一模型内原生处理文本、2D图像、3D体积和医学视频四种核心模态 [20][23][25] - 该统一架构支持任意分辨率的医学影像输入,并具备强大的时空理解能力,无需为不同视觉模态设计独立编码器 [20][27] - 采用解耦的训练方式,基于独立的视觉编码器与大型语言模型解码器,提供了根据需求替换或升级组件的灵活性 [28] - 这种原生多模态整合方式比微调通用模型更能保证数据透明性并强化领域特定推理能力 [29] 核心创新:效率与规模化 - 提出“医学感知令牌压缩”策略,通过结合平面内双线性插值降采样和平面间基于L1距离的冗余令牌剪枝,平均减少约55%的视觉令牌数量 [33][35] - 采用渐进式三阶段训练课程,从基础的视觉-语言对齐到注入医学知识,最后进行混合模态指令微调,显著优于混合所有模态的训练方式 [37][38][39][40] - 训练成本得到有效控制,规模最大的32B参数模型总训练耗时约4万个A100 GPU小时,7B模型仅需约4千GPU小时 [43][45] 性能表现与行业影响 - 在30个公开医学基准测试中,Hulu-Med在27项上超越了现有的开源医学或通用视觉语言模型 [46][48] - 性能媲美甚至超越顶尖闭源系统,在16项基准中的表现优于GPT-4o,在纯文本临床对话基准HealthBench上性能与GPT-4.1持平 [48][49] - 在2D医学视觉问答和报告生成、3D视觉问答和报告生成、视频理解任务以及多语言医学理解、罕见病诊断等多类任务上均展现领先或极具竞争力的性能 [49][51] - 模型在GitHub和HuggingFace等开源社区获得积极反馈,近两周连续在HuggingFace medical trending榜单排名第一 [18]
最后一周!人工智能年度榜单申报即将截止。
量子位· 2025-11-13 17:25
评选活动概览 - 2025人工智能年度榜单评选已进入第8年,申报进入倒计时阶段[1] - 评选从企业、产品、人物三大维度设立五类奖项,旨在见证推动时代前行的企业、人物与产品[1][2] - 评选报名将于2025年11月17日截止,结果将在MEET2026智能未来大会上公布[7] 企业类奖项评选标准 - 年度领航企业评选面向中国AI领域最具综合实力企业,要求注册地在中国或主营业务主要面向中国市场,主营业务属AI及相关产业或已广泛应用AI[9][11] - 参选企业需具备成熟产品或服务并获得市场认可,近一年在技术创新、产品落地、市场拓展或商业模式上取得显著突破[11] - 评选标准涵盖业务能力、技术能力、资本能力及其他综合能力,包括市场占有率、营收规模、科研实力、研发投入、融资情况等[11] - 年度潜力创业公司聚焦最具投资价值AI创业公司,要求公司未上市,拥有人工智能相关产品或服务落地并获市场认可[14][16] - 创业公司评选标准侧重业务潜力、技术创新、资本能力及核心团队构成等[16] 产品与解决方案类奖项评选标准 - 年度杰出产品评选聚焦最具代表性与影响力AI产品,产品需以AI技术为核心并具备明确应用价值,已投入市场并获得用户反馈[16][17] - 产品评选标准包括产品力与技术力、落地情况及其他综合能力,关注功能完整性、性能表现、市场占有率、用户规模等[21] - 年度杰出解决方案评选聚焦AI在不同行业与场景的典型应用,解决方案需以自主创新AI技术为核心并已落地实施[19][22] - 解决方案评选标准强调创新性、落地情况及其他综合能力,包括技术融合能力、应用模式创新、市场占有率、客户情况等[22] 人物类奖项评选标准 - 年度焦点人物评选面向中国AI领域新星与领军人物,要求国籍为中国或所属公司主体在中国,并为公司创始团队成员或核心高管[21][23] - 参选人物近一年需带领团队在AI技术或商业化方面取得显著突破,对行业发展产生重要影响,科研院所中具同等影响力个人也可参选[23][24] - 人物评选标准涵盖企业情况、个人能力及其他综合能力,包括企业行业地位、个人技术能力、商业能力、创新能力及行业背景等[31] 相关行业活动 - MEET2026智能未来大会定档2025年12月10日,主题为“共生无界,智启未来”,关注AI如何穿透产业、学科与场景边界[27] - 大会将呈现学术前沿与商业落地碰撞,展示来自Infra、模型、产品产业的领先技术成果,首批嘉宾阵容包括张亚勤、孙茂松等[28][29]
2.4万亿参数原生全模态,文心5.0一手实测来了
量子位· 2025-11-13 17:25
产品核心特性 - 全新一代文心5.0主打原生全模态,从训练伊始就将语言、图像、视频、音频置于同一套自回归统一架构中进行统一的理解与生成训练[1] - 模型支持全模态输入(文字/图片/音频/视频)与全模态输出(文字/图片/音频/视频),在创意写作、指令遵循、智能体规划方面能力更强[1] - 预览版(Preview)当前支持全模态输入,但输出暂为多模态(文字/图片),能够实现全模态输出的完整版正在进行产品体验优化,后续将推出[15] 技术能力与性能表现 - 在官方基准测试中,文心5.0 Preview在语言、视觉理解、音频理解、视觉生成多维度表现突出[7] - 在大模型竞技场LMArena的文本排行榜(Text Arena)上得分1432,与GPT-4.5-preview、Claude-Opus-4-1、Claude-Sonnet-4-5等并列全球第二,位居国内第一[9] - 模型具备精细的多模态理解能力,能精准识别视频中的动作阶段、选手信息、动作名称、难度系数,甚至识别慢放片段和视频情感[26][27][28][30] - 具备跨模态信息整合与综合推理能力,能结合视频情节、台词等内容理解情感氛围和叙事意图,不易被单一模态误导[51] 技术架构与实现 - 采用非后期拼接的原生全模态路线,通过自回归统一结构对不同模态的训练目标进行离散化建模,使多模态特征在统一架构中融合与协同优化[63][64][66] - 引入超大规模混合专家架构,通过稀疏激活机制降低计算负载,每次推理仅激活与任务最相关的专家模块[67] - 模型总参数规模超过2.4万亿,激活比例低于3%,在保持性能的同时显著优化了计算与推理效率[69] - 百度飞桨深度学习框架为万亿级参数模型的高效分布式训练和推理成本优化提供了关键支撑[69] 应用场景与功能展示 - 支持单次交互中跨文件类别混合上传文档、图片、音频、视频,经用户授权可与百度网盘关联,直接访问处理网盘文件[18][20] - 具备智能体能力,可自主调用搜索工具进行信息查询与角色定位[36] - 支持文图混合输入生成新图,并能对视频、音频内容进行快速总结,一次性最多可上传10个视频进行多任务内容整理[53][56][57] - 能够进行音视频融合生成,例如生成3D交互式地球与卫星演示模型,用户可通过鼠标拖拽旋转视角[5] 行业定位与迭代节奏 - 行业竞争逻辑转向注重底层架构创新、训练与推理效率、落地成本等多维度综合考量[72] - 公司基础模型迭代步伐加快,4月发布文心4.5 Turbo和文心X1 Turbo,6月底文心4.5系列10款模型宣布开源,9月发布文心X1.1深度思考模型[73][74] - 文心5.0原生全模态模型的推出是公司在底层架构实现的差异化突破,体现了在算法训练、推理优化及生态协同等全链路的系统性积累[75]
Nature公开谷歌IMO金牌模型技术细节!核心团队仅10人,一年给AI编出8000万道数学题训练
量子位· 2025-11-13 13:38
核心观点 - 谷歌DeepMind在Nature上完整公开了其数学证明AI系统AlphaProof的技术细节,该系统在2024年国际数学奥林匹克竞赛(IMO)中取得金牌级表现,其核心创新在于将数学证明构建为强化学习游戏,并利用大规模自动生成的问题进行训练[1][8][26] 技术架构与训练方法 - 系统基于Lean定理证明器构建强化学习环境,将数学命题视为游戏关卡,AI通过选择策略推进证明[8][9] - 采用30亿参数的编码器-解码器transformer模型作为证明网络,同时输出策略建议和完成证明的步数估计[12][13] - 搜索算法采用受AlphaZero启发的树搜索,并引入AND-OR树结构处理多个独立子目标,以及渐进采样机制[15] - 预训练使用约3000亿个token的代码和数学文本,微调使用Mathlib库中约30万个人工编写的证明[16] - 通过基于Gemini 1.5 Pro的翻译系统,将约100万道自然语言数学题自动生成为约8000万道形式化问题,极大扩充了训练数据集[16][21] - 主训练阶段消耗约8万TPU天的计算资源[19] 关键创新:测试时强化学习 - 面对IMO级别难题时,系统会为每道题生成约40万个相关变体(如简化版、推广版),并启动独立的AlphaZero式学习过程进行专门训练[23][24][26] - 此TTRL机制使系统能针对特定难题积累洞察,是解决IMO最难题P6的关键,每道题训练需2-3天计算时间[24][26] - 比赛期间,团队最初仅凭部分证明系统判断为铜牌水平,但后台运行的TTRL在三天后陆续完成三个完整证明,最终达到金牌成绩[27][28] 团队与开发过程 - AlphaProof核心团队规模较小,大部分时间仅有约10人,临近IMO比赛时人员增加[3] - 关键突破来自IMO金牌得主Miklós Horváth提出的方法,即创建问题变体作为初始状态供智能体训练[4][5] - 团队在一年内探索多种研究思路,成功部分被整合进最终系统[7] 应用前景与局限性 - 系统已向科学界开放,数学家试用反馈显示其特别擅长找出反例,能在一分钟内证明或反证棘手的引理,有助于迭代修正数学陈述[30][31][32] - 局限性在于处理充满“定制化定义”的全新概念时遇到瓶颈,在Lean证明器策略成熟的数学子领域表现更佳[33][34] - 未来发展面临“数据有限性”挑战,需使AI能自主生成问题以实现通用性,其即时共享知识并生成训练数据的能力预示在数学领域可能远超人类[35][36][37]
IDE?字节TRAE搞了个大升级,现在能全流程开发了
量子位· 2025-11-13 13:38
产品定位与核心升级 - 产品定位从传统IDE转变为集成了多智能体协同架构与全流程开发工具链的AI协作平台 [3] - 核心升级重点是从Beta版的0到1搭框架,跳跃到1到100处理复杂项目的阶段 [4] - 升级思路更贴近开发者需求,不抢主导权,旨在实现人主导、AI协作的理想开发状态 [16][18] 多智能体协作架构 - 新增SOLO Coder智能体,专门解决修改已有仓库代码和重构架构时AI生成代码不贴合业务或理解不了复杂项目结构的问题 [5][6] - Plan模式在写代码前先与开发者厘清开发方案,包括代码改动清单和阶段目标拆分,避免方向性错误 [8] - 支持调度多个子智能体(如重构助手、性能优化助手)协同工作,并能通过手动或智能方式创建自定义智能体 [10] - 在执行复杂任务时能清晰拆分和隔离精细化任务,减少上下文污染问题 [9][11] 界面效率与操作优化 - 采用三栏布局,将多任务列表、对话流、工具面板分开,便于多任务并行推进和随时查看进度 [12] - 工具面板直接集成数据库、部署、设计稿等常用工具,减少在不同应用间切换的无效操作 [13] - 在长上下文场景中,对话流窗口可自动折叠冗余步骤只留关键摘要,并提供手动上下文压缩功能以节省Token [13] - 提供代码变更可视化功能,点击即可查看Diff,清晰展示AI修改的代码行和具体内容 [14]
李飞飞3D世界模型公测,网友已经玩疯了
量子位· 2025-11-13 13:38
产品发布与市场反响 - 李飞飞创立的World Lab公司发布全新3D世界生成模型Marble,并开启公测,人人可玩[1][3] - 该模型发布后迅速获得好评,用户使用简单,并在社交媒体引发刷屏现象[7][15] - 模型支持通过文本、照片甚至短视频轻松生成可编辑、可下载的专属3D世界,大幅降低使用门槛[4][35] 核心技术功能与特性 - Marble支持通过简短的文本提示、单图提示生成3D世界,并能通过多张图片、不同视角的图片拼接成统一世界[17] - 模型内置AI原生世界编辑工具,可进行局部编辑(如移除物体、修饰区域)或彻底编辑(如交换物体、改变视觉风格、重构大片区域)[21] - 对于专业用户,团队推出原生AI工具Chisel,可直接在3D中塑造Marble世界[23] - 模型支持对已生成世界进行扩展,为特定区域添加细节,并能将任意数量的世界组合起来构建更广阔空间[25][27] 输出格式与兼容性 - 创建的世界可选择两种方式导出:导出为高斯散点(最高保真度呈现形式)或导出为三角形网格(包含低保真碰撞器网格和高质量网格)[29] - 以网格形式导出能使3D世界与众多行业标准工具兼容,便于融入下游项目[29] - 3D世界可渲染成视频,导出后的视频可进行增强,添加细节、去除瑕疵并融入动态元素[31] 战略方向与行业定位 - 作为World Lab首款商业世界模型产品,Marble的核心在于多模态功能的深度落地,支持文本、图像、视频甚至粗略3D布局等多种输入方式[34][35] - 公司未来将重点发力交互性,目标是从静态创造发展到动态交互,实现与3D世界内元素的实时互动[36][37] - 该产品方向与李飞飞强调的空间智能是AI下一个前沿领域的观点一致,旨在打造具备生成、多模态处理和交互预测能力的真正空间智能世界模型[37]