空间智能
搜索文档
数字科技产业观察 | 双周要闻(2025年10月28日—11月14日)
每日经济新闻· 2025-11-14 16:53
部委政策导向 - 国务院办公厅提出加快场景培育和开放以推动新技术、新产品、新业态产业化应用,强调场景是连接技术和产业的重要载体 [1] - 工信部部署制造业中试平台建设,目标到2027年底基本建立现代化中试平台体系并初步形成全国制造业中试服务网络 [1] - 工信部启动2025年人工智能产业及赋能新型工业化创新任务揭榜挂帅工作,聚焦人工智能产业发展底座及"人工智能+制造"等重点方向 [1] 教育科技融合 - 教育部等七部门鼓励在科技教育中探索"双师课堂"和基于元宇宙虚拟实验室的"未来课堂" [2] - 课程资源将紧密围绕人工智能及量子信息等科技前沿领域,并加强前沿科技成果向课程教学资源转化 [2] 数据基础设施与物流 - 国家发展改革委等十部门推动物流数据开放互联,发布我国首张物流公共数据共享开放清单,十大类物流数据将向社会共享开放 [3] 地方数字化实践 - 江苏省政府支持利用人工智能、大数据、数字孪生等技术为体育赛事活动提供全链条场景创新,并建立赛事经济与体育消费大数据平台 [4] - 广东省文化和旅游厅征集智慧旅游优质项目,范围涵盖元宇宙沉浸式体验新空间及5G+AR直播等新一代信息技术在文旅场所的创新应用 [5][6] 行业应用与赛事 - "人工智能未来设计大赛・2025文旅应用赛"全国总决赛有49个优秀作品晋级,展示AI在文旅领域的创意应用 [7] - 小象智合展示AI时代包装产业从设计到交付的一站式服务新模式、新业态 [8] - 零克云参与北京1ms城市算力网存算分离拉远推理现网试验,在50km全光链路上部署政务客服智能体 [8] 前沿技术突破 - Neuralink脑机接口技术已植入12人累计使用超2000天,患者能力显著提升并计划进行首次升级或双芯片植入 [9] - 中国医疗AI模型MedGPT在引入"安全性"与"有效性"双轨评价体系的测评中以总分0.895的成绩位列第一 [10] 技术融合与产业洞察 - 张荣院士指出AI深度赋能将推动Micro-LED技术发展与生产效率新突破,而Micro-LED成熟也将反哺AI技术 [11] - 焦李成院士认为下一代遥感系统将演化为具备理解、推理与生成能力的智能体,实现从数据到决策的协同学习建模 [12][13] - 李飞飞提出空间智能将定义AI下一个十年发展方向,需构建超越大模型的世界模型 [14] 技术应用案例 - DeepMind开发的AI模型以80%概率提前3天锁定5级飓风"梅利莎"的路径和强度,今年首次被美国国家飓风中心使用 [15] - 华为云推出Versatile智能体平台与CloudDevice云终端协同,致力于解决大模型行业落地面临的开发门槛高、场景碎片化等痛点 [16]
李飞飞长文火爆硅谷
投资界· 2025-11-14 16:01
文章核心观点 - 空间智能是人工智能发展的下一个前沿领域,将推动大语言模型实现下一次质的飞跃 [4][6] - 构建具备空间智能的“世界模型”是解锁AI在创造力、机器人、科学、医疗和教育等领域潜力的关键技术路径 [8][16][18] - 世界模型需具备生成性、多模态和交互性三大核心能力,其技术挑战远超以往,但应用前景将深刻重塑人类与物理及虚拟世界的交互方式 [4][18][21] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架,支撑着从日常动作到科学发现等一系列与物理世界互动的基础能力 [11][14] - 当前AI(如多模态大语言模型)的空间能力远未接近人类水平,在估计距离、方向、大小及预测物理规律等任务上存在根本性局限 [14][15] - 缺乏空间智能导致AI与物理现实脱节,无法安全驾驶汽车、引导家庭与医院中的机器人,或创造全新的沉浸式学习与娱乐体验 [16] 世界模型的核心能力与技术挑战 - 生成性:模型需能生成遵守物理定律、空间一致的虚拟世界,并保持世界状态的连贯性 [4][18][19] - 多模态:模型需能处理从图像、视频、深度图到文本指令、手势、动作等多种形式的输入 [4][19][20] - 交互性:模型需能根据输入的动作或目标,预测并输出世界的下一个状态 [4][20] - 技术挑战规模超越以往,需克服在通用训练任务函数、大规模多模态训练数据以及新型模型架构与表征学习等方面的巨大壁垒 [21][22][23] 世界模型的应用潜力 - 创造力:赋能电影人、游戏设计师、建筑师等创作者快速构建、迭代和探索三维世界,变革叙事与沉浸体验 [26][28][29] - 机器人:通过生成高质量仿真数据,扩展机器人学习,实现具备空间感知能力的人机协作伙伴及多样化的具身形态 [30][31][32] - 科学、医疗与教育:在科学研究中模拟实验、在医疗领域加速药物研发与辅助诊断、在教育领域实现沉浸式学习,增强人类专长与发现能力 [33][34][35] 行业发展趋势与公司进展 - World Labs公司成立于2024年初,致力于世界模型的基础性突破,其开发的Marble平台是全球首个可通过多模态输入生成一致性3D环境的世界模型 [8][23][26] - 行业共识认为,下一代世界模型将使机器在空间智能上达到新层次,开启AI理解与创造世界的时代,需要整个AI生态系统的集体努力 [24][26][27]
罗福莉C位亮相小米,离职DeepSeek后首次官宣
猿大侠· 2025-11-14 12:11
罗福莉加入小米事件概述 - 罗福莉正式官宣加入小米,出任MiMo团队负责人 [1][4] - 罗福莉在X平台宣布将带领团队推动多模态空间智能发展,这是实现通用人工智能的关键一步 [4] 事件背景与时间线 - 2023年底已有传闻称雷军以千万年薪将罗福莉从DeepSeek挖至小米 [5][10] - 2023年12月25日DeepSeek-V3版本上线并宣布全面开源 [6] - 2023年12月26日媒体曝出小米正在组建GPU万卡集群 [7] - 2023年12月31日雷军在跨年直播中披露小米AI野心,汽车业务步入正轨后全力进军AI [8][9] - 上月小米AI团队论文作者栏已出现罗福莉名字,但标注为独立研究者 [11][13] 罗福莉专业背景 - 本科毕业于北京师范大学计算机专业,硕士就读于北京大学计算语言学 [15] - 曾任职阿里巴巴达摩院机器智能实验室研究员,负责开发多语言预训练模型VECO及AliceMind项目开源 [17] - 2022年加入DeepSeek母公司幻方量化,后担任DeepSeek深度学习研究员,参与研发DeepSeek-V2等模型 [17] - 学术论文总引用次数超过1.1万次,2024年新增约八千次引用 [18] - 在DeepSeek最新的Nature封面论文中列名,明确了对模型的工作贡献 [19] 小米AI战略方向 - MiMo是小米推进大模型研发的核心招牌,目标指向空间智能 [23][24] - 空间智能旨在从语言世界走向物理世界,具备感知、推理、生成与行动能力,实现比特世界与原子世界的智能贯通 [24][26] - 该技术愿景与小米人、车、家全生态战略天然适配 [26] - 罗福莉的官宣明确了小米MiMo团队的前沿方向 [24]
李飞飞3D世界模型公测,网友已经玩疯了
具身智能之心· 2025-11-14 09:02
Marble模型核心特点 - 李飞飞创立的World Lab推出全新3D世界生成模型Marble 开启公测 人人可玩[1][3] - 模型支持通过文本 照片 短视频轻松生成可编辑 可下载的专属3D世界 无需专业团队建模[5] - 生成的世界可长久保存 直接下载 支持多种输入方式包括文本 图像 视频 粗略3D布局等[35] 多模态生成与编辑能力 - 支持通过简短文本提示 单图提示生成3D世界 还能通过多张图片 不同视角图片拼接成统一世界[17] - 内置AI原生世界编辑工具 可进行局部编辑如移除物体 修饰区域 也可彻底改变视觉风格或重构大片区域[21] - 针对专业用户推出原生AI工具Chisel 可直接在3D中塑造Marble世界[23] 导出与兼容性 - 提供两种导出方式:导出为高斯散点(最高保真度呈现)和三角形网格(与行业标准工具兼容)[29] - 3D世界可渲染成视频 导出后视频可进行增强 添加细节 去除瑕疵并融入动态元素[31] - 组合模式能将任意数量世界组合起来 构建更广阔空间[27] 技术发展方向 - 未来重点发力交互性 从静态创造转向动态交互 实现与3D世界内元素的实时互动[36][37] - 模型发展方向与李飞飞提出的空间智能三大核心能力一致:生成 多模态 交互[37][40] - 作为World Lab首款商业世界模型产品 Marble代表了世界模型赛道的加速发展[3][34]
一句话,就能创造出随便乱逛的3D世界!
自动驾驶之心· 2025-11-14 08:04
产品发布与定位 - WorldLabs公司正式推出名为Marble的生成式世界模型产品,该产品面向全球用户开放使用[2][7] - Marble是新一代世界模型,能够通过单张图片或简短文字提示创建完整的3D世界[41] - 该产品与公司自家实时模型RTFM的区别在于能创建持久化、可下载的3D环境,而非实时生成世界[28] - 产品定位为AI原生编辑工具,提供混合3D编辑器功能,用户可先构建空间结构框架再由AI填充细节[31] 技术功能特点 - 模型支持多模态输入,包括2D图片、3D模型(需付费)、文本提示、多图像和短视频,可生成多种场景类型与艺术风格的3D世界[16][42][48] - 内置AI原生编辑工具,支持局部物体移除、区域修饰、风格替换和结构重构等精细操作[50] - 推出Chisel功能,允许用户在三维空间中直接雕琢世界布局,实现对物体尺寸和位置的精确控制[55] - 导出选项包括高斯溅射点(最高保真度)、三角网格模型(含低精度碰撞体网格)和视频格式,支持与THREE.js等行业标准工具集成[58][60][65] 产品发展历程 - 模型两个月前以限量测试版亮相,此次为正式上线[28] - 去年十二月公司展示的早期模型仅能通过单张图像生成交互式3D场景,且移动范围受限并存在渲染错误[32][33] - 当前版本实现重大突破,生成内容可任意旋转镜头、放大缩小,效果逼真度显著提升[14][34] 商业模式与定价 - 采用分级订阅制,免费版可生成4个世界,标准版月费20美元(首月1美元),专业版月费95美元可生成75个世界[83][84][85] - 付费功能包括3D模型上传、多图像/视频输入、世界编辑和高质量网格导出等[29][88] - 商业权利仅向标准版及以上用户开放,高阶版本提供更多积分和生成次数[88] 行业影响与愿景 - 产品发布契合李飞飞提出的"空间智能"概念,被视为AI下一个十年的关键发展方向[5][71] - 世界模型被定义为具备多模态能力,能整合视觉、听觉、触觉与语言信号构建三维世界[36][38] - 未来重点将聚焦交互性突破,为仿真、机器人技术等领域解锁新应用场景[69][70]
创业一年后,李飞飞推出首款可商用世界模型 Marble,任意模态都可生成 3D 世界
Founder Park· 2025-11-13 22:06
Marble产品核心能力 - World Labs发布首款可商用生成式多模态世界模型Marble,相较于两个月前的预览版,支持更多模态输入且生成的3D世界更丰富细致[2] - 核心能力是通过文本、单张图片、多张图片或视频直接生成完整、可探索的3D世界,并能“脑补”出描述中未提及或图片中不可见的细节[5][6][10][13] - 提供多图像输入功能,可将不同角度拍摄的照片无缝拼接融合成统一3D空间,使生成场景更贴近创作者构想[13][14] - 内置AI编辑工具,支持局部微调(如移除物体)和全局调整(如改变艺术风格或场景结构)[18][20] - 提供实验性工具Chisel,允许高级用户将世界“结构”和“风格”分离,实现对空间布局的精细控制[21] - 通过“扩展”模式自动生成更多内容扩大世界边界,或通过“组合”模式将多个独立世界拼接成复杂宏大场景[22][26] - 支持以Gaussian Splats(最高保真度)、三角网格(兼容Unity、Unreal Engine等)及视频(可添加动态元素)多种格式导出[23][24] 目标市场与商业模式 - 针对普通用户和专业用户分别提供免费版和Pro版,Pro版主要面向游戏开发、电影特效、建筑设计及机器人研究等领域的专业人士[8] 空间智能行业前景 - 李飞飞提出空间智能是人工智能的下一个前沿方向,将重塑叙事、创意、机器人学及科学发现等领域[27][29] - 当前最先进的多模态模型在物理世界中能力笨拙,表现为估算距离/方向/大小任务表现略高于随机水平、缺乏空间想象力、生成视频内容缺乏连贯性[33][35][36][37] - 空间智能能大幅降低3D世界创造门槛,赋能普通人及专业人士快速创建迭代虚拟世界,是实现具身智能让机器人理解并与物理世界安全互动的前提[41] - 该技术能在科学研究、医疗、教育等领域处理超越人类直观感知的复杂空间问题,如模拟实验及探索人类难以到达的环境[42] - 构建空间智能比训练语言模型困难得多,需要新算法及处理更复杂数据[44]
李飞飞的世界模型来了,一句话生成3D世界,AI 真的开始理解现实了
36氪· 2025-11-13 19:42
产品发布与核心能力 - 斯坦福教授李飞飞的创业公司World Labs正式推出首款世界模型产品Marble,这是该方向首次以可用产品形式出现 [1] - Marble具备多模态生成能力,可根据一张图片、一段视频或一句文字提示,重建出结构完整、细节丰富的3D世界 [1] - 产品拥有AI原生的世界编辑能力,允许用户对生成的世界进行局部替换、材质变化、光照调整或布局重构 [1] - 支持将生成的世界导出为高斯溅射、三角网格或视频格式,可直接接入Unreal、Unity、Blender等主流创作工具 [1] 技术特点与工作流程 - 支持从文本提示生成3D世界,系统能自动提取关键元素并在几秒钟内生成可漫游的三维空间 [7] - 支持单图生成,能根据照片的透视关系、光线方向和物体摆放方式,将场景自动补齐成可漫游的3D世界 [9] - 提供Chisel工具,允许进阶创作者先搭建粗略的3D框架,再通过文本提示控制最终呈现的风格与氛围 [11] - 将空间逻辑与视觉风格明确区分,同一三维框架可衍生出完全不同的世界 [12] 编辑与扩展功能 - 产品允许用户像处理真实场景一样对生成的三维世界进行删除物体、替换材质、改变光线等调整 [13] - 用户可对初始世界的任意区域进行扩展,系统会根据已有场景逻辑推演并补全环境细节 [13] - 提供“组合模式”,允许将多个独立生成的世界像拼接地图一样组合,以构建规模庞大、层次丰富的虚拟环境 [14] 行业应用与集成 - 支持将场景导出为高斯粒子渲染和三角网格等通用格式,可无缝进入Blender、Maya、Unity、Unreal等主流制作工具 [15][17] - 导出的高质量网格适合用于游戏关卡、动画镜头或建筑展示,碰撞网格则用于物理模拟和机器人路径规划 [16][17] - 支持将整个世界直接渲染成视频,并可进行增强处理,自动补上细腻细节并加入动态效果 [18] 战略意义与未来展望 - Marble的发布象征着空间智能时代的正式开场,其意义远不止让3D创作更方便,而是迈向创造真正具有空间智能的世界模型的第一步 [1][2] - 产品让外界首次清晰感受到AI有可能从理解图像和语言,迈向理解并操控一个由结构、物理与动态规律构成的完整世界 [3] - 未来应用方向包括帮助机器人理解现实环境,以及在科学研究中用于虚拟实验和预测结果 [2][27] - 世界模型需具备生成性、多模态性和交互性三种核心能力,其技术门槛远高于语言模型 [22][23][24][25][26]
DeepSeek前骨干罗福莉C位亮相小米,曾网传雷军千万年薪挖她
程序员的那些事· 2025-11-13 19:24
罗福莉加入小米事件 - 罗福莉于11月12日首次官方宣布加入小米,担任MiMo团队负责人[1][3] - 罗福莉在X平台上高调宣布正式加入小米,出任MiMo团队负责人[3] - 此次任命标志着此前约一年的传闻最终落地[5] 小米的AI战略方向 - 小米在汽车业务步入正轨后,宣布将全力进军AI的深水区[9] - 小米AI的目标是推动智能从语言世界走向物理世界,解锁多模态的空间智能[4] - 空间智能被定义为具备感知、推理、生成与行动的能力,是实现通用人工智能(AGI)的关键一步[4][24] - 小米MiMo团队致力于推动空间智能发展,这与公司拥有的“人、车、家全生态”场景天然适配[24][26] 事件时间线与背景 - 2023年12月25日,DeepSeek-V3版本上线并宣布全面开源[6] - 2023年12月26日,媒体曝出小米正在组建GPU万卡集群[7] - 2023年12月31日,雷军在跨年直播中公开披露小米在AI方面的野心[8] - 坊间传闻雷军以千万年薪挖角DeepSeek核心开发者罗福莉[10] - 上个月,小米AI团队论文作者栏已出现罗福莉名字,但标注为“独立研究者”[11] 罗福莉的专业背景 - 罗福莉本科毕业于北京师范大学计算机专业,硕士就读于北京大学计算语言学[15] - 曾任职阿里巴巴达摩院机器智能实验室研究员,负责开发多语言预训练模型VECO并推动AliceMind项目开源[17] - 2022年加入DeepSeek母公司幻方量化,后担任DeepSeek的深度学习研究员,参与研发DeepSeek-V2等模型[17] - 学术论文总引用次数超过1.1万次,仅2024年就新增约八千次引用[18] - 在DeepSeek最新的Nature封面论文中,罗福莉名列作者之一[20] MiMo团队与空间智能 - 小米MiMo是公司推进大模型研发的核心招牌[24] - 空间智能概念旨在打通信息AI和物理AI,实现比特世界和原子世界的智能贯通[26] - AI教母李飞飞于11月10日发表万字长文,首次系统阐释“空间智能”概念及其对具身智能和AGI的意义[25] - 罗福莉作为独立研究员时,已在小米MiMo论文成果中起到承接作用,连接小米和北大团队[23]
罗福莉C位亮相小米,离职DeepSeek后首次官宣
36氪· 2025-11-13 18:26
公司核心人事任命 - 罗福莉于11月12日正式官宣加入小米,出任MiMo团队负责人[1] - 罗福莉此前为DeepSeek核心开发者,坊间传闻小米以千万年薪将其挖角[4][7] - 罗福莉学术背景深厚,论文总引用次数超过1.1万次,今年新增约八千次引用[13][17] 公司AI战略方向 - 小米MiMo团队明确剑指空间智能,旨在实现从语言世界到物理世界的智能进化[3][23] - 空间智能被定义为具备感知、推理、生成与行动的能力,是实现通用人工智能的关键一步[4][23] - 雷军在跨年直播中披露,汽车业务步入正轨后,公司将全力进军AI深水区[7] - 小米AI战略与公司人、车、家全生态场景天然适配[25] 公司技术布局时间线 - 2023年12月25日DeepSeek-V3上线并开源,次日媒体曝出小米正在组建GPU万卡集群[5][6] - 2023年底传闻雷军挖角罗福莉,上月小米AI论文作者栏已出现罗福莉以独立研究员身份署名[7][8] - 罗福莉在小米最新MiMo论文中起到承接作用,连接小米与北大团队,通讯作者为其北大恩师[21]
周末来造梦!李飞飞世界模型正式开放,能力升级,有免费版
机器之心· 2025-11-13 16:26
产品发布与定位 - 李飞飞“空间智能”团队正式向公众全面开放其先进的多模态生成式世界模型Marble [3] - 产品定位为实现“人人可用、随手造世界” [3] - 相较于两个月前的预览版,此次全面开放版本实现了能力跃升式升级 [4] 产品能力与技术特点 - 核心升级在于“重度多模态”输入能力,支持文本、单张图像、多图提示等多种输入方式,允许用户通过多源信息对世界进行精细约束与设计 [7] - 提供AI原生世界编辑工具,支持对象移除/替换、局部修饰、视觉风格调整、结构性重构等局部与大范围修改,使创作进入可迭代模式 [11][12] - 新能力Chisel实现了结构与风格的解耦,用户可通过基础3D形状或导入3D资产搭建粗略结构,再通过文本提示决定整体风格,为世界生成带来全新控制维度 [14][15][17][18][20][21] - 支持生成后对指定区域进行一键扩展,以填充缺失区域、修补边缘瑕疵并补充细节 [22][23][24] - 可通过“作曲模式”将多个世界按自定义关系拼接,构建大规模空间 [25] 输出格式与应用场景 - 创建的世界支持以多种格式导出,便于整合到下游项目或专业工具链中 [26] - Gaussian Splat是最高保真度的输出方式,能输出极细腻的空间细节,并可通过开源渲染器在浏览器中直接渲染 [27] - 支持导出为三角网格,可与游戏引擎、建模软件、影视制作工具等行业标准工具无缝兼容 [28] - 支持将世界直接渲染为视频,并可实现像素级的镜头控制 [31][32] - 支持对导出的视频进行AI增强 [33] - 产品更适用于游戏开发、影视特效、建筑设计、机器人仿真等专业场景 [4] 商业模式与生态建设 - 目前提供免费版与会员版,主要差异体现在可生成的世界数量、可使用的编辑功能范围与深度以及是否具备商用授权 [6] - 公司同步推出Marble Labs,旨在与艺术家、设计师、工程师合作探索更多可能性,提供创作范式与最佳实践参考 [35][36] 未来发展方向 - Marble被视为迈向“空间智能”的阶段性成果,未来将重点强化交互性,使人类与智能体能在生成世界中更自然地感知、行动与学习,拓展在模拟与机器人领域的应用边界 [37]