Workflow
空间智能
icon
搜索文档
高德助力清华建设AI智慧校园 打造校园空间智能新标杆
新浪财经· 2025-12-30 20:58
项目核心内容 - 高德地图与清华大学合作打造的国内首个AI智慧校园“友好社区”项目正式落地 该项目以AI技术为核心 依托高德空间智能架构 旨在实现校园交通管理与师生出行体验的双重升级 并为全国高校智慧校园建设探索可复制、可持续的校企公益协作路径[1] 具体功能与服务 - 国内首个校园公交导航功能正式上线 用户可查看校园巴士线路、站点、实时车辆位置及预计到站时间 实现“卡点候车” 并自动规划与校外公交、地铁衔接的最优方案[3] - 首次实现校园内实时路况精准上线 针对高峰期拥堵痛点 对清华校园内累计120余条道路、通行规则及限行区域信息进行全面梳理和精准标注 导航时可实时查看拥堵并获推荐路线[3] - 对校园内近1600个兴趣点(POI)进行了优化标注 特别是在主要食堂的点位信息及校外人员就餐引导上进行了完善升级[3] - 高德企业打车VIP服务即将上线 清华师生将享受优先发单、智能排队匹配、专属客服支持 平台将通过AI算法动态调整优惠力度、减免VIP服务费[4] - 项目已完成校园3D建模技术验证 为未来3D导航、应急推演等场景储备了技术能力[5] 项目成果与数据 - 相关新增POI上线三个月内 累计搜索量已突破10万次 导航使用量近千次 校园公交每天搜索展现量近3万次[4] 战略意义与未来展望 - 该项目是构建具备“空间认知能力”的智慧校园原型的尝试 旨在让AI真正服务于人的出行与生活[5][7] - 合作秉持公益初心 不追求短期商业回报 旨在打造可感知、会思考、有温度的未来校园范式 为全国高校提供可复制、可演进的AI进化样本[7] - 未来双方将在三维数字孪生、应急推演等前沿方向深入协同 共同推动空间智能从“可用”走向“可信”、从“工具”升维为“伙伴”[8] 行业与公司定位 - 在人工智能迈向具身化、场景化的新阶段 空间智能正成为连接物理世界与数字文明的关键桥梁 涉及三维建模、动态环境感知、室内外无缝规划及多智能体协同决策[6] - 高德作为深耕空间智能的企业 致力于构建可感知、可理解、可交互的数字空间基础服务[6] - 此次合作是科技企业与顶尖高校携手共进、公益共创的典范[6]
高德,进击的“胖子”
新浪财经· 2025-12-29 10:43
核心观点 - 高德地图已从单一地图导航工具转型为集“空间智能”与“生活服务”于一体的超级入口 其月活跃用户高达9.5亿 跻身中国互联网顶级应用行列[1][3] - 公司正通过大力拓展本地生活服务(如“高德扫街榜”)、深化出行生态(如聚合打车、Robotaxi)以及探索多元化变现(如广告、佣金)来突破工具型产品的盈利与增长瓶颈[3][7][9] - 在快速扩张与商业化过程中 公司面临用户体验与盈利的平衡难题 包括服务履约复杂性、广告过度植入引发的用户投诉以及新业务生态的可持续性挑战[12][15][16] 用户规模与市场地位 - 2024年9月 高德App月活用户达到9.5亿 是中国月活用户破七亿的六个顶级应用之一[1] - 2018年 高德地图日活跃用户量突破1亿 成为中国首个DAU过亿的出行平台[5] - 2024年9月推出的“高德扫街榜”项目 上线首日用户数即突破4000万 超越了当时大众点评3260万的日均活跃用户[9] 业务转型与生态扩张 - 业务范围已从基础导航扩展至打车、代驾、租车、买车、顺风车、贷款、租房、买房、订酒店机票门票、本地生活团购及AI对话等多元化服务[3] - 2021年 公司宣布向“出门好生活开放服务平台”转型 提出“一张地图承载衣食住行”的战略[9] - 近期跨界合作频繁 包括与小鹏汽车达成全球生态合作发力Robotaxi 计划将蜜雪冰城5000家门店接入团购 以及与澳门旅游局合作推出智慧旅游项目[3][17] 商业化与盈利模式 - 历史上作为工具产品盈利困难 收入曾严重依赖广告(占比60%-70%) 并辅以聚合网约车及部分O2O服务收入[5] - 2025财年第三季度(截至2024年12月31日) 公司依靠“降本”首次实现盈利 当期营收中在线广告收入占比65% 其次是车载导航与车联网服务 第三是出行服务佣金[6] - 出行服务佣金提升主要来源于对“二环”中小出行公司实施的“竞价排名”机制激励[6] - 创新“需求预判式”广告覆盖导航全场景 使广告点击率提升了10%-20%[15] 本地生活服务探索 - 2020年9月推出“高德指南” 正式切入餐饮团购和酒旅业务 对标大众点评[9] - 2024年9月高调推出S级项目“高德扫街榜” 利用导航轨迹等真实行为数据和AI算法 颠覆传统以用户文字评价为主的评分体系[9][11] - 公司通过整合打车、酒店、门票、美食团购、加油等服务 旨在打造“出行+消费”的闭环[9][17] 面临的挑战与问题 - 尽管月活用户高达9.5亿 但用户月度总使用时长仍无法与头部综合应用相比 甚至只有番茄小说的一半[5] - 服务扩张导致主业副业难以兼顾 2024年12月 其子公司因“提供服务车辆未取得《网络预约出租汽车运输证》”被批量开出20多张罚单[12] - 酒旅等非标业务履约流程复杂 涉及众多服务商 用户体验问题频发 如订票金额与发票不符、客服推诿等[13][15] - 过度商业化引发用户不满 2025年导航语音广告和广告遮挡关键信息的情况遭到用户投诉甚至集体诉讼[15] - “高德扫街榜”虽愿景颠覆 但其内容丰富度与竞品相比仍有差距 “永不商业化”的定位也引发对其业务可持续性的质疑[12]
深扒了学术界和工业界的「空间智能」,更多的还停留在表层......
自动驾驶之心· 2025-12-28 11:30
文章核心观点 - 2025年是自动驾驶从“感知驱动”向“空间智能”全面转型的分水岭[3] - 空间智能是对空间信息进行感知、表征、推理、决策与交互的综合能力,是将三维物理空间信息转化为可计算模型的核心基础[3] - 当前空间智能技术更多停留在感知和表征层面,在深层次的推理决策和交互能力上仍有待突破,因此存在大量发展机会[3] 世界模型在重构物理世界的“预演能力” - **GAIA-2 (Wayve)**: 一种面向自动驾驶的多视图生成式世界模型,通过潜在扩散技术,以自车动力学、道路语义及多智能体交互为控制条件,生成符合物理规律且时空一致的驾驶视频,为破解长尾效应提供数据闭环方案[5] - **GAIA-3 (Wayve)**: 模型规模较GAIA-2提升5倍,旨在通过捕获细粒度时空上下文来表征现实世界的物理因果结构[9] - **GAIA系列空间突破**: 通过潜在扩散模型和超高空间压缩比,实现了多相机视角下的时空一致性,构建了具备物理常识的“沙盒”,解决了空间扭曲问题[10] - **ReSim**: 通过将真实世界专家轨迹与模拟器生成的非专家/危险行为数据进行异构融合,利用扩散Transformer架构实现了对极端与罕见驾驶行为的高保真、强可控模拟[11] - **ReSim空间突破**: 解决了AI对极端空间状态的认知缺失,让AI学会“撞车瞬间的空间演变”,实现了对高风险物理交互的高保真模拟[12] 多模态推理实现从“语义描述”到“几何推理” - **SIG**: 提出“空间智能网格”结构化图谱方案,通过将场景布局、物体关系及物理先验显式编码为网格语义,替代传统纯文本提示,并建立SIGBench基准,旨在解决多模态大模型依赖语言捷径、缺乏真实几何推理能力的难题[16] - **OmniDrive**: 通过引入“反事实推理”生成大规模3D问答数据集,并配合Omni-L/Q代理模型,实现了视觉语言模型从2D认知向3D空间理解与规划的深度对齐[19] - **OmniDrive空间突破**: 引入“反事实推理”,弥补了语言逻辑与物理轨迹之间的鸿沟,让VLM能够真正理解三维环境下的风险评估[19] - **SimLingo**: 一款基于通用视觉语言模型且仅依赖摄像头的闭环自动驾驶系统,通过引入“动作梦境”任务解决了言行不一的难题,实现了驾驶行为与语义指令的高度对齐[21] - **SimLingo空间突破**: 提出“动作梦境”任务,AI必须预测出精确的物理执行信号,证明了通用大模型在理解复杂城市空间后的实时决策潜力[24] 三维物理实体的“实时数字孪生” - **DrivingRecon**: 一款通用型4D高斯重建大模型,通过直接从环视视频中预测4D高斯参数,并结合创新的PD-Block空间优化与动静解耦技术,实现了高效、高保真的自动驾驶场景动态重建与多任务仿真[26] - **DrivingRecon空间突破**: 实现了端到端4D高斯重建,通过“动静解耦”技术精准捕捉路面背景与动态障碍物的几何特征,提供了近乎实时的物理环境数字孪生[26] - **VR-Drive**: 通过引入“前馈3D高斯泼溅”作为辅助任务,实现了无需逐场景优化的在线新视角合成,显著增强了智驾系统在不同相机配置和视角偏差下的鲁棒性[29] - **VR-Drive空间突破**: 解决了硬件适配痛点,即使相机安装角度偏了5度,AI也能通过空间想象力补齐偏差,确保感知与规划在不同物理配置下的稳定性[29] 具身融合——打破“车”与“人”的空间隔阂 - **MiMo-Embodied (小米)**: 全球首个开源跨具身通用大模型,通过多阶段学习、思维链及强化学习微调,首次实现了自动驾驶与具身智能两大领域的深度融合[31] - **MiMo-Embodied空间突破**: 实验证明车辆对宏观交通流的空间感知可增强机器人导航,而机器人对微观物体交互的理解能反哺车辆决策,标志着自动驾驶被纳入“具身智能”版图[32] - **DriveGPT4-V2**: 一款基于多模态大语言模型的闭环端到端自动驾驶框架,通过多视角视觉标记器融合环视图像与车辆状态,并引入专家LLM进行在线模仿学习,实现了能够直接输出底层控制信号的高性能、可解释驾驶决策系统[36] - **DriveGPT4-V2空间突破**: 从“看图说话”进化到“闭环控制”,AI在环视视野中保持高局部空间细节,直接输出转向、加速等底层物理指令,实现了端到端空间智能的闭环落地[37] 工业界架构演进与共识 - **行业共识**: 2025年工业界在自动驾驶架构设计上达成高度共识,即从传统的模块化架构向端到端的VLA架构演进,旨在利用大语言模型的常识推理能力辅助驾驶决策[40] - **Waymo的EMMA与通用基础模型**: Waymo展示了其端到端多模态模型EMMA,该模型构建在Gemini等大规模预训练模型之上,直接将原始摄像头传感器数据映射为驾驶轨迹、感知对象和道路图元素,其核心理念是将所有非传感器输入和输出均表示为自然语言文本[41] - **Waymo的快速与慢速思考架构**: 提出“快速思考与慢速思考”架构,传感器融合编码器负责快速反应性动作,驾驶VLM负责处理复杂的语义推理,例如能通过语义分析命令车辆绕行路面起火等罕见场景[41] - **DeepRoute.ai与可解释的VLA**: 元戎启行推出的DeepRoute IO 2.0架构核心优势在于引入思维链推理,有效解决了端到端模型的“黑盒”问题[43] - **DeepRoute IO 2.0能力**: 系统不仅能执行驾驶动作,还能通过语言模型解释其决策路径,具备强大的空间意识和光学字符识别能力,能实时解读复杂路牌和临时交通指令[44] - **统一具身智能趋势**: MiMo-Embodied的出现标志着自动驾驶与具身机器人在空间智能层面的合流,该模型在12项自动驾驶基准测试及17项机器人基准测试中均创造了新记录[45] - **理想汽车的MindVLA**: 引入了空间智能概念,主要体现在3D Feature上,视觉和Lidar经由3D Encoder得到时序融合后的特征,再经由3D projector传递到下游的MindGPT中[45]
群核科技: 以空间智能为核心 成为AI时代“卖水人”
中国证券报· 2025-12-23 06:03
公司战略定位 - 公司定位为空间智能的“卖水人”,旨在成为AI迈向三维世界不可或缺的基础设施提供商,赋能AI技术在三维场景的规模化落地 [1][3] - 公司将过去14年累积的物理正确的三维数据与AI技术结合,形成了空间智能核心能力,并构建了覆盖多场景的产品矩阵 [1] - 公司坚持开放生态,开放各类接口,欢迎外部合作伙伴,并将核心资源投入在建设具有长期复利效应的核心能力上 [3] 产品矩阵与进展 - 公司近期新产品发布节奏加快,本周其孵化的3D AI内容创作工具LuxReal将启动小范围内测,该工具面向电商、影视、广告等专业群体,能高效生成保持时空一致性的视频内容 [2] - 在2025酷+大会上,公司集中介绍了产品进展,包括空间智能训练平台SpatialVerse、工业AI孪生平台SpatialTwin,以及酷家乐上线的AI智能设计平台 [2] - 酷家乐AI智能设计平台是一个AI设计智能体,可帮助设计师快速完成空间设计方案,其海外版已于12月初发布,并正在韩国、泰国、欧洲等市场进行客户拓展 [2] 核心技术平台与开放 - 公司于12月发布Aholo空间智能开放平台,该平台整合了公司在空间重建、生成、编辑与理解方面过去14年沉淀的核心能力,并将以底层模型和工具的形式逐步对外开放 [3] - 公司形成了空间智能的“数据飞轮”,能产出更多数据并通过大模型生成更好的工具,以解决空间智能领域真实数据稀缺的问题 [3] 工业场景应用 - 公司在11月世界互联网大会上发布工业AI孪生平台SpatialTwin,聚焦工厂智能化应用场景,旨在为具身智能时代的人机协作提供工业空间基础 [4][5] - SpatialTwin平台能按需调用高密度仿真算力,支持多源异构数据接入以快速自动重建三维场景,并支持所有参与方无缝共享信息、实时协同工作,以提升效率、降低成本 [5] - 公司已就SpatialTwin与杭叉集团、斯坦德机器人达成合作,将共同推进智能物流解决方案、物流人形机器人智能化升级及工业具身智能的规模化应用 [5] 具身智能市场拓展 - 公司业务已从空间设计拓展至内容创作、具身智能等领域,其空间智能训练平台SpatialVerse已与智元机器人、银河通用、谋先飞(Motphys)、地瓜机器人等一批具身智能企业达成深度合作 [2][6] - 行业普遍认为具身智能机器人智能程度提升的瓶颈在于训练数据不足,公司提供的仿真训练平台能提升训练效率,与线下实体训练形成互补 [6] - 公司CEO黄晓煌透露,目前有客户企业以9:1的比例采用仿真数据与真实数据,并预测随着技术演进,在数字世界进行训练的占比还会提升 [7] - 公司认为空间智能是未来机器人产业发展的关键基础设施(“水电煤”),是实现机器人理解并在物理世界工作的核心要素 [7]
群核科技:以空间智能为核心 成为AI时代“卖水人”
中国证券报· 2025-12-23 04:19
公司核心战略与定位 - 公司将自身定位为空间智能的“卖水人”,致力于成为AI迈向三维世界不可或缺的基础设施提供商 [2][5] - 公司通过开放底层能力与生态合作,赋能AI技术在三维场景的规模化落地 [1] - 公司将核心资源投入于建设空间智能核心能力,并认为这是具有长期复利效应的事情 [2] 核心技术能力与数据优势 - 公司结合累积的物理正确的三维数据与AI技术,形成了空间智能核心能力 [1] - 公司过去14年逐步形成了空间智能的数据飞轮,在数据稀缺的领域具备优势,并能通过大模型生成更好的工具 [2] - 公司发布Aholo空间智能开放平台,整合了其在空间重建、生成、编辑与理解方面沉淀的核心能力,并以底层模型和工具形式对外开放 [3] 产品矩阵与近期发布 - 公司产品矩阵覆盖空间设计、工业数字孪生、机器人仿真训练、内容创作等多个场景 [1] - 公司孵化的3D AI内容创作工具LuxReal即将启动小范围内测,面向电商、影视、广告等专业群体,能高效生成保持时空一致性的视频内容 [1] - 公司近期发布的产品还包括空间智能训练平台SpatialVerse、工业AI孪生平台SpatialTwin,以及酷家乐AI智能设计平台 [1] - 酷家乐AI智能设计平台于12月初正式发布海外版,并已在韩国、泰国、欧洲等市场进行客户拓展 [2] 工业AI孪生平台 (SpatialTwin) - SpatialTwin聚焦工厂智能化应用场景,旨在为具身智能时代的人机协作提供工业空间基础 [3] - 该平台能按需调用高密度仿真算力,支持多源异构数据接入,可快速自动重建三维场景,以提升运营效率并降低成本 [3] - 平台已与杭叉集团围绕一体化智能物流解决方案及物流人形机器人智能化升级展开合作 [4] - 平台与斯坦德机器人RoboVerse系统深度集成,以推动工业具身智能的规模化应用 [4] 空间智能训练平台 (SpatialVerse) 与具身智能市场拓展 - SpatialVerse为具身智能训练提供三维可交互合成数据,已与智元机器人、银河通用等一批具身智能企业达成合作 [2] - 公司与谋先飞(Motphys)、地瓜机器人达成深度合作,共同推进机器人仿真训练解决方案的创新落地 [4] - 行业面临训练数据不足的瓶颈,企业通过线下实体训练和仿真平台两种方式积累数据 [5] - 公司有客户企业以9:1的比例采用仿真数据与真实数据,预计未来在数字世界进行训练的占比还会提升 [5] - 公司认为空间智能是未来机器人理解并工作在物理世界的关键要素,将成为机器人产业发展的“水电煤” [5]
李飞飞3D世界模型爆火后,国内首个免费版来了:我当了回「为所欲为」的造物主
36氪· 2025-12-22 17:21
腾讯混元世界模型1.5产品发布 - 腾讯混元团队上线了国内首个开放体验的实时世界模型TencentHY WorldPlay 1.5 [1] - 该模型能够根据用户输入的文字或单张图片,生成一个可供实时操控和探索的3D虚拟世界 [1] 核心功能与技术亮点 - 支持文字生成世界,用户通过文字描述可生成如过山车、千禧年跨年夜等多样化的3D场景 [2][4][11] - 支持单图生成场景功能,可将如《千里江山图》等图片转化为可游览的3D空间,并保留原艺术风格 [14][16] - 具备实时交互生成能力,通过原创的Context Forcing蒸馏方案及流式推理优化,模型能以24 FPS的速度生成720P高清视频 [7] - 通过重构记忆机制实现长范围的3D一致性,支持分钟级内容的几何一致性生成,用于构建高质量3D空间模拟器 [7] - 采用流式DiT架构,能够边接收用户实时控制信号边生成画面,保证了极低的操控延迟 [21] - 模型支持实时文本触发事件,用户可通过一句话指令在5秒内平滑改变世界状态,如让天色从亮变暗 [17][19] 产品体验与效果 - 文字生成场景的等待时间约为5-8秒 [4] - 生成的场景具有高写实度,例如过山车场景中皮肤纹理、金属划痕等细节清晰可见 [4] - 在千禧年场景等测试中,模型对三维空间有较好理解,物体能保持相对位置关系,无明显漂移 [11] - 在处理大跨度视角切换时,如海景房场景,窗框、立柱等直线条未发生扭曲,展现了良好的三维空间一致性 [13] - 目前模型在处理第一视角高速运动场景时存在挑战,可能生成静态的“定格瞬间”以供细节观察 [9] - 在复杂场景中,近处物体的细节可能缺乏锐利边缘,呈现“AI粘滞感”或类似油画的柔软效果 [11] - 实时物理模拟尚存瑕疵,例如爆炸后近处水面未能呈现波动效果 [21] 行业意义与未来展望 - 世界模型代表了从语言智能向空间智能的关键发展,旨在让AI理解并操作三维物理世界,是通往通用人工智能的关键一步 [23] - 该领域获得全球科技公司如Google、Meta、OpenAI及腾讯的重点关注与投入 [23] - 该技术使艺术从“被欣赏”变为可“自由游览”,为内容创造与交互提供了全新范式 [16] - 尽管当前在流畅度和交互深度上仍有提升空间,但世界模型赋予了用户创造世界的自由,具有广阔的未来想象空间 [25]
港大领衔DrivePI:统一自动驾驶理解、感知、预测和规划的空间智能4D MLLM
自动驾驶之心· 2025-12-22 17:20
文章核心观点 - DrivePI是一种新型的空间感知4D多模态大语言模型,它作为一个统一的视觉-语言-行为框架,旨在通过端到端优化,同时执行空间理解、3D感知、预测和规划任务,从而弥合当前自动驾驶系统中基于视觉的方法与基于VLA的方法之间的差距 [4][6][7] 研究背景与挑战 - 当前自动驾驶系统主要有两种范式:基于视觉的方法(如UniAD、VAD)在空间感知方面表现出色但缺乏自然语言交互能力;基于VLA的方法(如OpenDriveVLA、ORION)具有更好的交互能力但缺乏精细的中间3D感知和预测输出,影响可靠性和安全性 [7][8] - 核心挑战在于开发一个统一框架,结合基于视觉模型的精确空间感知能力和VLA方法的自然语言交互能力 [7] 技术架构与创新点 - **多模态感知**:引入激光雷达作为相机图像的补充传感模态,提供精确的3D几何信息,以激发MLLM的空间理解能力 [11] - **精细化空间表示**:生成中间的精细3D感知(如3D占用体素)和预测(如占用流)表示,确保输出特征保持可靠的空间感知能力,增强系统的可解释性和安全保障 [11] - **丰富的数据引擎**:开发了将3D占用和占用流表示无缝集成到自然语言场景描述中的数据引擎,使模型能够通过文本理解复杂的时空动态 [11] - **统一模型设计**:采用端到端联合优化,覆盖3D感知、预测、规划和场景理解等所有任务,用一个MLLM统一了现有的VLA和VA框架 [11] - 架构关键组件包括:多模态视觉编码器(UniLION)、空间投影器、MLLM主干(基于Qwen2.5-0.5B模型构建)、以及四个专用头部(文本头、3D占用头、占用流头、行为扩散头) [11][17] 数据引擎 - 数据引擎分为三个阶段:场景理解注释(使用InternVL3-78B生成前/后视图描述)、4D空间理解注释(利用地面真实占用和流数据生成问答对)、规划推理注释(基于自车未来轨迹生成规划问答对) [18] 实验结果与分析 - **文本理解能力**:在nuScenes-QA基准测试中达到60.7%的平均准确率,超过OpenDriveVLA-7B模型2.5个百分点;在存在、对象和状态子类别上分别达到85.3%、57.5%和59.1%的准确率 [19][20] - **3D占用体素感知性能**:在Occ3D基准测试上达到46.0%的RayIoU,比之前最先进的OPUS方法提高4.8个百分点;在1m、2m和4m距离上分别达到42.2%、46.7%和49.2%的RayIoU [21][22] - **3D占用和占用流预测性能**:在OpenOcc基准测试上实现49.3%的OccScore和49.3%的RayIoU,将占用流mAVE降至0.509;超越FB-OCC的3D占用RayIoU达10.3个百分点,并将流mAVE从0.591降至0.509;比ALOcc-Flow-3D在OccScore上高出6.3%,在RayIoU上高出7.4% [15] - **轨迹规划性能**:在nuScenes基准测试中,使用自车状态信息时实现0.40m的L2误差和0.11%的碰撞率,碰撞率比ORION降低70%(从0.37%降至0.11%);不使用自车状态信息时,L2误差比VAD低32%(从0.72m降至0.49m) [16] 消融研究与分析 - **文本头部与视觉头部的消融研究**:当文本头和视觉头结合时,与仅视觉设置相比,统一模型的3D占用RayIoU提高1.8%,占用流mAVE降低0.18,规划L2误差降低0.52m,同时保持60.7%的文本理解准确率,证明了统一框架的有效性 [23][24] - **文本数据规模的影响**:使用Qwen-2.5 3B模型并扩大训练数据规模后,模型在占用状态预测的准确率从73%提升到87%,占用类别预测的准确率从14.3%显著提升到59.2% [26] - **多任务学习平衡权重研究**:实验表明,较高的3D占用和流损失权重(1.0)在该任务上性能更好,但在规划准确性和文本理解任务上略有降低,最终实现采用了默认权重1.0 [27][28] - **MLLM隐藏状态重要性权重分析**:分析显示,更深层的Transformer层获得更大的可学习权重,表明高级特征对模型有效性更为关键 [29][30] 可视化结果与能力展示 - DrivePI能够同时生成场景描述、3D占用、占用流、动作和轨迹预测的可视化结果,在粗粒度和细粒度预测之间表现出很强的一致性,验证了其统一语言理解与3D感知能力的有效性 [31] - 在静止等待、直行驾驶和夜间转弯等多种复杂驾驶场景中,DrivePI展示了卓越的性能和适应能力,例如在低光照条件下仍能准确描述环境并生成合理轨迹 [36][39] 主要贡献与未来展望 - 提出了首个统一的空间感知4D MLLM框架DrivePI,无缝集成粗粒度语言空间理解与精细3D感知能力 [39] - 将激光雷达作为补充传感模态,并支持精确的3D感知和预测,增强了系统的可解释性和安全保障 [39] - 尽管仅使用0.5B参数的紧凑MLLM主干网络,其在3D占用和占用流预测方面优于现有基于视觉的模型,同时保持了与现有VLA框架相当的交互能力 [39] - 该框架有望通过语言推理和精细的3D输出,启发未来研究,增强自动驾驶系统的可解释性和可解释决策能力 [38]
赵何娟独家对话李飞飞:“我信仰的是人类,不是AI”
新浪财经· 2025-12-22 13:27
行业趋势与展望 - 空间智能(世界模型)预计将在未来两年内迎来应用级爆发 [1][5][21] - AI发展正从“语言生成”迈向“世界生成”,让机器在连续三维世界中实现“看见-生成-互动” [4][5] - 世界模型正成为产业竞逐的新高地,Google DeepMind等巨头已组建专门团队并发布相关路线 [5] - 生成式AI通过降低复杂任务的门槛,将开启许多意想不到的新市场和应用 [23][24] 公司进展与产品 - World Labs发布了首款商用“世界模型”Marble,可从图片或文字提示生成可持续存在、可自由导航且几何一致的3D世界 [2][4] - Marble模型可导出为Gaussian Splat等格式,支持在网页与VR设备中体验与二次创作,突出了“更大、更清晰、更一致”的特点 [4] - World Labs自2024年获巨额融资以来,始终以开发大型世界模型(LWM)为愿景 [6] - 公司认为3D世界生成技术可应用于数字创意、游戏开发、影视、设计、建筑、VR/AR及机器人仿真等多个领域 [23] 技术路径与瓶颈 - 实现通用人工智能(AGI)需要多把“钥匙”,空间智能是其中关键一环,没有它则不算真正的AGI [25] - 当前发展面临数据瓶颈,这是螺旋形上升过程中的新关键点,与算法同等重要 [31][32][33] - 业界存在一种偏见,即更看重算法而非数据,但所有真正做AI的人都明白数据至少与算法平等重要 [34][35] - 机器人领域的数据尤其难以采集,因为缺乏大规模商业化应用场景,这限制了其发展 [43][47] 竞争格局与市场机会 - AI是一项横向技术,为应用层提供了大量机会,大公司无法完全覆盖,小公司有机会在垂直应用领域做到极致 [54][55] - 显性资源(如数据、算力、人才)的整合优势并非绝对,创造力、时机和执行同样关键,历史上从未有过只有大公司能赢的时代 [53][54] - 有能力开发基础模型的公司(通常需要顶尖人才和特定结构)与专注于应用开发的公司将有不同的市场路径 [55][57] 应用场景分析 - 自动驾驶可被视为一个简化版的世界模型,但其场景相对简单(二维移动、避免碰撞),远复杂于未来需要在三维世界中执行多种操作(如家务)的机器人 [40][41] - 工业机器人因场景单一、数据相对丰富而已有应用,其智能化进程可能更快;日常用机器人的商业化则还有较长的路要走 [44][45][47] - 围绕机器人数据(如模拟数据)的创业公司存在商业机会,但成功取决于市场大小和满足客户需求的能力 [47] 发展理念与价值观 - AI的本质是工具,人类必须掌握选择权和主动权,不能自我放弃 [1][4][70] - 发展的同时必须关注安全与向善,在只追求发展和只强调伦理两个极端之间需要理性平衡 [57][58] - 在AI时代,教育体系急需革命,应利用AI赋能教育者和学生,将节约出的时间和精力用于培养AI无法替代的认知与能力 [65][66][67] - 面对AI可能带来的虚假信息等负面影响,公众教育、制度政策以及人的创造性应对至关重要 [77][78][79]
复杂空间推理新SOTA,性能提升55%!中山大学新作SpatialDreamer
具身智能之心· 2025-12-22 09:22
文章核心观点 - 由MBZUAI与中山大学的研究团队提出的SpatialDreamer框架,通过模拟人类主动探索、心理想象和空间推理的闭环过程,显著提升了多模态大语言模型在复杂空间任务上的性能,为人工智能空间智能的发展开辟了新路径 [1][4][14] 技术框架与核心流程 - SpatialDreamer是一个基于强化学习的框架,旨在通过主动探索、视觉想象与证据融合的闭环过程,赋予MLLMs类人的空间心理模拟能力 [4] - 其闭环推理流程包含三个步骤:1) 探索:推理出最优的自我中心动作(如「前进0.75米」或「左转45度」);2) 想象:调用世界模型生成执行动作后的新视角图像;3) 推理:整合所有累积的视觉证据,生成最终答案 [6] - 该过程使模型从「被动观察」转向「主动目标导向的想象」,实现了在内部三维环境中自主决定行动与推理 [7] 关键技术创新 - 为解决长序列推理任务中奖励稀疏的问题,研究团队提出了GeoPO策略优化方法,该方法包含:1) 树状采样结构,支持回溯与多路径探索;2) 多级奖励设计,融合任务级与步级奖励;3) 几何惩罚机制,对冗余或冲突动作施加惩罚系数(如0.9),以鼓励高效轨迹生成 [8] - GeoPO在提升模型性能的同时,也显著加快了训练收敛速度 [9] - 为引导模型学习「思考-想象-回答」的模式,构建了SpatialDreamer-SFT数据集,包括单轮推理数据以及通过「错误注入 → 自我纠正 → 重建推理链」构建的反思式推理数据 [11] 实验结果与性能表现 - 在SAT基准测试中,SpatialDreamer在真实与合成图像中均达到SOTA,平均准确率分别达93.9%与92.5% [13] - 在MindCube-Tiny基准测试中,整体准确率达到84.9%,较基线模型Qwen2.5-VL-7B提升超过55% [13] - 在VSI-Bench基准测试中,在物体计数、相对方向、路径规划等任务中全面领先,平均准确率达62.2% [13]
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?丨GAIR 2025
雷峰网· 2025-12-20 12:07
文章核心观点 - 具身智能领域仍处于技术路线发散探索阶段,尚未收敛,这为创新提供了机会,但最终目标是实现通用泛化智能,而非回归传统工业自动化 [3][4] - 世界模型在自动驾驶等特定场景已开始应用,主要用于生成海量合成数据以覆盖长尾场景和进行闭环测试,但其与具身智能的结合仍处于早期探索阶段,定义和技术范式尚未统一 [10][11][12][14] - 空间智能是机器人感知和理解环境的关键,其发展建立在SLAM等技术基础上,并引入AI以增强对语义和复杂空间关系的理解,但目前仍面临数据模态不足等挑战 [20][21][22][23] - 具身智能的落地应用面临技术、成本与商业化现实的巨大鸿沟,需在追求通用智能的“星辰大海”与解决工业自动化等迫切需求的“脚踏实地”之间找到平衡 [25][26][27][30] - 数据是驱动技术发展的关键,其获取方式(真机、仿真、生成)的有效性取决于具体任务,业界正在探索不同数据源的最优组合比例 [34][35][38] 具身智能技术发展现状 - 技术路线仍处于发散探索阶段,尚未收敛,高校与产业界需更好分工合作,高校应聚焦交互、人机协同、世界模型等核心问题突破 [3][4] - 单体机器人研究倾向于采用端到端技术路线以降低系统复合误差和延迟,决策层共识是放大视觉语言模型的能力 [5] - 群体机器人的基础是打造柔性、弹性、分布式、灵活的群体架构 [5] - 端到端是一种工程范式,强化学习是一种具体解法,黑箱是一种模式,三者概念不同,不应等同 [6][7] - 实际研究中采用多种解法,包括大量使用强化学习,并以解决问题为唯一目标 [8][9] 世界模型在自动驾驶领域的应用与挑战 - 世界模型在自动驾驶领域主要用于生成海量合成数据以覆盖数据飞轮积累的corner case和之前布局不到的场景 [11] - 与传统方案相比,世界模型能实现闭环测试,将决策链路放在模型内进行优化,这是最大的不同 [11] - 自动驾驶场景相对简单,且早有“闭环仿真器”概念,生成式AI能力的提升使生成的数据真假难辨,提供了大量有价值的训练样本 [12] - 世界模型的定义尚未统一,例如李飞飞侧重像素级重建,而LeCun认为潜在空间表达也算世界模型 [12] - 自动驾驶领域世界模型的状态表征主流仍是视频生成,同时结合雷达、点云等多模态数据以增强信息量和安全性 [13] - 将世界模型与视觉语言动作模型结合,旨在解决离线数据集无法通过模仿学习获得长程思维和未来预测能力的问题 [15][16] - 世界模型有助于解决长程任务的理解和预测难题,能赋能后续的策略学习 [17] 空间智能的定义与发展 - 空间智能定义尚不清晰,其发展部分源于SLAM技术的延续和演进,现在更多采用基于学习的方法 [20] - 空间智能不仅关注空间几何,还增加了对语义信息的关注,包括物体类别、用途、交互方式等 [21] - 机器人目前处理复杂空间关系(如“第一排左边数第四个瓶子”)的能力仍不成熟,这是空间智能需要解决的问题 [22] - 大模型因训练数据源于语言模态而存在空间关系上的“幻觉”,需构建专门数据集与传统SLAM的强空间能力对齐 [23] - 当前视觉语言模型中的视觉多为2D,3D模态较为欠缺,需补足3D信息以解决空间智能问题 [23] 具身智能的落地应用与商业化挑战 - 无人机应用生态中,航拍、农业植保等易落地应用占比可能不到1%,更多高空作业场景(如灭火、清洗、载人)尚未实现 [26] - 应用未普及的最大卡点之一是“不够智能”,依赖规则编写导致开发成本高,难以算过经济账,AI发展带来了解决希望 [27] - 通过AI与大模型结合改进决策能力,被视为实现通用泛化解决问题能力的关键希望 [29] - 产业界存在迫切需求,希望尽快将机器人用于工业自动化,这与技术创业者的通用智能愿景存在差距 [30] - 人形机器人硬件在负载能力、高负载平衡性、运动稳定性及灵巧手方案等方面仍有诸多挑战,离真正“干活”的应用落地尚有距离 [30] - 中美创业环境存在差异,例如Scale AI估值达140亿美元,而国内创业公司估值多在几亿人民币量级,需同时面对宏大愿景与短期商业化的矛盾 [31] - 创业者认为最终成功做成事情比估值高低更重要,并指出中国投资人对技术的耐心因DeepSeek等案例而有所增加 [31][32] 数据获取策略与有效性 - 机器人数据获取主要有真机采集、仿真和视频生成模型三种方式,其有效性需根据具体任务判断,并非真机数据一定最合理 [34][38] - 数据可视为金字塔结构:底层是大量、低成本的互联网或视频数据,用于预训练;中层是合成数据,用于提高任务泛化性;顶层是真机或遥操数据 [34] - 业界正在探索不同数据源的有效比例,例如一种说法是70%的网络视频数据、20%的合成数据和10%的真机数据 [35] - 合成数据是否有效,关键在于其是否针对特定任务有价值,且其表达形式不一定是视频,也可能是潜在的抽象表征 [35][36][37] - 对于足式机器人的基本运动控制任务,可能在纯仿真环境中无需真实数据即可完成,高度依赖任务形式本身 [38]