Workflow
空间智能
icon
搜索文档
一句话搞定多任务出行,高德用空间智能重新定义地图
机器之心· 2025-08-15 12:17
核心观点 - 高德地图通过全面AI化升级 推出全球首个时空感知多智能体协作系统ST-MAC 实现从工具型导航到智能生活服务平台的转型 [22][36][53] - 系统通过多智能体协同运作 将模糊需求转化为动态可执行的个性化方案 覆盖出行规划 生活服务 实时决策等全场景 [25][28][32] - 技术架构整合阿里生态资源 包括通义大模型簇和多模态感知能力 实现从被动响应到主动服务的体验升级 [27][52][47] 产品功能升级 - 智能体"小高老师"支持多模态交互 可处理复杂跨场景需求(如跨城交通组合 亲子行程规划 临时就医等) [16][40][41] - 动态成本博弈机制综合实时路况 排队时长 用户偏好等100多个维度进行最优方案计算 [28][31][33] - 行程规划精确到分钟级 支持语音实时增删途经点 并直接对接酒店预订 门票购买等消费服务 [16][17][12] 技术架构创新 - ST-MAC系统包含需求链智能体(DCA)作为调度核心 协同地图搜索 网页搜索 导航 餐饮等专项智能体 [25][30][27] - 多模态空间感知模型整合定位 天气 实时路况数据 时空意图模型支持高维度需求解析 [28][29] - 系统通过强化学习持续优化 日均处理亿级时空数据脉冲 依托北斗高精度定位实现秒级响应 [51][33] 行业影响 - 重新定义地图行业竞争维度 从功能效率比拼转向体验深度较量 推动行业进入多智能体协同时代 [53][36] - 打破工具型应用边界 整合内容种草(如景点推荐)与消费服务 实现对传统生活服务平台功能的覆盖 [41][52] - 空间智能与多模态交互成为新技术支点 未来竞争焦点在于跨领域服务整合能力与生态协同效应 [53][36]
AI人物志:李飞飞,从移民差生,到AI教母
36氪· 2025-08-14 20:33
「AI人物志」旨在记录影响 AI 历史发展的关键人物,从他们在求学、工作方面的抉择中,一瞥 AI 行业的历史必然、当下焦点和未来趋势。 她是为机器装上"眼睛"的 AI 教母,与团队创建 ImageNet 数据集,推动了深度学习的浪潮;她带领团队开发 Google Cloud AutoML,降低了 AI 技术的使 用门槛,让中小企业也能轻松运用智能工具。 她还是空间智能领域的探索者,凭借对物理世界的敏锐洞察,投身于让 AI 理解并预测空间关系的世界模型。 她曾在餐馆后厨艰辛求生,却凭借对科学的热爱登上世界顶尖学府的讲台;她曾因坚守 AI 伦理原则遭遇争议,却始终不改"技术向善、以人为本"的初 心。 她用数十年的探索之旅证明:AI 的终极意义,不在于冰冷的算法,而在于对人类需求的深切关怀。 今天,我们走进"AI 教母"李飞飞的人生旅途,探寻这位"数据拓荒者"如何通过热爱与坚持,不断推动 AI 行业向前发展。 移民女孩的 AI 梦 1976 年,李飞飞出生于北京,父亲是一名工程师,母亲是一名教师。书房里的工程图纸和电子零件,成为她最早的科学启蒙教材。 童年随家人迁居四川后,所在中学的浓厚学术氛围让她的理科天赋得到充 ...
高德如何造出全球首个地图 AI ?
晚点LatePost· 2025-08-14 17:27
核心观点 - 高德地图全面AI化 将地图从静态工具升级为基于空间智能的AI原生应用 实现从"对话工具"到"行动伙伴"的蜕变 [3][4][13] - 空间智能成为公司战略核心 通过二十年积累的数十万亿级时空数据与AI结合 构建理解物理世界的动态认知能力 [5][6][17] - 产品形态重构为"高德地图2025" 推出全球首个基于地图的AI原生智能体 具备感知-推理-决策-行动的完整能力链 [3][8][10] 技术架构升级 - 从单点AI优化转向统一智能体架构 整合搜索/推荐/行前/行中/行后全流程至同一能力栈 [4] - 建立数据-算法-生态增长飞轮:二十年物理世界数据为基石 空间智能算法为引擎 开放生态为加速器 [19][20] - 双引擎驱动:千锤百炼的导航引擎处理确定性任务 AI引擎探索开放性需求 [16] 数据优势与训练体系 - 拥有全球最复杂道路交通场景训练场 涵盖潮汐车流/人车混行/高速拥堵等多元场景 [6] - 沉淀数十万亿级时空样本 包含道路/建筑/POI/卫星影像/车与人动态等多维数据 [6] - 每日处理海量实时反馈:此路不通/位置偏移/传感器异常等数据持续进入训练闭环 [6] 安全能力突破 - 近视距预警实现车道级识别与毫秒级响应 覆盖前车急刹/占道等突发风险 [6] - 超视距预警通过交通图谱建模推演视线外风险 预警时间窗从数秒拓展至1-2分钟 [6] - 日均安全预警达6000万次 2024年5月成功通过时空异常检测预警高速塌陷事件 [6][7] 产品功能落地 - 推出对话式智能体"小高老师" 由通义大模型簇驱动 具备理解-计划-反思-行动能力 [8] - AI即刻功能:基于用户时空位置与上下文预判需求 高频场景预计算实现秒开秒达 [8] - AI探索功能:针对发散需求使用大模型深度生成方案 提供丰富备选 [8] 差异化推荐逻辑 - 突破纯内容平台"兴趣流"模式 建立"时空性"推荐系统 [9] - 耦合人-地-时-事四维要素 根据本地/异地/熟悉度/时段等变量动态调整推荐策略 [9] 生态战略布局 - 推行"AMAP AI Inside"开放战略 向汽车/机器人/智能眼镜等终端输出空间智能能力 [20][22] - 与阿里云深度共建:获得通义AI大脑支持 同时为阿里云提供真实世界试炼场 [25] - 与支付宝协同实现服务闭环:从决策到行动的无缝衔接 如旅行规划一键执行餐厅预订/门票购买 [25] 行业范式变革 - 竞争维度从"信息量"转向"预判准度" 从功能驱动升级为智能驱动 [17] - 产品本质从问答工具变为先于思考的伙伴 实现全场景出行生活决策辅助 [18] - 公司角色从APP进化为时空智能能力提供商 为智能设备提供物理世界交互基础 [19] 未来应用场景 - 赋能自动驾驶/无人机物流/机器人配送等新兴产业 [27] - 构建城市数字中枢 通过感知人车物事动态提升城市治理效率 [27] - 建立开放的世界模型 为所有智能设备提供物理世界统一常识库 [28] 核心竞争壁垒 - 二十年物理世界动态认知数据无法用金钱或流量速成 [6][12] - 极端场景处理能力(如轮椅导航/无人区导航)反哺主流服务健壮性 [29][30] - 十亿用户规模与真实场景形成的网络效应和数据飞轮 [19][30]
AI迎来关键转折,空间智能爆发临界点已至?
36氪· 2025-08-13 18:39
空间智能的定义与重要性 - 空间智能是人工智能理解、生成、推理并与三维世界交互的能力,是人类和动物智能的核心,历经5.4亿年进化完善,而语言进化仅用不到百万年[1] - 空间智能是感知世界和与物理环境互动的基础,对机器人、智能辅助驾驶、虚拟现实和内容创作等领域不可或缺[1] - 中国工程院院士倪光南指出,AI与空间智能融合是落实国家"人工智能+"行动的关键技术,正在重构三维物理世界并拓展大模型通向物理世界的桥梁[3] 空间智能的技术挑战 - 空间智能开发比语言处理复杂,语言是线性一维的,而三维世界充满动态性和物理规律,从2D图像重建3D结构是数学上的"病态"问题,存在多种解法[6] - 语言数据在互联网上随处可见,但空间数据大多存在于感知中难以直接获取,数据稀缺性带来巨大挑战[6][7] - 维度复杂性挑战:语言是一维序列,现实世界是三维空间与一维时间结合,组合复杂性呈指数级增长,计算需求远超语言模型[6] - 信息获取非适定性挑战:从2D图像重建3D信息需要模拟人类的多模态感知能力[6] - 生成与重建二元性挑战:空间智能系统必须同时具备生成虚拟世界和重建真实物理世界的能力,要求算法遵守物理规律并捕捉细节[6] 空间智能的五层技术框架 - 第一层:底层三维属性重建,包括深度感知、相机定位、点云构建与动态跟踪等基础组件[8] - 第二层:三维场景组成要素重建,包括人物、物体和建筑结构等元素的几何重建,神经辐射场和3D高斯点云等技术实现高度真实感细节还原[9] - 第三层:完整的4D动态场景重建,引入时间维度构建动态表征系统,分为通用场景4D重建和人体运动专项建模[9] - 第四层:场景内部组成部分交互关系重建,建立场景元素间动态交互模型,重点研究人体与物体运动关联[10] - 第五层:引入物理规律和约束条件,整合重力、摩擦等基础物理规律,扩展至物体形变和碰撞检测等复杂物理现象[10][11] 行业应用与案例 - 自动驾驶领域:空间智能帮助辅助驾驶系统预测车辆行人行为并调整行车策略,提高安全性与效率[12] - 日本东京进行3D数字孪生化,绝对位置精度10cm以内,包含LiDAR点云和实时交通数据,预计2030年实现完整数字孪生城市[15] - 中国MogoMind模型整合车辆轨迹和交通流量等数据,具备六大关键能力:实时全局感知、物理认知理解、通行能力推理计算、最优路径规划、数字孪生和风险预警[16] - 医疗领域:空间智能对CT、MRI等影像数据进行三维重建分析,帮助医生更准确诊断疾病并提供手术导航[17] - 数字孪生城市提供实时反馈并随城市动态调整状态,使城市管理更加灵活高效,如新南威尔士州通过该技术实时调整交通减少拥堵[16] 技术演进与未来展望 - 空间智能代表AI领域崭新思维方式,将感知信息转换为外部环境抽象模型,使智能体能够预测和理解世界动态变化[12] - 空间智能是AI从"自发感知"走向"自主认知"的迈进,突破信息空间局限向真实三维世界扩展[12] - 英伟达科学家Jim Fan表示未来城市管理将依赖实时图形引擎中的模拟和集群系统,使机器人能快速适应复杂环境[16] - 通过高精度模拟环境训练,机器人能获得丰富训练数据并在复杂场景中快速学习,推动从虚拟到现实世界的顺利迁移[16]
一场AI革命,正在重塑10亿人的出行
36氪· 2025-08-13 16:08
空间智能行业趋势 - 空间智能被视为人工智能重要演化方向 旨在理解三维空间和时间中感知 推理和行动的能力[1] - 行业共识认为空间智能是最具确定性AI赛道之一 但仍处"试验田"阶段 需要长期场景深耕和数据积累[12] - 未来空间智能可能成为连接物理世界与数字世界的路由器 在本地生活 低空经济和具身智能等领域产生重大影响[13] 高德地图战略布局 - 公司发布全球首个AI原生地图应用高德地图2025 推动AI从对话工具蜕变为行动伙伴[1] - 基于20年积累构建厘米级路网数字底座和数十万亿量级导航行为数据 建立全球稀缺动态时空知识引擎[4] - 超10亿用户基础使全面AI化面临巨大挑战 需平衡不同用户需求并确保原有体验不受影响[2][3] 技术架构创新 - 从产品角度推动地图产品向全面AI化形态转变 而非单点优化或局部改进[4] - 构建AI出行智能体框架 与特有空间数据和工具高度对齐适配 能理解复杂空间关系和用户需求[6] - 采用"时间递进+空间演进"双轴排序模型 基于当前时空位置精准预判即时出行需求[9] 产品功能升级 - 核心交互模式通过与主智能体"小高老师"语音交流实现 具备强大语义理解能力[7] - AI即刻功能以事件方式重组用户需求 在出行全生命周期提供主动服务[9] - 完整覆盖行前决策 途中导航与行后服务的全周期需求 包括AI领航 AI探索及AR打卡等全场景功能[9] 商业化应用前景 - 空间智能有望重塑本地生活消费决策链条 推动用户需求从"怎么去"跃迁到"怎么玩"[13] - 系统可结合用户情绪状态 身体疲惫度 历史文化及社交媒体热点推荐目的地和最佳拍摄时段[13] - 将成为智慧城市及各类机器人的隐形骨架 在低空经济等新兴产业发挥关键作用[13]
拿下3D生成行业新标杆!昆仑万维Matrix-3D新模型鲨疯了,一张图建模游戏场景
量子位· 2025-08-12 10:27
3D生成技术突破 - Matrix-3D由昆仑万维推出,支持从单图像生成高质量、可自由探索的3D全景场景,几何关系准确且色彩自然[10][11][15] - 模型在主流评估指标上超越360DVD、Imagine360和GenEx,取得全景视频生成任务的SOTA成绩[11] - 支持360°自由视角浏览、大范围场景生成及自定义运动轨迹控制,泛化能力显著优于现有方法[21][25][28] 核心技术优势 - 采用全景图而非透视图作为中间表达,突破视角范围限制,提升沉浸感与下游应用兼容性[46][47][49] - 通过网格渲染策略增强几何一致性与色彩一致性,避免噪声条纹问题[54][55] - 提供双路径3D重建方案:前馈神经网络方案10秒完成生成,3DGS优化方案实现精细场景[40][68] 数据与训练创新 - 自建Matrix-Pano数据集包含116K条全景视频序列(22M帧),覆盖504个3D场景及多样天气光照条件[64][65] - 训练中引入LoRA微调与Cross Attention机制,提升生成精度与控制能力[53][60][62] - 采用自动化轨迹生成系统,确保视频物理合理性与工业级平滑效果[69][70] 公司战略布局 - 昆仑万维持续加码空间智能领域,Matrix系列已涵盖3D场景生成与可交互视频生成,形成技术矩阵[12][75][85] - 2024年研发费用达15.4亿元(同比+59.5%),研发团队1554人占比73.41%,资源投入行业领先[87][88] - 技术路径覆盖"AI基础研究-基座模型-产品应用"全链条,目标构建AGI关键能力[83][84][89] 行业应用前景 - 3D生成技术可赋能VR虚拟现实、游戏开发及影视制作,推动数字世界内容生产效率[77] - 空间智能被视为实现AGI的核心技术,自动驾驶与具身智能为物理世界重要落地方向[78][80] - 开源策略加速生态构建,Matrix-Game与Matrix-3D均为工业界首批10B+级空间智能开源模型[12][82]
滨江物业与宇泛智能达成深度合作 开启智慧物业新范式
证券时报网· 2025-08-11 21:34
合作概述 - 滨江服务与宇泛智能达成深度合作 启动覆盖近8000万平方米的"AI+物业"行业新范式 [1] - 合作聚焦AI智能化发展及机器人应用领域 包括方案研发 产品试用及市场商用推广 [1] - 目标包括运营效率提升 能耗管理与降低成本 服务体验升级以及机器人应用服务 [1] 行业背景 - 物业管理行业面临"不可能三角"困境 即人力成本刚性上涨 服务响应速度 收费控制难度和利润提升压力并存 [2] - 2021年至2024年间 TOP50物业企业均将降本增效列为数字化战略首要目标 96%的企业重视以客户需求为核心 [2] - 政府工作报告首次写入"好房子" 明确提出"安全 舒适 绿色 智慧"要求 [2] 技术应用与实施规划 - 通过AI替代人工重复流程提升服务响应效率 运用无人机与机器人自动巡检预警设施隐患 [3] - 对照明 空调等系统进行智能化改造实现能耗动态精准调节 引入无感通行 智能助理等技术升级业主体验 [3] - 合作分短 中 长期推进:短期聚焦智能巡检与空调照明节能 中期用AI替代人力实现公共区域自动化 长期在机器人能力成熟后进入家庭提供个性化服务 [3] 宇泛智能技术优势 - 采用AIoT平台和AI硬件服务全场景智慧城市建设 2020年12月完成近5亿元B2轮融资 2023年5月完成C1轮融资 [4] - 提出"空间智能"理念 通过AI技术赋能住宅 公共空间和城市空间 [4] - 创新"AI硬件即服务"模式 将工地场景安全管理模型迁移至社区应用使开发周期缩短80% [5] 市场定位与协同效应 - 滨江服务在杭州高端住宅市场占有率超50% 拥有高净值 高要求客户群 [5] - 宇泛智能早期聚焦房地产增量市场 后战略转向提升存量物业智能化水平 分为住宅型物业 商业物业和城市物业三大类 [4] - 双方计划为重点小区定制个性化智慧服务方案 探索未来社区可能性 [5] 未来发展方向 - 宇泛智能将从室外向室内拓展 重点研发幕墙清洁机器人和公共区域立体清洁技术 [5] - 未来3-5年物业服务重点在公区服务如巡逻 倒垃圾 送快递等 提升小区门口到家门口的服务体验 [6] - 未来5-10年可能将AI拓展至入户服务 实现更多家庭场景的AI赋能 [6]
AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河
AI前线· 2025-08-10 13:33
多模态智能体的发展现状与挑战 - 实现智能体"看懂、想透、做好"需整合视觉理解、语言推理与物理执行能力,是多模态领域的核心挑战 [5] - 视觉输入维度极高且涉及三维结构理解,需结合交互知识(如物体操作判断),当前技术距离理想目标仍有差距 [6] - 空间智能对机器人操作至关重要,但现有视觉-语言-行动模型(VLA)因缺乏物体精确定位,实际成功率远低于实用水平 [7][8] 技术落地的可行路径 - 从"半结构化"场景(如产线灵活操作)切入是务实选择,介于高重复性结构化与全开放环境之间 [11] - 工业场景中,危险操作或遥操作结合智能的闭环迭代可驱动技术进步,但家庭等开放环境落地需超5年时间 [10][11] - 视觉与三维表征方法尚未统一,斯坦福团队主张三维内部表示是建模关键,但技术鸿沟仍需逐步填补 [9] 工业界研究的平衡之道 - 研究价值评估需兼顾学术与应用双维度,避免仅追求论文发表而忽视实际问题解决 [12] - 产品开发与研究探索节奏差异显著,需给予研究人员探索空间,同时确保方向与产品关联 [14] - 目标检测等基础问题仍存挑战,突破后将带来广泛价值,需坚持本质问题研究而非跟风热点 [13] 人才培养与底层能力 - 系统级能力(如分布式计算、GPU架构优化)比模型调参经验更关键,FlashAttention案例显示基础优化可推动领域进步 [17][18] - 计算机科学基础学科训练优于过早专攻应用方向,扎实的体系结构理解能适应技术迭代 [20] - AI时代程序员需超越基础编码,通过协作提升编程深度,聚焦AI无法替代的贡献 [19][20] 行业会议与趋势聚焦 - AICon大会聚焦Agent、多模态等方向,探讨大模型降本增效案例,反映企业级AI应用趋势 [3][21]
腾讯加码空间智能大模型,这一赛道正在成为下一个风口
首席商业评论· 2025-08-09 12:17
腾讯混元3D模型的技术突破 - 腾讯在2025世界人工智能大会上正式发布并开源「混元3D世界模型1.0」,支持通过文本或图像生成完整3D场景,具备360°沉浸式漫游、资产导出为标准mesh格式等功能,实现从"AI能画"到"人能用"的跃迁 [3] - 该模型在Hugging Face平台下载量已超过230万,成为最受欢迎的3D开源模型之一 [3] - 混元3D模型从"重建一个物体"升级到"生成一个场景"再到"理解一个世界",目标是生成创作者可直接使用的可交付资产 [5] - 在生成质量上全面超过SOTA开源模型,包括纹理细节、美学质量、指令遵循等评价维度 [7] - 采用创新的"2D+3D结合"混合路线,既保持空间结构稳定性又丰富交互动态效果,解决了纯3D生成多样性不足和纯2D视频生成空间不稳定的问题 [8] 混元3D模型的应用价值 - 对游戏开发者是生产力革命,可将场景搭建时间从数周/月缩短至一句指令生成原型,极大降低试错成本并提升资产生产效率 [9] - 对普通3D爱好者彻底降低创作门槛,无需专业建模软件即可创造虚拟世界并导入Vision Pro等设备体验 [9] - 支持基于文本/图像输入生成360度沉浸式三维场景,如输入"一个破旧的加油站,夜晚下着雨,远处有霓虹灯"即可构建完整空间环境 [8] - 生成的世界支持自由漫游交互,具有空间连续性,解决了同类模型视角丢失和缺乏连续性的痛点 [8] 空间智能与世界模型的发展 - 空间智能被认为是AI下一个创新重要节点,让机器理解三维物理世界,实现"我看、我动、我思"的融合 [11][12] - 世界模型是通用智能体的必要条件,能进行内部模拟、计划调整和跨模态推理,体现具身智能的高级阶段 [13] - 谷歌DeepMind研究证明,任何能完成复杂任务的通用AI体内部必然编码了世界模型,AI能力上限取决于世界模型的保真度 [13][14] - 行业巨头纷纷布局:英伟达推出Cosmos世界模型,谷歌DeepMind组建专门团队并发布Genie 3,李飞飞创立World Labs等 [14] 腾讯的AI战略布局 - 2024年腾讯AI相关资本开支达767亿元,同比增长221%,计划2025年进一步加大投入占收入十几个百分点 [24] - 混元大模型形成完整梯队,从0.5B-7B小模型到52B大模型和MoE架构模型,覆盖端侧到云端 [24] - 混元TurboS在全球权威评测中排名前八,理科推理提升超10%,代码能力提升24%,竞赛数学成绩提升39% [24] - 在B端升级"腾讯云智能体开发平台",整合RAG技术和Agent能力,帮助企业激活私域知识构建专属智能体 [26] - 通过乐享知识库等产品帮助企业实现知识管理数字化,案例显示科沃斯应用后营销效率显著提升并节省百万运营成本 [27]
赛道Hyper | 高德地图AI化:技术推动行业迭代
华尔街见闻· 2025-08-05 10:06
作者:周源/华尔街见闻 作为拥有二十年数据积累的地图服务平台,此次高德地图转型,标志着从传统导航工具向智能出行服务 体系的试探性跨越。 底层逻辑:突破瓶颈 当前,地图服务行业已进入存量竞争阶段,传统导航工具同质化严重,用户增长红利逐渐消退。 主流地图应用的核心功能,如路线规划、实时路况等已基本趋同,比如高德地图、腾讯地图和百度地 图,基本没差别,用户切换成本降低,单纯依靠功能叠加,也难以形成差异化优势。 高德地图此时全面押注AI,本质上是通过技术重构产品形态,从"工具属性"向"服务生态"转型,以突破 增长瓶颈。 用户需求的进一步升级,也迫使地图服务商转型,高德的选择是向智能化演进。 随着移动互联网的深度渗透,用户对地图的需求已从"到达目的地"延伸至"出行全场景服务",包括行前 决策、行中体验优化、行后消费衔接等。 比如,商务出行用户不仅想要导航至会议地点,还希望获得周边停车、餐饮、临时办公空间的一体化解 决方案;旅游用户则期待根据实时天气、人流密度动态调整游玩路线。 8月4日,阿里巴巴集团旗下高德地图宣布完成全面AI化改造,推出被其定义为"全球首个AI原生地图应 用"的高德地图2025版本。 即日起,用户可通 ...