Workflow
时空智能
icon
搜索文档
AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型
量子位· 2025-04-15 11:54
多模态大语言模型(MLLM)时空智能评测 - 核心观点:当前最先进的多模态大语言模型在精确空间时间理解任务上表现不佳,距离实际应用需求仍有显著差距 [1][12][20] - 研究团队推出首个MLLM时空智能评测基准STI-Bench,聚焦真实世界视频输入和定量化空间-时间理解能力评估 [4][6] STI-Bench评测框架 - 数据来源:300+真实世界视频,覆盖毫米级(桌面)、厘米级(室内)、分米级(户外)三类场景 [6] - 评测任务:8项任务分静态空间理解(尺度度量/空间关系/3D定位)和动态时序理解(位移路径/速度加速度/轨迹描述等) [6] - 问答数据集:2000+对高质量QA,基于GPT-4o生成并经过人工校准 [8] 模型表现分析 - 整体表现:最佳模型Qwen2 5-VL-72B和Gemini-2 5-Pro准确率仅41 3%和40 9%,远低于实际应用可靠性阈值 [11][12] - 场景差异:户外场景表现最佳(Qwen2 5-VL达49 24%),室内和桌面环境普遍低于40% [14][17] - 开源突破:Qwen2 5-VL-72B超越所有专有模型,成为开源社区亮点 [13] 核心能力缺陷 - 定量空间缺陷:单目视频中物体尺寸/距离估计不准,3D信息推断困难(尺度度量最高仅34 2%) [15][17] - 动态理解短板:跨帧运动特征计算能力弱(位移路径长度最佳不足33%,速度加速度最高36 9%) [16][17] - 多模态整合不足:文本指令与视觉内容协同处理能力薄弱 [18] 行业影响与资源 - 研究价值:为具身智能和自动驾驶领域提供MLLM能力评估标准,指明改进方向 [19][21] - 开源资源:论文/代码/数据已公开,涵盖arXiv论文、GitHub代码库和HuggingFace数据集 [22]
救援互助联盟:以AI推动户外救援向「精准式救援」升级
雷峰网· 2025-03-28 16:24
跨界合作与生态构建 - 救援互助联盟新增vivo、OPPO、比亚迪仰望、千寻定位、星图维天信等成员,共同推动运用北斗卫星通信和AI技术打造"数字化救援一张图"[2] - 联盟由高德地图联合蓝天救援队、曙光救援同盟等机构成立,是国内首个基于地图平台的救援协作组织[2] - 多方协作通过信息共享平台整合资源,实现安全提醒、通信联络、位置共享等功能,打破救援力量分散局面[6] 技术应用与救援效率 - 高德地图APP支持卫星求救功能,可推送区域天气、信号状态、精准位置等信息至最近救援力量[6] - 时空智能技术使西藏哲蚌寺后山救援时间从预计5小时缩短至2小时20分钟,效率提升超50%[8] - AI技术可预判无网络区域并自动提醒用户记录轨迹,遇险时快速解析坐标并匹配最佳救援力量[8] 产品功能升级 - 卫星求救新增消息回复功能,求救者可查看救援队实时位置,缓解焦虑情绪[11] - 新增北斗卫星通信支持,与天通卫星形成双星协同,覆盖荣耀、vivo、OPPO等数十款机型[11] - 功能迭代后救助案例覆盖北京、辽宁、云南等全国多地,半年内成功救援近60人[8][11] 行业影响与案例 - 救援互助联盟通过生态协作降低搜救成本,实现"精准化救援"目标[6] - 典型案例显示,数字化救援系统显著优化偏远地区定位和路线规划效率[8] - 技术升级推动"底图"向"数字化救援一张图"演变,引入更多合作伙伴和实用功能[8]