3D人工智能

搜索文档
3D-R1:让AI理解3D世界的下一步
机器之心· 2025-08-04 17:01
3D视觉语言模型3D-R1的核心创新 - 提出通用型三维视觉语言模型3D-R1,在7项3D任务中实现显著性能提升,成为3D人工智能系统新范式[4][20] - 突破现有3D VLM两大局限:空间理解不足(依赖固定视角)和推理能力薄弱(缺乏高质量训练数据)[7][15] - 通过构建Scene-30K数据集(3万条含逻辑链条样本)、强化学习机制(GRPO优化)和动态视角选择策略(6张最优视图)实现三重创新[10][14][18] 技术实现细节 - **数据集构建**:融合ScanQA等数据集,采用预训练模型生成场景描述+大语言模型生成推理链+规则过滤的三阶段流程[12][13] - **强化学习**:设计格式奖励(输出结构)、感知奖励(IoU定位)、语义奖励(CLIP相似度)三类信号优化推理过程[17][22] - **动态视角**:基于文本相关性、空间覆盖度、多模态对齐(CLIP)三项指标选择关键视角,权重可学习[19][23] 性能表现 - **密集描述任务**:ScanRefer数据集C@0.5指标达86.45(超越LLaVA-3D的84.1),Nr3D数据集C@0.5达56.98[24][25] - **3D问答任务**:ScanQA测试集w/ object指标全面领先,Ct达94.65(对比BridgeOA 83.75),B-4@0.5达35.34[26] - **复杂任务**:对话任务Ct值280.34(GPT-4o为200.34),规划任务Ct值230.5(Gemini 2.5 Pro为215.34)[27] 应用场景 - 家用机器人(空间决策)、元宇宙/VR(场景互动)、自动驾驶(街景理解)、工业检查(风险识别)四大领域落地潜力显著[29][31] - 未来将拓展至机器人控制、交互式问答、自动家居整理等现实场景[29] 研究团队背景 - 核心成员包括上海工程技术大学硕士生(三维视觉语言模型)、北京大学助理教授(ACM Multimedia最佳论文提名获得者)等[30][31] - 论文发表于arXiv(编号2507.23478),技术细节可公开获取[5]
淘宝Vision今年将布局线下 正在酝酿未来旗舰项目
快讯· 2025-06-05 18:30
淘宝Vision线下布局 - 淘宝Vision今年将进军线下市场 正在酝酿未来旗舰店项目 旨在融合线上沉浸式购物体验与线下商业模式 [1] - 首家概念店已在阿里巴巴总部试运行 采用邀约制体验 首批展示小米SU7虚拟试车和智能家居等场景 [1] - 将推出业界首款线下场景完全模拟真人的导购数字人 首个合作项目与伯希和合作 主要应用于电商导购场景 [1] 技术创新应用 - 淘宝最新的3D人工智能数字人将在未来旗舰店亮相 这是公司线下商业场景的重要技术突破 [1] - 虚拟试车等沉浸式体验技术将成为未来旗舰店的核心展示内容 体现公司线上线下融合的战略方向 [1]