3D人工智能 - 财报，业绩电话会，研报，新闻

3D人工智能

搜索文档

机器之心· 2025-08-04 17:01

3D视觉语言模型3D-R1的核心创新 - 提出通用型三维视觉语言模型3D-R1，在7项3D任务中实现显著性能提升，成为3D人工智能系统新范式[4][20] - 突破现有3D VLM两大局限：空间理解不足（依赖固定视角）和推理能力薄弱（缺乏高质量训练数据）[7][15] - 通过构建Scene-30K数据集（3万条含逻辑链条样本）、强化学习机制（GRPO优化）和动态视角选择策略（6张最优视图）实现三重创新[10][14][18] 技术实现细节 - **数据集构建**：融合ScanQA等数据集，采用预训练模型生成场景描述+大语言模型生成推理链+规则过滤的三阶段流程[12][13] - **强化学习**：设计格式奖励（输出结构）、感知奖励（IoU定位）、语义奖励（CLIP相似度）三类信号优化推理过程[17][22] - **动态视角**：基于文本相关性、空间覆盖度、多模态对齐（CLIP）三项指标选择关键视角，权重可学习[19][23] 性能表现 - **密集描述任务**：ScanRefer数据集C@0.5指标达86.45（超越LLaVA-3D的84.1），Nr3D数据集C@0.5达56.98[24][25] - **3D问答任务**：ScanQA测试集w/ object指标全面领先，Ct达94.65（对比BridgeOA 83.75），B-4@0.5达35.34[26] - **复杂任务**：对话任务Ct值280.34（GPT-4o为200.34），规划任务Ct值230.5（Gemini 2.5 Pro为215.34）[27] 应用场景 - 家用机器人（空间决策）、元宇宙/VR（场景互动）、自动驾驶（街景理解）、工业检查（风险识别）四大领域落地潜力显著[29][31] - 未来将拓展至机器人控制、交互式问答、自动家居整理等现实场景[29] 研究团队背景 - 核心成员包括上海工程技术大学硕士生（三维视觉语言模型）、北京大学助理教授（ACM Multimedia最佳论文提名获得者）等[30][31] - 论文发表于arXiv（编号2507.23478），技术细节可公开获取[5]

淘宝Vision今年将布局线下正在酝酿未来旗舰项目

快讯· 2025-06-05 18:30

淘宝Vision线下布局 - 淘宝Vision今年将进军线下市场正在酝酿未来旗舰店项目旨在融合线上沉浸式购物体验与线下商业模式 [1] - 首家概念店已在阿里巴巴总部试运行采用邀约制体验首批展示小米SU7虚拟试车和智能家居等场景 [1] - 将推出业界首款线下场景完全模拟真人的导购数字人首个合作项目与伯希和合作主要应用于电商导购场景 [1] 技术创新应用 - 淘宝最新的3D人工智能数字人将在未来旗舰店亮相这是公司线下商业场景的重要技术突破 [1] - 虚拟试车等沉浸式体验技术将成为未来旗舰店的核心展示内容体现公司线上线下融合的战略方向 [1]