Grounding DINO 1.5 - 财报，业绩电话会，研报，新闻

Grounding DINO 1.5

搜索文档

投中网· 2026-01-26 10:12

文章核心观点 - 文章核心观点认为，在“空间智能模型”领域，中国已处于全球领先地位，而非处于追赶阶段，并以视启未来公司及其创始人张磊博士的技术成果作为例证 [2][5] - 视启未来凭借其全球领先的视觉与空间智能模型技术，不仅实现了快速产业落地，更为具身智能的通用化发展提供了创新且务实的解决方案，发展前景广阔 [8][11][14] 公司背景与团队实力 - 公司创始人张磊博士是AI奠基人张钹院士的得意门生，拥有超过200篇顶会论文，Google Scholar引用超6.2万次，是IEEE Fellow，学术背景深厚 [5] - 公司顾问团队由张钹院士和沈向洋院士组成，两位AI界领军人物为公司提供了方向性指导，并全力支持其技术产业化 [6][8] - 公司是昊辰资本的天使轮投资项目，在技术发布初期即建立了紧密联系并获得投资 [6] 技术成就与全球地位 - 张磊博士团队于2024年发布的通用视觉大模型Grounding DINO 1.5，在COCO、LVIS等国际权威测试中以绝对优势力压谷歌、Meta、微软等巨头，获得视觉领域SOTA（当前最优）桂冠 [5] - 同年推出的DINO-X模型凭借“泛化感知”能力，成为李飞飞团队、英伟达、腾讯Robotics X实验室等国内外顶尖机构在发布重要研究成果时的重点引用对象 [5] - Grounding DINO 1.5模型获得了IDEA研究院创院理事长沈向洋院士的罕见转发推荐，沈向洋转发频率极低，此举被视为对中国原创AI模型的认可 [5] - 公司最新的3D分割模型OVSeg3R在开放词汇（Open-vocabulary）3D分割任务中，mAP达到40.7%，mAP50达到53.0%，mAP25达到59.5%，全面刷新了全球同类模型的分数 [13] 商业模式与产业落地 - 公司成立之初即确立“技术要落地，研究要前瞻”的双措并举方针 [8] - 成立仅四个月，公司便凭借DINO-X模型的“泛化感知”能力，与招商局集团、美团机器人以及安凯微建立了深度合作，在工业、低空经济及智能家居场景实现技术落地 [8] - 通过产业合作，公司让泛化感知技术能够提供精准化、个性化的AI增值服务，快速构建起可持续的商业模式 [8] 技术路线与研发方向 - 公司的核心目标是实现空间感知模型与VLA（视觉-语言-动作）架构的结合，构建更符合物理世界规律的智能系统 [9] - 3D空间感知是公司的重点研究方向，旨在将2D感知升级为3D理解，解决具身智能中通过视觉判断物体空间位置、表面结构及最优操作角度的关键问题 [9][11] - 公司的技术演进路径清晰：从2D物体检测与识别出发，逐步向3D空间理解延伸，最终实现机器人与物理世界的精准交互 [11] - 公司以2D空间理解为根基，增加连续的空间维度变化，从而延伸到3D空间，为3D理解提供坚实支撑 [12] 对具身智能的贡献与创新 - 张磊博士认为具身智能的本质是机器人要实现“看得清、想得明白、做得动”，必须以视觉感知为核心，强调“视觉是机器与环境交互的基础”，行动依赖视觉与行动的闭环 [11] - 针对当前VLA架构产业落地的核心瓶颈（模型架构可行性存疑、训练数据量严重不足），公司提供了创新思路：通过引入通用感知能力，极大减少VLA对特定操作数据的依赖，放大现有数据利用效率，从而降低数据依赖，为规模化应用创造条件 [11][14] - 公司研发的OVSeg3R模型正在打破制约具身智能发展的“数据量级不足”的瓶颈 [12] - 与特斯拉、英伟达、李飞飞团队、杨立昆团队等全球科技界的多元探索路径相比，公司的研究方向为“空间智能”的竞争提供了务实的创新方向 [12]

空间智能模型

具身智能

Artificial Intelligence

Artificial Intelligence

Grounding DINO 1.5

DINO-X

OVSeg3R