Workflow
Grounding DINO 1.5
icon
搜索文档
视启未来——两大AI领军人物看中的"空间智能模型"公司
投中网· 2026-01-26 10:12
文章核心观点 - 文章核心观点认为,在“空间智能模型”领域,中国已处于全球领先地位,而非处于追赶阶段,并以视启未来公司及其创始人张磊博士的技术成果作为例证 [2][5] - 视启未来凭借其全球领先的视觉与空间智能模型技术,不仅实现了快速产业落地,更为具身智能的通用化发展提供了创新且务实的解决方案,发展前景广阔 [8][11][14] 公司背景与团队实力 - 公司创始人张磊博士是AI奠基人张钹院士的得意门生,拥有超过200篇顶会论文,Google Scholar引用超6.2万次,是IEEE Fellow,学术背景深厚 [5] - 公司顾问团队由张钹院士和沈向洋院士组成,两位AI界领军人物为公司提供了方向性指导,并全力支持其技术产业化 [6][8] - 公司是昊辰资本的天使轮投资项目,在技术发布初期即建立了紧密联系并获得投资 [6] 技术成就与全球地位 - 张磊博士团队于2024年发布的通用视觉大模型Grounding DINO 1.5,在COCO、LVIS等国际权威测试中以绝对优势力压谷歌、Meta、微软等巨头,获得视觉领域SOTA(当前最优)桂冠 [5] - 同年推出的DINO-X模型凭借“泛化感知”能力,成为李飞飞团队、英伟达、腾讯Robotics X实验室等国内外顶尖机构在发布重要研究成果时的重点引用对象 [5] - Grounding DINO 1.5模型获得了IDEA研究院创院理事长沈向洋院士的罕见转发推荐,沈向洋转发频率极低,此举被视为对中国原创AI模型的认可 [5] - 公司最新的3D分割模型OVSeg3R在开放词汇(Open-vocabulary)3D分割任务中,mAP达到40.7%,mAP50达到53.0%,mAP25达到59.5%,全面刷新了全球同类模型的分数 [13] 商业模式与产业落地 - 公司成立之初即确立“技术要落地,研究要前瞻”的双措并举方针 [8] - 成立仅四个月,公司便凭借DINO-X模型的“泛化感知”能力,与招商局集团、美团机器人以及安凯微建立了深度合作,在工业、低空经济及智能家居场景实现技术落地 [8] - 通过产业合作,公司让泛化感知技术能够提供精准化、个性化的AI增值服务,快速构建起可持续的商业模式 [8] 技术路线与研发方向 - 公司的核心目标是实现空间感知模型与VLA(视觉-语言-动作)架构的结合,构建更符合物理世界规律的智能系统 [9] - 3D空间感知是公司的重点研究方向,旨在将2D感知升级为3D理解,解决具身智能中通过视觉判断物体空间位置、表面结构及最优操作角度的关键问题 [9][11] - 公司的技术演进路径清晰:从2D物体检测与识别出发,逐步向3D空间理解延伸,最终实现机器人与物理世界的精准交互 [11] - 公司以2D空间理解为根基,增加连续的空间维度变化,从而延伸到3D空间,为3D理解提供坚实支撑 [12] 对具身智能的贡献与创新 - 张磊博士认为具身智能的本质是机器人要实现“看得清、想得明白、做得动”,必须以视觉感知为核心,强调“视觉是机器与环境交互的基础”,行动依赖视觉与行动的闭环 [11] - 针对当前VLA架构产业落地的核心瓶颈(模型架构可行性存疑、训练数据量严重不足),公司提供了创新思路:通过引入通用感知能力,极大减少VLA对特定操作数据的依赖,放大现有数据利用效率,从而降低数据依赖,为规模化应用创造条件 [11][14] - 公司研发的OVSeg3R模型正在打破制约具身智能发展的“数据量级不足”的瓶颈 [12] - 与特斯拉、英伟达、李飞飞团队、杨立昆团队等全球科技界的多元探索路径相比,公司的研究方向为“空间智能”的竞争提供了务实的创新方向 [12]