Workflow
OVSeg3R
icon
搜索文档
视启未来——两大AI领军人物看中的"空间智能模型"公司
投中网· 2026-01-26 10:12
文章核心观点 - 文章核心观点认为,在“空间智能模型”领域,中国已处于全球领先地位,而非处于追赶阶段,并以视启未来公司及其创始人张磊博士的技术成果作为例证 [2][5] - 视启未来凭借其全球领先的视觉与空间智能模型技术,不仅实现了快速产业落地,更为具身智能的通用化发展提供了创新且务实的解决方案,发展前景广阔 [8][11][14] 公司背景与团队实力 - 公司创始人张磊博士是AI奠基人张钹院士的得意门生,拥有超过200篇顶会论文,Google Scholar引用超6.2万次,是IEEE Fellow,学术背景深厚 [5] - 公司顾问团队由张钹院士和沈向洋院士组成,两位AI界领军人物为公司提供了方向性指导,并全力支持其技术产业化 [6][8] - 公司是昊辰资本的天使轮投资项目,在技术发布初期即建立了紧密联系并获得投资 [6] 技术成就与全球地位 - 张磊博士团队于2024年发布的通用视觉大模型Grounding DINO 1.5,在COCO、LVIS等国际权威测试中以绝对优势力压谷歌、Meta、微软等巨头,获得视觉领域SOTA(当前最优)桂冠 [5] - 同年推出的DINO-X模型凭借“泛化感知”能力,成为李飞飞团队、英伟达、腾讯Robotics X实验室等国内外顶尖机构在发布重要研究成果时的重点引用对象 [5] - Grounding DINO 1.5模型获得了IDEA研究院创院理事长沈向洋院士的罕见转发推荐,沈向洋转发频率极低,此举被视为对中国原创AI模型的认可 [5] - 公司最新的3D分割模型OVSeg3R在开放词汇(Open-vocabulary)3D分割任务中,mAP达到40.7%,mAP50达到53.0%,mAP25达到59.5%,全面刷新了全球同类模型的分数 [13] 商业模式与产业落地 - 公司成立之初即确立“技术要落地,研究要前瞻”的双措并举方针 [8] - 成立仅四个月,公司便凭借DINO-X模型的“泛化感知”能力,与招商局集团、美团机器人以及安凯微建立了深度合作,在工业、低空经济及智能家居场景实现技术落地 [8] - 通过产业合作,公司让泛化感知技术能够提供精准化、个性化的AI增值服务,快速构建起可持续的商业模式 [8] 技术路线与研发方向 - 公司的核心目标是实现空间感知模型与VLA(视觉-语言-动作)架构的结合,构建更符合物理世界规律的智能系统 [9] - 3D空间感知是公司的重点研究方向,旨在将2D感知升级为3D理解,解决具身智能中通过视觉判断物体空间位置、表面结构及最优操作角度的关键问题 [9][11] - 公司的技术演进路径清晰:从2D物体检测与识别出发,逐步向3D空间理解延伸,最终实现机器人与物理世界的精准交互 [11] - 公司以2D空间理解为根基,增加连续的空间维度变化,从而延伸到3D空间,为3D理解提供坚实支撑 [12] 对具身智能的贡献与创新 - 张磊博士认为具身智能的本质是机器人要实现“看得清、想得明白、做得动”,必须以视觉感知为核心,强调“视觉是机器与环境交互的基础”,行动依赖视觉与行动的闭环 [11] - 针对当前VLA架构产业落地的核心瓶颈(模型架构可行性存疑、训练数据量严重不足),公司提供了创新思路:通过引入通用感知能力,极大减少VLA对特定操作数据的依赖,放大现有数据利用效率,从而降低数据依赖,为规模化应用创造条件 [11][14] - 公司研发的OVSeg3R模型正在打破制约具身智能发展的“数据量级不足”的瓶颈 [12] - 与特斯拉、英伟达、李飞飞团队、杨立昆团队等全球科技界的多元探索路径相比,公司的研究方向为“空间智能”的竞争提供了务实的创新方向 [12]
用2D先验自动生成3D标注,自动驾驶、具身智能有福了丨IDEA团队开源
量子位· 2026-01-17 10:53
文章核心观点 - 由IDEA计算机视觉与机器人研究中心张磊团队提出的OVSeg3R新范式,通过利用成熟的海量2D实例分割数据来辅助训练,成功解决了3D实例分割领域长期存在的训练数据稀缺、标注成本高昂的难题,实现了从“闭集”到“开集”的性能飞跃,并大幅缩小了长尾类与头部类的性能差距[2][3] 3D感知的“卡脖子”难题 - 3D实例分割是自动驾驶、机器人服务等智能场景的“眼睛”,其核心瓶颈在于3D数据的获取和标注成本极高、难度极大[4][5] - 3D数据标注需要处理由无数三维坐标点组成的点云,标注员需在立体模型中逐点勾勒物体轮廓(3D掩码),此操作需要专业3D建模知识且极其耗时,导致3D训练数据在数量和类别丰富度上远落后于2D图像数据[5][6] - 行业现有解决方案存在明显缺陷:1)外挂2D模型分类但3D模型发现新物体的能力无提升;2)多视角2D结果聚合的启发式算法脆弱,易受遮挡和噪声影响;3)3D高斯技术需针对每个场景单独优化,无法通用[7][8][9] OVSeg3R的技术原理 - 核心思路是让3D模型向成熟且数据丰富的2D模型学习,关键连接技术是3D重建,通过其降低数据获取成本,并利用2D与3D的映射关系,将2D识别结果自动生成3D训练标注,形成数据闭环[10] - 需解决两大关键难题:1)3D重建结果平滑,导致几何结构不突出的物体(如薄纸巾)与背景融合;2)简单投影会导致同一3D实例产生过多重复标注,影响训练稳定性[11] - 学习范式分为三个阶段:1)基本数据准备:输入场景视频,分别通过3D重建模型生成点云及2D-3D对应关系,以及通过2D分割模型获得2D实例分割结果与类别名称[12][15];2)模型输入和标注准备:将2D知识转化为3D资料,通过“基于实例边界的超级点(IBSp)”划分点云,并生成分视角标注,解决了平滑和重复标注问题[16][17];3)模型学习:基于SegDINO3D拓展的SegDINO3D-VL模型,通过“特征提取-解码-监督学习”三个环节,并采用“视角级实例划分(VIP)”策略进行监督,使模型掌握开集分割能力[19][20] 性能表现与优势 - 在极具挑战性的ScanNet200 3D实例分割基准测试中,OVSeg3R的mAP达到40.7,mAP50达到53.0,mAP59达到59.5,不仅大幅超越所有现有开集模型,同时刷新了闭集模型的最新记录[21] - OVSeg3R将长尾类与头部类的性能差距从11.3 mAP骤缩至1.9 mAP,彻底改善了类别性能不均衡问题[21] - 在标准开集设定下(仅用20类人工标注训练,在200类上测试),OVSeg3R在novel类别上的性能(mAPn)达到24.2,较此前最优方法飙升7.7 mAP,开集识别能力呈现显著优势[22][23] - 对于几何结构稀疏(如三脚架)以及细小物体(如瓶子、鼠标),OVSeg3R能稳定识别并分割出来,克服了现有数据集中这些类别标注严重缺失导致的算法缺陷[23][25] 应用场景与产业前景 - OVSeg3R有望广泛应用于自动驾驶、智能家居、机器人导航等需要精准3D场景理解的领域[3] - 在具身智能领域,OVSeg3R正在打破“数据成本”与“开放世界”双重壁垒,通过消除对昂贵人工3D标注的依赖,利用3D重建与2D基础模型从原始视频自动生成高质量语义标签,显著降低了机器人感知系统的训练与迁移成本[27] - 在语义导航与长程规划中,其开集识别优势能精准定位训练集中未见的“长尾”物体(如电源插座、三脚架),确保机器人自主充电与避障的安全性[28] - 在精细操作场景下,OVSeg3R利用2D视觉的丰富纹理弥补3D几何不足,能为机器人抓取与导航应用奠定空间感知基础[29] - 该技术作为一种可扩展的“数据引擎”,将海量视频转化为机器人的3D语义知识,为构建低成本、高泛化的通用具身智能系统铺平道路[29] - 该技术成果的产业转化已取得进展,并由IDEA孵化企业视启未来主导推动落地[30]