Workflow
空间智能
icon
搜索文档
VAST宋亚宸:科技自立自强,核心技术必须自主可控
新京报· 2026-02-13 07:12
公司核心业务与战略 - 公司专注于3D基础大模型和AI驱动的3D内容创作,致力于通过AI技术重构3D内容创作流程并构建全民化3D内容平台,其愿景是打造“3D抖音”式的UGC内容平台 [1] - 公司自2024年初起持续迭代Tripo大模型,已推出Tripo1.0至Tripo3.0,并发布了TripoSR、TripoSG、TripoSF等开源3D基础模型,配套开发了系列DCC软件生态插件 [2] - 公司于2025年6月发布全球首个AI驱动的一站式3D工作台Tripo Studio,旨在打造大众级的AI创作能力,引领全民创造平权,并构建可交互的世界内容平台 [2][5] - 公司认为科技自立自强意味着核心技术必须自主可控,以及创新成果必须赋能产业,因此坚持走独立自主、产研结合的道路 [4][6] 技术研发与成果 - 公司在底层技术上依托顶尖算法团队,自主研发了一系列3D基础大模型,积累了海量高质量原生空间数据,并重点投入世界模型的算力储备、数据积累和模型训练 [5] - 公司的研发目标是让AI具备真正的“空间智能”,不仅重构三维空间,更能深度理解物理世界的运行规律,这是全球科技竞争的关键前沿领域 [5][6] - 在成果转化上,公司努力让AI成为“新质生产力”的基础设施,已赋能全球超过650万个创作者和4万家企业 [2][6] - 公司积极推动AI与千行百业的深度结合,已与智能制造、虚拟现实、互动文娱、具身智能等领域的产业领军企业建立深度合作,将前沿AI技术转化为产业升级的实际动能 [2][6] 融资与股东背景 - 公司于2025年6月宣布完成数千万美元Pre-A+轮融资,本轮投资由北京市人工智能产业投资基金领投,靖亚资本跟投 [2] - 公司此前的投资股东包括绿洲资本、达晨财智、春华创投、英诺天使基金、水木清华校友种子基金等 [2] 行业与政策环境 - 未来产业被视为抢占科技制高点、把握发展主动权的关键 [1][3] - 北京在加快建设国际科技创新中心方面拥有三大优势:1)政策红利与“耐心资本”支持(如税收减免和政府引导基金),可降低企业创新成本并支持长周期投入;2)强大的原始创新能力和密集的人才储备(顶尖高校和算法人才);3)丰富的概念验证与应用落地场景(如智能制造、虚拟现实等) [1][7] - 这三大优势的深度融合被认为是北京加快建设国际科技创新中心的坚实路径 [1][8]
深度|AI教母李飞飞最新访谈:AI的下一个前沿不是语言,而是空间智能
Z Potentials· 2026-02-12 10:27
文章核心观点 - AI是一项文明级别的技术,其影响将遍及依赖计算的所有设备和场景,因此需要全人类共同参与塑造,而不能仅由少数人主导 [5][6][7] - 语言模型并非AI的终点,空间感知智能是AI发展的下一个前沿,其对于理解物理世界和实现具身智能至关重要 [5][11][12] - 李飞飞博士创立的World Labs公司正专注于开发下一代前沿模型,旨在让AI能够推理、理解、交互并生成三维世界,其技术已在游戏开发等场景得到初步应用 [13][14] AI技术的本质与影响范围 - AI是新一代的计算方式,任何依赖芯片和计算的设备、系统或场景最终都将依赖AI计算,其影响范围极为深远 [5][7][8] - 技术的影响将分阶段到来,但学界和社会必须理解其深远意义 [8] - 以芯片为例,其存在于从微小灯泡到大型飞机的各种设备中,是计算的硬件基础,同理,AI将渗透到所有存在计算的地方 [7] 参与AI构建的广泛性与本土化必要性 - 构建AI系统时纳入多元声音至关重要,因为这几乎是在直接构建世界的版本,这些版本将反过来影响现实世界的运转 [6][7] - 本土化AI至关重要,不同地区的人们拥有不同的文化、语境和情境细微差别,AI必须理解和尊重这些差异 [9][10] - 推动本土化AI的驱动力主要来自市场需求和人们自身的需求,而不仅仅是“自上而下”的政策意图,许多地区和政府对此表现出健康积极的兴趣 [10] 空间智能作为AI的下一个前沿 - 空间感知智能是智能的关键支点,人类绝大多数日常行为和文明工作都依赖于空间、感知与具身智能,而非仅仅语言 [5][11][12] - 通过世界建模与空间智能,AI可以变得具有主体性,能够被计算和规划,从而为具身智能体提供更主动的能力 [13] - 大量现实世界的物理过程和交互本质上超出了语言所能承载的范围,例如烹饪过程中调酱汁、煮意面的细微变化难以用语言准确描述 [14] World Labs的公司定位与技术应用 - World Labs专注于打造下一代前沿模型,使AI能够推理、理解、交互并生成三维、四维世界 [13] - 该技术将赋能大量应用场景,包括模拟、机器人、创意产业、设计、教育、医疗健康、制造业等 [13] - 游戏和互动式体验是公司非常兴奋的市场方向,公司已发布首个模型及名为“Marble”的产品原型,并已吸引许多游戏开发者使用,赋能其创造力与创新能力 [14]
英伟达离职15年,他想挑战黄仁勋
36氪· 2026-02-11 08:32
公司背景与创始人 - 公司创始人黄晓煌曾为英伟达软件工程师,参与CUDA开发,于2011年从硅谷回国创业 [1] - 公司核心产品“酷家乐”是中国最大的空间设计平台 [1] - 创始团队三人(黄晓煌、陈航、朱皓)为UIUC硕士研究生同学,已共同创业15年,背景和判断接近,内耗较少 [8][10] - 创始人认为决定AI胜败最重要的因素是人才和组织,而非单纯的“钞能力” [10] 业务发展与战略演进 - 公司创业15年来,一直围绕“GPU上云”的核心能力,从家居设计(酷家乐)拓展至机器人仿真训练、工业仿真等物理AI领域 [2] - 公司采用“小步试错探索”策略,不同于英伟达“大开大合”式创新 [7] - 公司业务升级为空间智能,并非二次创业,而是在原有GPU高性能计算实现三维设计的基础上顺势而为,沉淀了稀缺的三维数据 [11] - 公司在寻找新业务方向(“找钉子”)时,注重选择增长最快的行业,并保持对技术的敏感性 [17][18] - 当逆潮流探索时,公司策略是缩小团队做核心技术积累,待机会来临时再扩大 [19] 技术产品与开源 - 2018年,公司开源了当时全球最大的室内空间认知深度学习数据集InteriorNet,吸引了硅谷大公司合作 [7][12] - 2024年11月,公司推出空间智能训练平台SpatialVerse,为机器人提供合成训练数据 [5] - 2025年3月,公司发布并开源空间语言模型SpatialLM [5] - 2025年8月,公司发布开源空间生成模型SpatialGen [5] - 2025年11月,公司发布工业AI孪生平台SpatialTwin,被视为工厂大脑,能实时模拟真实工业环境 [5] - 2025年末,公司推进空间智能开放平台Aholo,开放空间重建、生成、编辑与理解等核心能力 [3] - 公司认为工具、数据、模型三者不可或缺,构成了“数据—模型—应用能力”的闭环和数据飞轮 [26] - 选择开源模型的意义包括吸引人才,且认为竞争对手使用开源模型难以构成威胁 [51] 市场定位与竞争 - 公司目前服务于机器人仿真训练、工业仿真等物理AI领域,直接进入英伟达的腹地 [2] - 银河通用、智元等头部机器人公司已成为公司用户 [6] - 公司的工业AI孪生平台SpatialTwin能够兼容英伟达的Omniverse,但更侧重提供数据及数据模拟,Omniverse是本地仿真系统 [33] - 在工厂智能化变革中,公司希望扮演“卖水人”角色,不生产设备,而是提供智能化落地所需的工具和底层能力 [34] - 公司认为面向工业严谨场景,流行的Agent方案太“薄”,需要更丰富的能力 [30] 财务表现与融资 - 公司先后获得IDG资本、纪源资本、顺为资本、经纬创投、高瓴创投、云启资本等机构累计数亿美元融资 [7] - 2025年上半年,公司收入为3.99亿元,同比增长9.4%,主要收入来自企业客户订阅 [7] - 公司已实现扭亏为盈,2025年上半年经调整净利润为1782.5万元 [7] - 得益于SaaS订阅模式,2024年至2025年上半年,公司毛利率维持在80%以上 [7] 行业洞察与展望 - 创始人黄晓煌预测,空间智能的爆发节点将在3到5年内到来,取决于算法、数据、算力和硬件的突破 [5] - 创始人认为空间智能目前的发展阶段相当于语言模型的GPT-2.0(2019年)阶段,并认为进展很快 [36][37] - 物理AI/世界模型赛道目前投入者较少,因数据工程量更大、技术门槛更高、回报周期可能长达5-10年 [8] - 空间智能也存在Scaling Law,但空间数据获取成本高、难度大,例如为图纸打标签成本约100元/张 [39] - AI发展被描述为“跳高”过程,依赖最聪明的人的算法突破实现跃升 [37] 运营与人才管理 - 公司目前有1300多名员工 [41] - 公司通过每周沟通、演示技术demo来说服员工拥抱空间智能的新方向 [42] - 公司注重将能力建立在组织而非个体上,以应对人才流动,并更关注如何吸引全球最优秀人才加入 [45][46] - 2025年初,公司推出“星核人才计划”,提供最高百万年薪 [47] - 公司认为吸引人才不能只靠高薪,差异化、组织土壤和直接沟通的文化同样重要 [48] - 公司相信并招聘年轻人,认为顶级应届生可能比有经验的人才更强 [49]
Behavision获批全国首个具身智能3D铰接数据资产登记证
新浪财经· 2026-02-05 20:24
核心事件与意义 - Behavision旗下多项面向具身智能与空间智能的核心数据资产在北京国际大数据交易所完成登记 [1][6] - 其中,3D铰接数据集是全国首个完成数据资产登记的该类数据集,具有里程碑意义 [1][6] - 此举标志着公司在数据要素资产化路径上取得关键成果,也标志着具身智能从实验室数据积累迈向标准化、资产化的价值流转新阶段 [1][6] 登记资产详情 - 本次完成登记的资产涵盖4项3D铰接数据资产与1项VLA多模态数据资产 [1][7] - 3D铰接数据是具身智能走向物理世界的“说明书”,不仅包含物体几何形状,更精准刻画了电器、家具、日用品等真实对象的运动逻辑、关节约束及功能属性 [1][7] - 该数据通过实现仿真环境与现实物理规律的深度对齐,为缓解具身智能领域长期存在的Sim2Real Gap挑战提供更具确定性的技术支持 [1][7] - 该数据有效补充了当前行业内高质量铰接数据的供给,为物理AI从“理解世界”迈向“与世界交互”提供了坚实基础 [1][7] 技术架构与实现 - 公司依托Behavision Pro空间智能平台,通过ABC架构实现了物理资产、交互行为与智能体本体的系统化解耦 [3][9] - ABC架构将高精度的铰接化物理对象、多模态的抓取与协同操作模式以及不同形态的机器人硬件进行模块化组织 [3][9] - 该架构支撑“大小脑”模型的协同训练,旨在提升模型训练效率、仿真验证稳定性及跨场景泛化能力 [3][10] - 该技术架构旨在满足具身智能在规模化应用中对高质量、可交付数据资产的实际需求 [3][10] 未来规划与行业影响 - 公司未来将持续围绕3D数据、空间智能与具身智能核心方向,完善数据资产体系与产品化能力布局 [6][12] - 公司将推动高价值数据在机器人训练、仿真应用、智能体系统与产业协同场景中的实际落地 [6][12] - 公司的举措旨在加速智能技术向真实物理世界的延展与应用 [6][12]
超图软件:超图2025年发布空间智能体及行业智能体,AI业务大幅上升
格隆汇· 2026-02-04 11:59
公司战略定位与技术发展 - 公司是空间智能领域的核心厂商 [1] - 公司自2019年起即致力于AI GIS的技术研发及创新 [1] - 2024年公司推出地理空间AI技术底座 [1] - 2025年公司发布空间智能体及行业智能体 [1] 业务与财务表现 - 公司AI业务实现大幅上升 [1] - 公司在AI业务领域实现重大标杆项目突破 [1] - 公司AI业务相关合同额实现快速增长 [1]
为什么把眼睛「竖过来」?宸境科技发布会,撕开了机器人感知真相
36氪· 2026-02-03 16:53
公司核心战略与定位 - 公司举办新品发布会,推出“LooperRobotics”品牌及全栈技术矩阵,旨在提供标准化感知方案,推动机器人感知技术从“定制化”走向“通用化”[2] - 公司定位为具身智能的“基建狂魔”,致力于成为机器人时代的一级供应商,提供统一、标准、高可用的感知底座,而非直接制造机器人[17] - 公司提出“空间智能即服务”理念,认为具身智能市场规模将比肩汽车与手机,达到万亿美金级别[17] 硬件创新:Insight自主空间智能相机 - 相机采用反常识的纵向三摄像头设计,视场角达188°,旨在解决机器人被密集人群包围时因视野受限而“失明”的问题[4][5] - 相机抗震能力提升至24g,远超行业常见的8g标准,旨在适应足式机器人高动态运动(如跑酷、跳跃)的严苛环境[7] - 相机集成强大端侧算力,内置一颗提供10TOPS AI算力的芯片,实现复杂数据(如面对白墙、透明玻璃)的本地实时处理,减少对主机资源的占用和传输延迟[8][9] 软件与算法创新 - 发布TinyNav神经导航算法库,采用仿生学路径,借鉴大脑“网格细胞”原理,使机器人通过环境特征而非几何测量来导航,核心代码目标行数限制在3000行[11][12] - TinyNav利用生成式世界模型,通过少量真实数据生成大量虚拟场景进行训练,提升导航系统的泛化能力[12] - 开发RoboSpatial空间编辑平台,提供可视化界面,允许非技术人员通过拖放方式(如划定禁行区、减速区)快速部署机器人作业流程,降低落地门槛[16] 技术整合与行业影响 - 公司将VSLAM(视觉定位与建图)技术封装为“开箱即用”的标准件,旨在降低中小机器人公司的研发门槛,避免其重复投入2-3年时间和数千万资金自研[9] - 公司强调空间智能是软硬件深度协同的系统工程,从算法软件公司跨越到推出硬件,旨在通过软硬一体确保工业级稳定性和技术落地[17] - 公司首席机器人科学家左星星的加盟,其在多模态感知、具身智能等前沿领域的研究背景,为公司在机器人感知领域的发展提供支撑[14][15] 产品设计理念与解决痛点 - Insight相机的纵向广角设计,使机器人能在人群包围中通过识别相对固定的天花板纹理和地板结构来稳定定位[4][5] - 端侧算力设计旨在实现“感知-行动”的毫秒级闭环,保证机器人动作敏捷,并解决传统双目视觉在纹理缺失环境下的“白墙恐惧症”[8][9] - TinyNav的轻规则、重数据架构被视为原生AI方案,可与Insight相机实现软硬件协同,并随数据与算力提升不断自我进化,适配更开放通用的场景[12][14]
世界模型怎么才算“能用”?李飞飞把它做成了 API
36氪· 2026-01-29 09:07
核心观点 - World Labs推出的World API标志着人工智能从生成视频内容向构建可交互三维空间的重大跨越,其核心是生成具备物理规则与几何结构的数字世界,旨在赋予机器空间智能[1] - 该产品定位为下一代空间智能的底层平台和可编程空间的基础设施,而非简单的生成式AI应用,公司正洽谈新一轮融资,目标估值达50亿美元,是此前10亿美元估值的五倍[8][11] 产品定位与技术差异 - World API生成的是完整的空间结构和几何模型,具备物理关系和可交互性,与Sora等生成固定角度连续视频流的工具有本质区别,后者是给人看的内容,而前者是给机器用的环境[1][2] - 其输出正从内容变成环境,解决的是“能做什么”的问题,为游戏、机器人训练、VR/AR等需要可探索、可训练、可沉浸空间的场景提供基础[3][5] 核心技术能力 - 采用多模态输入技术,支持文本、图片、视频、全景图,通过融合语言、语义、几何和物理信息来还原完整的3D空间[7] - 具备语义理解与编辑能力,能理解“沉重”、“中央”等自然语言中蕴含的物理和空间信息,无需创作者转换为精确数值或学习专业软件[8] - 提供可视化工具Chisel(凿子),允许用户通过放置几何约束来辅助AI生成完整场景,降低了3D内容创作门槛[8] 目标市场与应用场景 - 主要面向三类核心应用场景:游戏开发(可快速生成可用关卡)、机器人训练(可从视频生成可训练的3D仿真环境)、VR/AR(降低3D内容制作门槛)[9] - 技术下一步方向是引入动力学,如模拟树木摇摆、物体形变、光照变化,以增强真实感并满足物理仿真和机器人训练的需求[9] 行业竞争格局 - 与OpenAI、Google等公司的重点不同:OpenAI主攻对话和通用Agent,重心不在空间理解;Google的Genie 3等世界模型更偏向研究和特定场景[10][11] - World Labs专注于构建可编程空间的基础设施,其World API生成的是可直接接入各种系统的空间数据,占据底层平台位置[11]
空间智能爆发只需24个月?群核科技首席科学家唐睿预言:具身智能才是AGI终极形态 | 万有引力
AI科技大本营· 2026-01-28 19:01
文章核心观点 - 人工智能正经历从“对话系统”向“行动智能”的根本性转变,而“空间智能”被视为实现这一转变及通往AGI的关键拼图[1][2][3] - 空间智能是具身智能的基础设施,通过生成3D场景和仿真数据,解决后者训练数据严重不足的核心痛点[10][11] - 行业正走向2D/视频生成与3D生成的融合演进,而非路线之争,旨在利用各自优势解决时空一致性与多视角重建等问题[11][61][64][65] - 空间智能的下一个行业爆点将依赖于硬件突破,预计在24个月内,当个人能低门槛捕获和还原现实空间时,行业将迎来质变[11][76] - 群核科技(酷家乐)凭借在计算机图形学与海量空间数据的长期积累,自2017年起锚定空间智能方向,致力于构建“3D界的ImageNet”及开源生态[4][13][34][36][73] 空间智能的定义、价值与行业定位 - **空间智能的核心**:旨在赋予机器观察、理解并在三维世界中行动的能力,是具身智能的“眼睛”和“训练场”[3][10][11] - **与具身智能的关系**:空间智能服务于具身智能,通过生成3D可交互场景和仿真数据,为具身智能与物理世界交互提供训练和验证基础[10][11][58] - **通往AGI的路径**:若AGI需在物理世界中行动,则空间智能或世界模型至关重要;若AGI仅存在于屏幕空间,则对空间智能的依赖度降低[59][60] 技术发展路径与行业共识 - **数据获取的挑战与方案**:室内空间数据获取比室外自动驾驶更困难,涉及隐私、任务多样化及高成本问题[41][42][43] - 当前解决方案主要依赖“正向设计”(设计师创作)和“逆向捕获重建”(合成数据),但这仍是“从蛋里孵蛋”[11][71] - **终极解决方案**在于感知硬件的普及,当眼镜、手机、手表等设备能无感采集空间数据时,数据瓶颈将被彻底打破[11][71][72] - **2D/视频与3D技术的融合**: - **视频辅助3D**:利用Video Diffusion模型生成多视角视频帧,作为3D重建的中间素材[63] - **3D反哺视频**:引入3D表征或隐空间作为媒介,利用3D的结构稳定性来约束视频生成,解决长视频的时空一致性问题[64] - 融合是受当前计算资源(如GPU显存)限制下的务实选择,未来若有“Killer concept”出现(如3D版Transformer),技术范式可能翻篇[67] - **空间智能的四个进化层次**: 1. **空间感知泛化**:感知设备从军工、航天下沉至消费级,未来将普及到个人可穿戴设备[45] 2. **空间理解质变**:从处理2D图像转向直接处理3D点云/高斯数据,实现精准的几何与物理属性感知[47] 3. **空间推理与决策智能化**:通过仿真和合成数据产生高质量交互数据,使智能体学会在物理世界中行动[48] 4. **空间行动** - **合成数据的层级需求**:根据应用场景,对合成数据的要求分为三层:“视觉级”(静态逼真)、“游戏级”(基础交互)、“物理仿真级”(Sim-Ready,需高精度物理属性)[52][53][54][55][56][57] 群核科技的战略与实践 - **技术路线转折点**:公司于2017年受AlphaGo启发,从用GPU“模拟物理世界”(渲染)转向“模拟智能体”,结合自身海量空间数据探索空间智能[12][13] - **核心研究重点**: - 空间内几何体和材质的高质量生成[37][38] - 空间内物体的合理摆放与布局[38] - 与浙江大学合作研究“光的布局”,甚至探索用AI大模型拟合光线物理传播过程[39][40] - **商业化与行业影响**:其开源及闭商业数据集已成为众多头部具身智能或3D空间生成团队的客户基础,并已与字节跳动、Adobe、谷歌、浙江大学等机构展开深度论文合作[36][37] - **开源生态建设**: - **目的**:在领域标准未定之时,通过开源数据和模型(如Spatial-LM)抛砖引玉,集结社区智慧共建生态,降低创业门槛[73][74] - **策略**:提供API及预训练模型,使更多团队能在其基础上微调,参与空间智能与具身智能的探索[74] - **规划**:预计在年底发布与空间生成相关的大模型[74] 市场前景与未来预测 - **关键突破点**:下一个真正爆点在于硬件突破,预计在未来24个月内,当个人能便捷地对现实空间进行捕获和还原时,行业将发生质变[11][76] - **发展驱动力**:“AI开发AI”的循环已经开启,软件迭代速度极快,但硬件感知能力的进化是补齐短板的关键[45][75] - **行业现状**:领域仍处前沿探索期,存在大量论文和商业机会,共识是普遍缺乏数据,非共识(或探索方向)在于技术路径的具体选择[70][72]
奥比中光与蚂蚁灵波科技达成战略合作意向 打造下一代深度相机
证券日报之声· 2026-01-27 20:44
核心事件 - 蚂蚁集团旗下具身智能公司蚂蚁灵波科技发布首个开源空间感知模型LingBot-Depth,并与3D视觉技术公司奥比中光达成战略合作意向 [1] - 双方将基于LingBot-Depth模型推出新一代深度相机,并通过技术协同与生态共建,为机器人在各行业极端场景落地提供技术支撑 [2] 合作内容与模式 - 在模型研发与测试阶段,奥比中光提供了关键硬件支持,LingBot-Depth模型已通过奥比中光深度视觉实验室认证 [1] - 合作是硬件与算法深度协同的典型实践,蚂蚁灵波科技的算法探索与奥比中光在3D视觉芯片及机器人视觉方面的技术积累形成良好互补 [3] - 未来双方将持续展开技术协同,共同推动空间智能从算法创新走向真实场景落地 [1] 技术产品细节:LingBot-Depth模型 - 该模型攻克了具身智能在真实复杂环境中面临的视觉感知难题,特别是针对玻璃、镜面、金属等透明或高反光物体导致的深度信息缺失 [1] - 模型基于奥比中光Gemini330系列双目3D相机提供的芯片级原始数据,智能补全深度信息,显著提升机器人在复杂光学场景下的感知鲁棒性与作业成功率 [1] - 模型依托奥比中光Gemini330系列相机进行RGB-Depth数据采集与效果验证,并基于深度引擎芯片直出的深度数据进行训练与优化,实现了空间智能算法的创新突破 [2] - 模型在精度、稳定性及复杂场景适应性方面均达到行业领先水平 [2] 技术产品细节:奥比中光Gemini330系列相机 - 该系列双目3D相机搭载公司自研的深度引擎芯片MX6800,融合主动与被动成像技术,能在从漆黑到阳光的各种光照条件下输出精准可靠的三维数据 [2] - 自研芯片使高性能深度图像计算及高精度传感器同步都可在相机中完成,从而降低上位机算力要求,实现极低的数据传输时延 [2] - Gemini 330提供的芯片级深度数据,为LingBot-Depth模型提供了真实、稳定、高质量的数据基础 [3] 行业背景与意义 - 随着机器人、具身智能不断向各类场景延伸,AI对空间环境的感知与理解能力至关重要 [1] - 前沿算法模型的落地与持续优化,离不开高性能、高可靠性的硬件支持 [1] - 空间智能的落地离不开硬件与算法的深度协同 [3]
让机器人“看清”三维世界 蚂蚁灵波开源空间感知模型
21世纪经济报道· 2026-01-27 13:01
核心观点 - 蚂蚁集团旗下灵波科技开源高精度空间感知模型LingBot-Depth 在三维视觉关键难题上取得重要突破 旨在为机器人、自动驾驶等智能终端提供更精准可靠的三维视觉 [1] - 该模型在权威基准评测中展现出代际级优势 相比主流模型在室内场景相对误差降低超过70% 在稀疏SfM任务中RMSE误差降低约47% [1] 技术突破与性能 - 模型专注于提升环境深度感知与三维空间理解能力 基于奥比中光Gemini 330系列双目3D相机的芯片级原始数据 [1] - 针对透明、反光物体等传统深度相机感知难点 研发了“掩码深度建模”技术 能融合RGB图像信息对缺失或异常的深度数据进行推断与补全 输出完整、致密、边缘清晰的深度图 [3] - 应用该模型后 即使面对透明玻璃、高反光镜面、强逆光等挑战性光学场景 深度图依然平滑完整、轮廓锐利 效果显著优于业内领先的ZED Stereo Depth深度相机 [4] - 模型已通过奥比中光深度视觉实验室专业认证 在精度、稳定性及复杂场景适应性方面均达到行业领先水平 [3] 数据基础与开源计划 - 模型优异性能来源于海量真实场景数据 采集约1000万份原始样本 提炼出200万组高价值深度配对数据用于训练 [6] - 核心数据资产包括200万真实世界深度数据和100万仿真数据 将于近期开源 [6] - 蚂蚁灵波科技本周将陆续开源多款具身智能方向模型 [6] 行业合作与产品化 - 蚂蚁灵波科技与奥比中光达成战略合作意向 奥比中光计划基于LingBot-Depth的能力推出新一代深度相机 [6] - 该模型可在不更换传感器硬件的前提下 显著提升消费级深度相机对高难度物体的处理效果 [4]