Workflow
空间智能
icon
搜索文档
Behavision获批全国首个具身智能3D铰接数据资产登记证
新浪财经· 2026-02-05 20:24
核心事件与意义 - Behavision旗下多项面向具身智能与空间智能的核心数据资产在北京国际大数据交易所完成登记 [1][6] - 其中,3D铰接数据集是全国首个完成数据资产登记的该类数据集,具有里程碑意义 [1][6] - 此举标志着公司在数据要素资产化路径上取得关键成果,也标志着具身智能从实验室数据积累迈向标准化、资产化的价值流转新阶段 [1][6] 登记资产详情 - 本次完成登记的资产涵盖4项3D铰接数据资产与1项VLA多模态数据资产 [1][7] - 3D铰接数据是具身智能走向物理世界的“说明书”,不仅包含物体几何形状,更精准刻画了电器、家具、日用品等真实对象的运动逻辑、关节约束及功能属性 [1][7] - 该数据通过实现仿真环境与现实物理规律的深度对齐,为缓解具身智能领域长期存在的Sim2Real Gap挑战提供更具确定性的技术支持 [1][7] - 该数据有效补充了当前行业内高质量铰接数据的供给,为物理AI从“理解世界”迈向“与世界交互”提供了坚实基础 [1][7] 技术架构与实现 - 公司依托Behavision Pro空间智能平台,通过ABC架构实现了物理资产、交互行为与智能体本体的系统化解耦 [3][9] - ABC架构将高精度的铰接化物理对象、多模态的抓取与协同操作模式以及不同形态的机器人硬件进行模块化组织 [3][9] - 该架构支撑“大小脑”模型的协同训练,旨在提升模型训练效率、仿真验证稳定性及跨场景泛化能力 [3][10] - 该技术架构旨在满足具身智能在规模化应用中对高质量、可交付数据资产的实际需求 [3][10] 未来规划与行业影响 - 公司未来将持续围绕3D数据、空间智能与具身智能核心方向,完善数据资产体系与产品化能力布局 [6][12] - 公司将推动高价值数据在机器人训练、仿真应用、智能体系统与产业协同场景中的实际落地 [6][12] - 公司的举措旨在加速智能技术向真实物理世界的延展与应用 [6][12]
超图软件:超图2025年发布空间智能体及行业智能体,AI业务大幅上升
格隆汇· 2026-02-04 11:59
公司战略定位与技术发展 - 公司是空间智能领域的核心厂商 [1] - 公司自2019年起即致力于AI GIS的技术研发及创新 [1] - 2024年公司推出地理空间AI技术底座 [1] - 2025年公司发布空间智能体及行业智能体 [1] 业务与财务表现 - 公司AI业务实现大幅上升 [1] - 公司在AI业务领域实现重大标杆项目突破 [1] - 公司AI业务相关合同额实现快速增长 [1]
为什么把眼睛「竖过来」?宸境科技发布会,撕开了机器人感知真相
36氪· 2026-02-03 16:53
公司核心战略与定位 - 公司举办新品发布会,推出“LooperRobotics”品牌及全栈技术矩阵,旨在提供标准化感知方案,推动机器人感知技术从“定制化”走向“通用化”[2] - 公司定位为具身智能的“基建狂魔”,致力于成为机器人时代的一级供应商,提供统一、标准、高可用的感知底座,而非直接制造机器人[17] - 公司提出“空间智能即服务”理念,认为具身智能市场规模将比肩汽车与手机,达到万亿美金级别[17] 硬件创新:Insight自主空间智能相机 - 相机采用反常识的纵向三摄像头设计,视场角达188°,旨在解决机器人被密集人群包围时因视野受限而“失明”的问题[4][5] - 相机抗震能力提升至24g,远超行业常见的8g标准,旨在适应足式机器人高动态运动(如跑酷、跳跃)的严苛环境[7] - 相机集成强大端侧算力,内置一颗提供10TOPS AI算力的芯片,实现复杂数据(如面对白墙、透明玻璃)的本地实时处理,减少对主机资源的占用和传输延迟[8][9] 软件与算法创新 - 发布TinyNav神经导航算法库,采用仿生学路径,借鉴大脑“网格细胞”原理,使机器人通过环境特征而非几何测量来导航,核心代码目标行数限制在3000行[11][12] - TinyNav利用生成式世界模型,通过少量真实数据生成大量虚拟场景进行训练,提升导航系统的泛化能力[12] - 开发RoboSpatial空间编辑平台,提供可视化界面,允许非技术人员通过拖放方式(如划定禁行区、减速区)快速部署机器人作业流程,降低落地门槛[16] 技术整合与行业影响 - 公司将VSLAM(视觉定位与建图)技术封装为“开箱即用”的标准件,旨在降低中小机器人公司的研发门槛,避免其重复投入2-3年时间和数千万资金自研[9] - 公司强调空间智能是软硬件深度协同的系统工程,从算法软件公司跨越到推出硬件,旨在通过软硬一体确保工业级稳定性和技术落地[17] - 公司首席机器人科学家左星星的加盟,其在多模态感知、具身智能等前沿领域的研究背景,为公司在机器人感知领域的发展提供支撑[14][15] 产品设计理念与解决痛点 - Insight相机的纵向广角设计,使机器人能在人群包围中通过识别相对固定的天花板纹理和地板结构来稳定定位[4][5] - 端侧算力设计旨在实现“感知-行动”的毫秒级闭环,保证机器人动作敏捷,并解决传统双目视觉在纹理缺失环境下的“白墙恐惧症”[8][9] - TinyNav的轻规则、重数据架构被视为原生AI方案,可与Insight相机实现软硬件协同,并随数据与算力提升不断自我进化,适配更开放通用的场景[12][14]
世界模型怎么才算“能用”?李飞飞把它做成了 API
36氪· 2026-01-29 09:07
核心观点 - World Labs推出的World API标志着人工智能从生成视频内容向构建可交互三维空间的重大跨越,其核心是生成具备物理规则与几何结构的数字世界,旨在赋予机器空间智能[1] - 该产品定位为下一代空间智能的底层平台和可编程空间的基础设施,而非简单的生成式AI应用,公司正洽谈新一轮融资,目标估值达50亿美元,是此前10亿美元估值的五倍[8][11] 产品定位与技术差异 - World API生成的是完整的空间结构和几何模型,具备物理关系和可交互性,与Sora等生成固定角度连续视频流的工具有本质区别,后者是给人看的内容,而前者是给机器用的环境[1][2] - 其输出正从内容变成环境,解决的是“能做什么”的问题,为游戏、机器人训练、VR/AR等需要可探索、可训练、可沉浸空间的场景提供基础[3][5] 核心技术能力 - 采用多模态输入技术,支持文本、图片、视频、全景图,通过融合语言、语义、几何和物理信息来还原完整的3D空间[7] - 具备语义理解与编辑能力,能理解“沉重”、“中央”等自然语言中蕴含的物理和空间信息,无需创作者转换为精确数值或学习专业软件[8] - 提供可视化工具Chisel(凿子),允许用户通过放置几何约束来辅助AI生成完整场景,降低了3D内容创作门槛[8] 目标市场与应用场景 - 主要面向三类核心应用场景:游戏开发(可快速生成可用关卡)、机器人训练(可从视频生成可训练的3D仿真环境)、VR/AR(降低3D内容制作门槛)[9] - 技术下一步方向是引入动力学,如模拟树木摇摆、物体形变、光照变化,以增强真实感并满足物理仿真和机器人训练的需求[9] 行业竞争格局 - 与OpenAI、Google等公司的重点不同:OpenAI主攻对话和通用Agent,重心不在空间理解;Google的Genie 3等世界模型更偏向研究和特定场景[10][11] - World Labs专注于构建可编程空间的基础设施,其World API生成的是可直接接入各种系统的空间数据,占据底层平台位置[11]
空间智能爆发只需24个月?群核科技首席科学家唐睿预言:具身智能才是AGI终极形态 | 万有引力
AI科技大本营· 2026-01-28 19:01
文章核心观点 - 人工智能正经历从“对话系统”向“行动智能”的根本性转变,而“空间智能”被视为实现这一转变及通往AGI的关键拼图[1][2][3] - 空间智能是具身智能的基础设施,通过生成3D场景和仿真数据,解决后者训练数据严重不足的核心痛点[10][11] - 行业正走向2D/视频生成与3D生成的融合演进,而非路线之争,旨在利用各自优势解决时空一致性与多视角重建等问题[11][61][64][65] - 空间智能的下一个行业爆点将依赖于硬件突破,预计在24个月内,当个人能低门槛捕获和还原现实空间时,行业将迎来质变[11][76] - 群核科技(酷家乐)凭借在计算机图形学与海量空间数据的长期积累,自2017年起锚定空间智能方向,致力于构建“3D界的ImageNet”及开源生态[4][13][34][36][73] 空间智能的定义、价值与行业定位 - **空间智能的核心**:旨在赋予机器观察、理解并在三维世界中行动的能力,是具身智能的“眼睛”和“训练场”[3][10][11] - **与具身智能的关系**:空间智能服务于具身智能,通过生成3D可交互场景和仿真数据,为具身智能与物理世界交互提供训练和验证基础[10][11][58] - **通往AGI的路径**:若AGI需在物理世界中行动,则空间智能或世界模型至关重要;若AGI仅存在于屏幕空间,则对空间智能的依赖度降低[59][60] 技术发展路径与行业共识 - **数据获取的挑战与方案**:室内空间数据获取比室外自动驾驶更困难,涉及隐私、任务多样化及高成本问题[41][42][43] - 当前解决方案主要依赖“正向设计”(设计师创作)和“逆向捕获重建”(合成数据),但这仍是“从蛋里孵蛋”[11][71] - **终极解决方案**在于感知硬件的普及,当眼镜、手机、手表等设备能无感采集空间数据时,数据瓶颈将被彻底打破[11][71][72] - **2D/视频与3D技术的融合**: - **视频辅助3D**:利用Video Diffusion模型生成多视角视频帧,作为3D重建的中间素材[63] - **3D反哺视频**:引入3D表征或隐空间作为媒介,利用3D的结构稳定性来约束视频生成,解决长视频的时空一致性问题[64] - 融合是受当前计算资源(如GPU显存)限制下的务实选择,未来若有“Killer concept”出现(如3D版Transformer),技术范式可能翻篇[67] - **空间智能的四个进化层次**: 1. **空间感知泛化**:感知设备从军工、航天下沉至消费级,未来将普及到个人可穿戴设备[45] 2. **空间理解质变**:从处理2D图像转向直接处理3D点云/高斯数据,实现精准的几何与物理属性感知[47] 3. **空间推理与决策智能化**:通过仿真和合成数据产生高质量交互数据,使智能体学会在物理世界中行动[48] 4. **空间行动** - **合成数据的层级需求**:根据应用场景,对合成数据的要求分为三层:“视觉级”(静态逼真)、“游戏级”(基础交互)、“物理仿真级”(Sim-Ready,需高精度物理属性)[52][53][54][55][56][57] 群核科技的战略与实践 - **技术路线转折点**:公司于2017年受AlphaGo启发,从用GPU“模拟物理世界”(渲染)转向“模拟智能体”,结合自身海量空间数据探索空间智能[12][13] - **核心研究重点**: - 空间内几何体和材质的高质量生成[37][38] - 空间内物体的合理摆放与布局[38] - 与浙江大学合作研究“光的布局”,甚至探索用AI大模型拟合光线物理传播过程[39][40] - **商业化与行业影响**:其开源及闭商业数据集已成为众多头部具身智能或3D空间生成团队的客户基础,并已与字节跳动、Adobe、谷歌、浙江大学等机构展开深度论文合作[36][37] - **开源生态建设**: - **目的**:在领域标准未定之时,通过开源数据和模型(如Spatial-LM)抛砖引玉,集结社区智慧共建生态,降低创业门槛[73][74] - **策略**:提供API及预训练模型,使更多团队能在其基础上微调,参与空间智能与具身智能的探索[74] - **规划**:预计在年底发布与空间生成相关的大模型[74] 市场前景与未来预测 - **关键突破点**:下一个真正爆点在于硬件突破,预计在未来24个月内,当个人能便捷地对现实空间进行捕获和还原时,行业将发生质变[11][76] - **发展驱动力**:“AI开发AI”的循环已经开启,软件迭代速度极快,但硬件感知能力的进化是补齐短板的关键[45][75] - **行业现状**:领域仍处前沿探索期,存在大量论文和商业机会,共识是普遍缺乏数据,非共识(或探索方向)在于技术路径的具体选择[70][72]
奥比中光与蚂蚁灵波科技达成战略合作意向 打造下一代深度相机
证券日报之声· 2026-01-27 20:44
LingBot-Depth模型依托奥比中光Gemini330系列双目3D相机进行RGB-Depth数据采集与效果验证,并基 于深度引擎芯片直出的深度数据进行训练与优化,实现了空间智能算法的创新突破。值得一提的是, LingBot-Depth模型已通过奥比中光深度视觉实验室的专业认证,在精度、稳定性及复杂场景适应性方 面均达到行业领先水平。 目前,双方已达成战略合作伙伴关系,将基于LingBot-Depth模型推出新一代深度相机,依托Gemini 330 系列相机提供的芯片级3D数据,进一步通过技术协同、生态共建,为机器人处理各行各业极端场景、 真正落地提供强大的技术支撑。 作为行业领先的机器人及AI视觉科技公司,奥比中光在LingBot-Depth模型的研发与测试阶段提供了关 键硬件支持,LingBot-Depth模型已通过奥比中光深度视觉实验室认证。未来,双方将持续展开技术协 同,共同推动空间智能从算法创新走向真实场景落地。 蚂蚁灵波科技作为蚂蚁集团旗下的具身智能公司,专注具身智能基座的研发,本次发布的LingBot- Depth攻克了具身智能在真实复杂环境中面临的视觉感知难题。针对玻璃、镜面、金属等透明或 ...
让机器人“看清”三维世界 蚂蚁灵波开源空间感知模型
21世纪经济报道· 2026-01-27 13:01
核心观点 - 蚂蚁集团旗下灵波科技开源高精度空间感知模型LingBot-Depth 在三维视觉关键难题上取得重要突破 旨在为机器人、自动驾驶等智能终端提供更精准可靠的三维视觉 [1] - 该模型在权威基准评测中展现出代际级优势 相比主流模型在室内场景相对误差降低超过70% 在稀疏SfM任务中RMSE误差降低约47% [1] 技术突破与性能 - 模型专注于提升环境深度感知与三维空间理解能力 基于奥比中光Gemini 330系列双目3D相机的芯片级原始数据 [1] - 针对透明、反光物体等传统深度相机感知难点 研发了“掩码深度建模”技术 能融合RGB图像信息对缺失或异常的深度数据进行推断与补全 输出完整、致密、边缘清晰的深度图 [3] - 应用该模型后 即使面对透明玻璃、高反光镜面、强逆光等挑战性光学场景 深度图依然平滑完整、轮廓锐利 效果显著优于业内领先的ZED Stereo Depth深度相机 [4] - 模型已通过奥比中光深度视觉实验室专业认证 在精度、稳定性及复杂场景适应性方面均达到行业领先水平 [3] 数据基础与开源计划 - 模型优异性能来源于海量真实场景数据 采集约1000万份原始样本 提炼出200万组高价值深度配对数据用于训练 [6] - 核心数据资产包括200万真实世界深度数据和100万仿真数据 将于近期开源 [6] - 蚂蚁灵波科技本周将陆续开源多款具身智能方向模型 [6] 行业合作与产品化 - 蚂蚁灵波科技与奥比中光达成战略合作意向 奥比中光计划基于LingBot-Depth的能力推出新一代深度相机 [6] - 该模型可在不更换传感器硬件的前提下 显著提升消费级深度相机对高难度物体的处理效果 [4]
李飞飞世界模型公司一年估值暴涨5倍!正洽谈新一轮5亿美元融资
量子位· 2026-01-25 14:00
World Labs新一轮融资与估值跃升 - 公司正在以约50亿美元估值进行新一轮融资,融资规模最高可达5亿美元[1] - 若融资完成,公司估值将从2024年的10亿美元跃升至50亿美元,实现一年多时间5倍重估[2] - 此前公司已完成累计2.3亿美元融资,估值达到10亿美元[2] - 公司成立于2024年4月,当月完成首轮融资,估值约2亿美元[2] 公司历史融资与投资方 - 首轮投资方包括Andreessen Horowitz(a16z)和加拿大投资机构Radical Ventures[5] - 2024年6–7月,公司完成一轮1亿美元融资,由NEA领投,估值被抬升至超过10亿美元[5] - 历史投资方还包括英伟达、沙特阿拉伯的Sanabil Investments、新加坡主权基金淡马锡[5] - 个人投资者包括Google首席科学家Jeff Dean、演员兼投资人Ashton Kutcher、AI教父Geoffrey Hinton[6] 公司核心业务:世界模型 - 公司正在研发能够在三维世界中进行导航和决策的AI系统,构建“大世界模型”[8] - 目标并非“生成一张好看的图”,而是让模型真正理解真实物理世界的结构与演化方式[9] - 世界模型被视为继大语言模型之后,AI下一个十年的核心主线,是一种“基础设施型能力”[16][17] 产品与技术:Marble与World API - 公司于去年11月推出首款3D世界生成模型Marble[10] - Marble可以根据文本或图像提示,直接生成可探索的3D世界[12] - 技术采用3D高斯溅射,用数以百万计的半透明点表示场景结构,在保持较高渲染效率的同时实现更细腻的视觉效果[14] - Marble同时输出“碰撞网格”,专门用于物理仿真和机器人模拟[15] - 提供Chisel工具,用户可先用简单几何体快速搭建骨架,再生成不同风格的细节版本[15] - 公司近期开放了World API,开发者可通过文本、图像或视频直接生成可探索的3D世界[15] 世界模型的应用前景与能力框架 - 真正具备空间智能的世界模型需要三种能力:生成、多模态、交互[22] - 生成能力指能创造遵守物理定律、空间一致的世界[22] - 多模态能力指能处理从图像、视频到动作的多模态输入[22] - 交互能力指能预测世界随时间演变或互动的状态[22] - 应用方向包括AIGC(如3D资产生成、游戏世界构建、影视制作)和具身智能(如机器人、仿真环境)[22] - 以具身智能为例,世界模型提供对环境的可预测表示,是叠加有效决策与控制的基础[18] 行业竞争格局与技术路线 - 前Meta首席科学家Yann LeCun创办的AMI Labs传闻融资估值可能达到35亿美元[20] - LeCun的路线更偏向“内在认知”,采用隐式世界模型,基于JEPA在抽象的潜在空间中预测世界演化,而非还原每一个像素[21] - 世界模型技术版图大致分三层:可观看、可编辑的世界界面(如Marble);可反复试错的模拟器(如谷歌DeepMind的Genie 3);以状态与预测为核心的认知世界模型(如LeCun的JEPA路线)[27][24] - 资本押注的是对不同世界模型技术路径的提前下注[24]
思特奇:公司的参股公司考拉悠然在空间智能领域确实取得了显著的行业落地成果
证券日报之声· 2026-01-23 19:42
公司动态 - 思特奇于1月23日通过互动平台回应投资者提问 [1] - 公司表示其参股公司考拉悠然在空间智能领域已取得显著的行业落地成果 [1] - 考拉悠然持续进行技术迭代和产品创新 [1] - 考拉悠然致力于成为人工智能产业技术创新与产业落地的领军企业 [1]
上线100天 用户超6.6亿!全球首个“飞行街景”发布
南方都市报· 2026-01-23 17:40
文章核心观点 - 高德扫街榜上线100天后全面升级,通过推出“飞行街景”、动态榜单和社交功能,依托其空间智能和世界模型技术,旨在解决本地生活服务信息失真的核心痛点,构建真实可信的线下信用体系,从而推动用户增长、商家营业额提升及行业竞争回归服务本质 [1][4][8][12] 产品功能与技术创新 - 推出全球首个“飞行街景”功能,基于自研世界模型实现从街景到店内实景的连续、动态、高拟真数字还原,解决传统消费决策的体验断层和到店寻找难的问题 [4] - 宣布将于2026年一季度上线“AR实景”功能,通过实时数据融合渲染,为用户提供直观、情境化的交互体验,如扫描街道显示餐厅排名、扫描门头显示招牌菜 [4] - 推出全球首个全季节、全品类、全人群的生活服务动态榜单,目前已生成6553个时令榜单和1550个品类榜单,并基于空间智能能力支持榜单无限裂变 [5] - 引入基于信任关系的推荐机制,上线“好友动态”功能,并允许用户创建和分享个人榜单 [7] - 将投入价值数亿元的算力资源,为100万商家免费生成专属的“飞行街景”,商家仅需上传简短视频和照片即可 [1][11] 运营数据与市场表现 - 高德扫街榜上线100天累计用户规模突破6.6亿 [1] - 上线后带动高德APP月活跃用户数增至9.96亿,相当于一个月新增近4600万月活用户 [8] - 累计吸引86万新商家入驻高德,商家订单量环比增长超330% [9] - 商家营业额环比增长超270% [1] - 产品已覆盖全球220多个国家和地区的近1700座城市 [1] 行业影响与战略定位 - 以用户“真实行为”数据(如导航、搜索)和AI算法为基础,尝试解决本地生活服务信息失真的核心痛点,重建可信的生活服务信用体系 [2][8] - 推动了线下服务真实评价体系的再定义,带动了主打真实榜单的行业趋势 [1] - 通过“飞行街景”等技术降低商家线上展示门槛,推动行业竞争焦点从营销包装回归到经营与服务品质 [11][12] - 标志着互联网平台在本地生活领域的竞争进入新阶段,从价格补贴和内容营销转向对真实数据资产和AI能力的深层竞争 [14] - 是高德空间智能战略在本地生活领域的践行,旨在将地图服务演进为具备深度时空理解能力的出行生活智能体,目标是成为连接真实世界的超级入口 [8][13][14]