Computer Vision
搜索文档
Seeing Machines posts 117% rise in vehicle production as Guardian sales surge
Yahoo Finance· 2026-02-11 15:42
Seeing Machines posts 117% rise in vehicle production as Guardian sales surge Proactive uses images sourced from Shutterstock Driver-monitoring specialist records highest-ever quarterly volumes ahead of European safety mandate Seeing Machines Ltd (AIM:SEE, OTC:SEEMF, FRA:M2Z) produced nearly 580,000 vehicles with its driver-monitoring systems in the second quarter of its 2026 financial year, a 117% increase on the same period a year ago. The Australia-based computer vision company said 4.8 million vehicl ...
90后兄弟“卖算法”年入2.5亿 回款账期从99天拖到379天
凤凰网财经· 2026-01-23 19:52
公司基本情况与上市进程 - 山东极视角科技股份有限公司已于近日获IPO备案,正式向港交所递交上市申请 [1] - 公司成立于2015年6月,由三位中山大学90后校友联合创立,并于2023年4月完成股改更名 [1] - 公司以“AI视觉算法商城”为核心模式,搭建了国内首个该类型平台 [3] 商业模式与市场地位 - 截至2025年9月末,公司的AI视觉算法商城已上线超过1500种算法,覆盖工业、能源、零售、交通等100余个行业 [3] - 公司累计服务了腾讯云、阿里云、华润集团、深圳地铁等超过3000家客户 [3] - 公司构建了由数十万个AI算法开发者组成的全球社区 [3] - 按2024年收入计,公司在中国新兴企业级计算机视觉解决方案市场排名第八,市场份额为1.6% [3] - 行业竞争格局分散,排名第一的企业市场份额为12.1% [3] 融资历程与估值变化 - 公司成立至今已完成11轮融资 [3] - 引入了高通中国、华润创新基金、山东陆海联动、国投资管、青岛海创等多家国资及产业资本 [3] - 2024年11月完成的D轮融资,以1000万元交易代价推动投后估值达23.1亿元 [3] - 相较于2015年天使轮950.12万元的估值,增长超过243倍 [3] - 2024年D轮融资后的23.1亿元估值,较2022年10月C3轮融资后的23亿元仅微增0.4% [4] 股权结构 - 创始人陈振杰、罗韵及员工持股平台横琴极力构成单一最大股东团体,根据一致行动协议合计拥有29.84%的投票权 [5] - 其中,陈振杰持股16.05%,罗韵持股4.39% [5] - 重要机构投资方高通中国持股4.97% [5] - 公司无港交所上市规则界定的控股股东 [5] 财务表现 - 营收保持高速增长:2022年至2024年营收分别为1.02亿元、1.28亿元、2.57亿元 [5] - 2025年前三季度营收增至1.36亿元,同比增幅达71.6% [5] - 盈利稳定性差:2022年、2023年分别亏损6072.2万元、5624.6万元,2024年短暂扭亏实现利润870.8万元,2025年前三季度再度转亏3629.6万元 [5] - 累计亏损规模从2024年末的9880万元扩大至2025年三季度末的1.258亿元 [5] 现金流与应收账款 - 经营活动现金流净额持续净流出:2022年至2025年前三季度分别为-7914.3万元、-7296.3万元、-1759.2万元、-2137.3万元,累计流出超1.9亿元 [6] - 贸易应收款项及应收票据总额从2022年末的4201.5万元攀升至2025年三季度末的1.81亿元 [6] - 应收账款周转天数从2022年的99天骤增至2025年三季度的379天 [6] 研发投入与知识产权 - 2022年至2024年累计研发开支超1亿元 [7] - 2025年前三季度研发费用占营收比例达34.4% [7] - 截至2025年9月末,公司101人的研发团队拥有30项专利、117项软件著作权 [7] - 核心的大模型解决方案高度依赖第三方模型,自主可控能力不足 [7] 员工流失率 - 2022年至2024年公司全体员工流失率分别高达63.04%、42.86%、45.91% [8] - 2024年,18-25岁员工流失率达到213.33%,26-35岁核心员工流失率为32.77% [8] - 2025年前九个月,全体员工流失率为19.11% [9] 公司治理与合规 - 公司存在未足额缴纳社保公积金、租赁协议未登记等问题 [9] - 这些问题在赴港上市进程中可能面临监管问询与处罚风险 [9]
Appointment of Marec Gasiun as Executive Vice President of Sales & Marketing at Neonode
Prnewswire· 2026-01-02 22:28
公司人事任命 - Neonode Inc 任命 Marec Gasiun 为销售与市场执行副总裁 任命自2026年1月1日起生效 [1] - 此次任命旨在整合所有商业活动至一个专注的团队 以提升执行效率并加速增长 [5] 新任高管背景 - Marec Gasiun 在全球汽车、科技和电信领域拥有广泛的商业领导经验 [2] - 其最近职务为全息深度科技先驱 SeeReal Technologies 的商业发展副总裁 [2] - 更早之前 其曾担任 Telia Company 的全球技术合作副总裁 [2] - 在加入 Telia 之前 其曾担任谷歌汽车软件业务的商业发展主管 负责车载软件平台的商业执行 [3] 公司战略与业务进展 - 公司正处于历史关键时刻 传统触摸技术持续衰退 其 MultiSensing 计算机视觉与人工智能技术预计将在2026年取得显著进展 [3] - 2025年12月 公司成功将一个先前宣布的商用车设计获胜项目转化为生产许可协议 [4] - 该里程碑意味着 MultiSensing 驾驶员监控系统现已在道路上的商用车中部署 标志着从验证到实际应用的重要一步 [4] - 凭借此成就 公司有望通过新的设计获胜和战略合作伙伴关系加速其在汽车领域的势头 [4]
SIGGRAPH Asia 2025|30FPS普通相机恢复200FPS细节,4D重建方案来了
机器之心· 2025-12-14 12:53
核心观点 - 提出了一种名为“4DSloMo”的软硬协同解决方案,通过“异步采集”与“视频扩散模型修复”相结合,实现了仅利用30 FPS的普通相机阵列,就能恢复出相当于100-200 FPS的高质量动态4D模型,为高速4D重建提供了一条低成本、高质量的新路径 [2][3] 硬件革新:异步捕捉 - 核心思路是突破单个相机速度瓶颈,通过让多个相机协同工作,实现“接力式”拍摄 [6] - 具体方案是人为给不同相机或相机组设置微小启动延迟,进行“错峰拍摄”,从而在时间维度上获得更密集的信息 [6] - 例如,8台25 FPS的相机,若分成4组交替启动,可实现100 FPS的有效捕捉帧率;分成8组甚至能达到200 FPS,整个过程无需额外硬件成本 [8] 软件革新:视频扩散模型修复 - 异步捕捉带来了“稀疏视角”问题,导致初步重建结果产生“浮块”等视觉伪影 [10] - 为解决此问题,训练了一个专门用于修复4D重建伪影的视频扩散模型,其核心功能是接收含伪影的视频输入,并输出精修后的高质量视频 [13] - 该模型利用输入视频提供的时空上下文作为引导,专注于去除伪影并补全细节,其优势在于能保证修复结果的“时间一致性”,避免逐帧修复带来的纹理闪烁等问题 [13] - 通过在高质量4D数据上模拟异步捕捉过程生成训练数据集,并对大规模预训练视频模型进行微调,使其学习从伪影输入到清晰输出的映射关系 [13] 整体流程与框架 - 方法构建了一个迭代式的“重建-优化”框架,将硬件捕捉与AI算法相结合 [14] - 整体流程为:异步视频 → 初步重建 → 视频增强 → 优化4D模型 [17] - 具体步骤包括:1) 利用异步捕捉数据重建初步的4D高斯模型(存在伪影)[20];2) 用初步模型渲染出含伪影的视频作为扩散模型输入 [20];3) 将渲染视频送入视频扩散模型进行增强,去除伪影并提升质量 [15];4) 将增强后的高质量视频作为新的监督信号,进一步优化4D高斯模型,提升最终重建质量 [15] 方法效果与验证 - 在DNA-Rendering和Neural3DV两大公开数据集的测试中,该方法在PSNR、SSIM和LPIPS三项核心指标上超越了K-Planes、4DGS、GS4D等多种当前顶尖方法 [19] - 具体数据:在DNA-Rendering数据集上,PSNR为26.76,SSIM为0.845,LPIPS为0.293;在Neural3DV数据集上,PSNR为33.48,SSIM为0.951,LPIPS为0.134,均优于对比方法 [21] - 通过搭建包含12个25 FPS相机的真实多视角捕捉系统进行验证,证明该方法在真实、复杂的异步捕捉环境下,依然能够稳健地重建出高质量、时空一致的4D内容 [22]
NeurIPS Spotlight|GHAP:把3DGS“剪枝”变成“重建更小的高斯世界”
机器之心· 2025-11-14 17:30
技术核心观点 - 提出一种名为Gaussian-Herding-across-Pens (GHAP)的新方法,用于3D Gaussian Splatting (3DGS)的模型压缩,其核心是将3DGS视为高斯混合模型,并采用最优传输视角进行全局简化 [4][8][9] - 该方法在仅保留10%高斯球的情况下,能实现画质几乎不下降,且效果稳定优于主流压缩方案 [4][9] - 该技术框架具有可插拔性,可直接嵌入大多数3DGS变体中,具备极高的可扩展性 [9][28] 方法论创新 - 新视角:首次将3DGS建模为高斯混合分布,并将压缩问题表述为高斯混合简化问题,以在保持几何结构的同时降低冗余 [9][14] - 新框架:提供可扩展至大规模场景的压缩框架,使用KD-Tree进行空间均匀分块,并在每个子块中进行高斯混合简化,使大规模压缩可行 [9][17] - 两段式流程:先进行几何信息(位置/协方差)的约简,再进行外观特征(不透明度/颜色)的细化,解耦几何与外观使效果更稳定 [9][17] 性能表现 - 在Tanks & Temples数据集上,3DGS+GHAP在保留10%高斯球(157个)时,指标为SSIM 0.818,PSNR 23.312,LPIPS 0.242 [20][23] - 在MipNeRF-360数据集上,同等条件下指标为SSIM 0.764,PSNR 26.404,LPIPS 0.314 [20][23] - 在Deep Blending数据集上,同等条件下指标为SSIM 0.905,PSNR 29.647,LPIPS 0.264,其PSNR值甚至接近原始未压缩模型(29.816)[20][23] - 当GHAP应用于MiniSplatting基础模型并保留10%高斯球时,在Deep Blending数据集上实现了反超,PSNR达到30.042,高于原始模型的29.980 [20][23] 技术优势与特点 - 相较于传统“剪枝”方法容易破坏全局几何结构,GHAP方法通过全局最优的方式重建更小的混合模型,能显著保留概率分布的结构形态,即原3D物体的几何形态 [8][15][17] - 该方法是一个后处理方法,无需重新训练,具有极高的可扩展性和可插拔性 [9][28] - 实验结果显示,该方法在渲染质量上普遍优于其他基于剪枝的方法和端到端的方法 [9][20]
Feed-Forward 3D综述:三维视觉如何「一步到位」
机器之心· 2025-11-06 16:58
文章核心观点 - 一篇由12所顶尖学术机构联合撰写的综述论文,系统总结了2021至2025年间兴起的“前馈式3D”技术新范式,该范式旨在克服传统方法依赖“逐场景优化”导致的效率低下和泛化能力弱的问题,推动实时、通用的3D理解发展 [2] 五大代表性技术分支 - **条件式NeRF分支**:自PixelNeRF起,研究者探索让网络直接预测辐射场,发展出基于1D、2D和3D特征的方法 [7][12] - **点图模型分支**:由DUSt3R引领,直接在Transformer中预测像素对齐的3D点云,后续工作如MASt3R、Fast3R等提升了多视整合和长序列记忆能力 [9] - **3D高斯泼溅分支**:通过引入神经预测器实现直接输出高斯参数,包括基于图像的高斯图预测和基于体积的高斯表示两类方法 [10][13] - **网格/占据/SDF模型分支**:将传统几何建模思路与Transformer、Diffusion模型结合,如MeshFormer、InstantMesh等模型 [14][19] - **3D无关模型分支**:不依赖显式三维表示,直接学习从多视图到新视角的映射,包括基于回归的方法和基于生成扩散模型的方法 [14][19] 多样化任务与应用场景 - 应用方向涵盖无姿态重建与新视角合成、动态4D重建与视频扩散、SLAM与视觉定位、3D感知的图像与视频生成、数字人建模以及机器人操作与世界模型等多个前沿领域 [20] 基准数据集与评测指标 - 论文收录超过30个常用3D数据集,涵盖对象级、室内、室外、静态与动态场景,数据规模从7个场景到1,020万个对象不等,例如Objaverse-XL包含1,020万个合成对象,MVImgNet包含219,188个真实对象 [18][21] - 总结了包括PSNR/SSIM/LPIPS(图像质量)、Chamfer Distance(几何精度)、AUC/RTE/RRA(相机姿态)在内的标准指标体系 [18] 量化评测结果 - **相机姿态估计**:在Sintel数据集上,TT方法的绝对轨迹误差最低,为0.074;在RealEstate10K数据集上,VGGT和TT方法的相对姿态误差指标表现优异 [23] - **点图重建**:在7-Scenes数据集上,VGGT方法在点云精度和法向一致性上表现最佳,平均精度达0.087,平均法向一致性达0.787 [24] - **视频深度估计**:在尺度与偏移对齐条件下,TT方法在Sintel和KITTI数据集上的绝对相对误差分别低至0.210和0.037,δ<1.25的指标分别高达0.726和0.985 [25] - **单图新视角合成**:在Tanks-and-Temples数据集上,PE-Fields方法取得了最高的PSNR(22.12)和SSIM(0.732),以及最低的LPIPS(0.174) [26] 未来挑战与趋势 - 当前面临四大开放问题:多模态数据不足、重建精度待提升、自由视角渲染难度高以及长上下文推理存在显存瓶颈 [28][29] - 未来研究方向包括扩散Transformer与长程注意力结构、可扩展的4D记忆机制、多模态大规模数据集构建以及开发兼具生成和重建能力的前馈模型 [28]
Feed-Forward 3D综述:3D视觉进入“一步到位”时代
自动驾驶之心· 2025-11-01 00:03
文章核心观点 - 一篇由12所顶尖学术机构联合撰写的综述论文,系统总结了2021至2025年间快速前馈3D重建与视图合成领域的技术进展 [6] - 该领域正经历从传统的、依赖每个场景反复优化的范式,向基于AI的、具备泛化能力的快速前馈范式转变 [2] - 论文首次建立了完整的快速前馈3D方法谱系与时间线,并划分了五类主流架构 [6][8] 技术架构分类与演进 - **基于NeRF的模型**:从PixelNeRF开始,探索“条件式NeRF”,发展出1D、2D和3D特征方法三大技术分支 [8] - **点图模型**:由DUSt3R引领,直接在Transformer中预测像素对齐的3D点云,无需相机姿态输入 [10] - **3D高斯泼溅模型**:将场景表示为高斯点云,通过神经预测器直接输出高斯参数,分为基于图像和基于体积的表示方法 [11][13] - **网格/占用/SDF模型**:结合Transformer与Diffusion模型进行传统几何建模 [14] - **无3D表示模型**:直接学习从多视图到新视角的映射,不再依赖显式三维表示 [14] 多样化任务与应用场景 - 应用覆盖无姿态重建与视图合成、动态4D重建与视频扩散、SLAM与视觉定位、3D感知的图像与视频生成、数字人建模以及机器人操作与世界模型等多个前沿方向 [19] - 这些技术使得“从单张图像生成整个场景”成为可能,极大地拓展了3D技术的应用边界 [15] 基准数据集与评测体系 - 论文收录了超过30个常用3D数据集,涵盖对象级、室内、室外、静态与动态场景,数据规模庞大,例如Objaverse-XL包含10.2M个对象,MVImgNet包含219,188个对象 [20][21] - 总结了PSNR/SSIM/LPIPS(图像质量)、Chamfer Distance(几何精度)、AUC/RTE/RRA(相机姿态)等标准指标体系,为模型比较提供统一基线 [20] 量化性能对比 - 在相机姿态估计任务上,TT方法在Sintel数据集上的绝对轨迹误差低至0.074,在RealEstate10K数据集上的RRA@30指标达到99.99% [22] - 在点图重建任务上,VGGT方法在7-Scenes数据集上的精度均值为0.087,法向一致性中位数达到0.890 [23] - 在视频深度估计任务上,PE-Fields方法在Tanks-and-Temples数据集上的PSNR达到22.12,SSIM达到0.732,LPIPS低至0.174 [24] 未来挑战与发展趋势 - 当前面临四大开放问题:多模态数据不足、重建精度待提升、自由视角渲染难度高以及长上下文推理存在显存瓶颈 [25][26] - 未来趋势将聚焦于Diffusion Transformers与长程注意力结构、可扩展的4D记忆机制、多模态大规模数据集构建以及同时具备生成和重建能力的模型开发 [26]
三维重建综述:从多视角几何到 NeRF 与 3DGS 的演进
自动驾驶之心· 2025-09-23 07:34
三维重建技术演进综述 - 三维重建是计算机视觉与图形学的交叉核心,作为虚拟现实、增强现实、自动驾驶、数字孪生等前沿应用的数字底座 [5] - 以神经辐射场(NeRF)和三维高斯抛雪球(3DGS)为代表的新视角合成技术,使重建质量、速度、动态适应性同时跃升 [5] - 技术演进从传统多视角几何(SfM→MVS)到NeRF与3DGS,为数字孪生、智慧城市、元宇宙等领域提供技术演进全景图 [5] 应用需求驱动技术革新 - 城市级数字孪生需求公里级范围、厘米级精度、分钟级更新 [6] - 自动驾驶仿真需求动态交通流、实时语义、可编辑车道 [6] - AR/VR社交需求轻终端、大于90 FPS、照片级真实感 [6] - 工业数字工厂需求弱纹理、反光、复杂拓扑完整建模 [6] - 传统先几何后纹理管线无法满足新需求,NeRF与3DGS通过可微渲染统一学习几何-纹理-光照,实现从离线静态到实时动态的突破 [6] 传统多视角几何重建(SfM→MVS) - 理论基石包括对极几何x'^T F x = 0、三角测量X = argmin(∑‖π(P_i,X)−x_i‖^2)和束调整min ∑‖x−π(P,X)‖^2 + λ‖P−P_0‖^2 [9][10] - 成熟工具链包括COLMAP(学术最常用,CPU优化)、OpenMVG(模块化,适合算法研究)、Agisoft Metashape(商业级,支持无人机影像)和ContextCapture(Bentley城市级解决方案) [11] - 存在五大痛点:数据饥渴需大于70%航向重叠加60%旁向重叠、弱纹理空洞(玻璃、白墙、水面、天空)、光照敏感导致阴阳面色差和纹理接缝明显、动态失效导致行人车辆重影/鬼影、编辑困难改一棵树要重跑全流程 [13][15] NeRF隐式神经辐射场(2020-2024) - 基础框架将场景建模为连续5D函数F_Θ:(x,y,z,θ,φ)→(c,σ),通过体渲染积分得到像素颜色 [13][14] - 质量提升路线包括Mip-NeRF(锥体追踪+集成位置编码解决锯齿混叠,训练时间×2)、NeRF-W(外观嵌入+可变光照解决天气/曝光变化,推理需调latent)、NeRF++(反向球面背景+双层场景解决远景退化,参数量+30%)、NeRFLiX(退化模拟器+视角混合解决伪影噪声,需合成数据预训练)、BAD-NeRF(运动模糊物理模型解决模糊输入鲁棒,需已知模糊核)、UHDNeRF(隐式体+稀疏点云高频实现8K超高清,显存增加) [17] - 效率优化路线包括InstantNGP(多分辨率哈希编码实现5秒至1分钟训练时间、5 FPS渲染、1.2 GB显存)、TensoRF(CP分解+低秩近似实现10分钟训练、10 FPS、300 MB显存)、NSVF(稀疏体素八叉树实现30分钟训练、15 FPS、500 MB显存)、Zip-NeRF(抗锯齿网格采样实现20分钟训练、20 FPS、400 MB显存)、Lightning NeRF(点云先验初始化实现8分钟训练、10 FPS、600 MB显存) [18] - 稀疏视角合成(小于10张图)方法包括FreeNeRF(频率正则+遮挡正则实现DTU 3-view PSNR 19.92,零额外开销)、FlipNeRF(反射射线过滤实现PSNR 19.55,减少漂浮物)、MixNeRF(混合密度+深度估计实现PSNR 18.95,提升几何)、HG3-NeRF(几何-语义-光度分层实现PSNR 19.37,需语义标签) [20] - 动态场景(视频输入)方法包括Deformable-NeRF(变形场Ψ(x,t)实现D-NeRF PSNR 29.8,正则化扭曲)、NSFF(场景流+静态/动态分解实现PSNR 31.5,可解释运动)、DNeRF(时间编码γ(t)实现PSNR 29.6,无需额外mask)、NeRFPlayer(静态+变形+新区域实现PSNR 30.2,流式播放)、Tensor4D(4D张量分解实现PSNR 31.0,内存下降50%) [21] 3DGS三维高斯溅射(2023-2025) - 基础公式将场景表示为3D高斯集合G={μ_i,Σ_i,α_i,SH_i}_{i=1}^M,投影到图像平面后按深度排序做α-混合C=∑_{i∈N}c_iα'_i∏_{j=1}^{i-1}(1-α'_j) [22][23] - 渲染质量优化方法包括Mip-Splatting(3D/2D Mip滤波实现抗锯齿,LPIPS下降10%)、Scaffold-GS(锚点生长-剪枝实现内存下降79%,覆盖提升)、GaussianPro(渐进传播+深度一致实现低纹理PSNR提升1.7 dB)、GSDF(高斯+SDF双分支实现几何误差下降30%)、SuperGS(粗到细+梯度引导分裂实现4K超分实时) [25] - MipNeRF360对比显示3DGS的PSNR 27.21、SSIM 0.815、LPIPS 0.214、FPS 134、内存734 MB;GSDF的PSNR 29.38、SSIM 0.865、LPIPS 0.185;Scaffold-GS的PSNR 28.84、SSIM 0.848、LPIPS 0.220、FPS 102、内存156 MB;SuperGS的PSNR 29.44、SSIM 0.865、LPIPS 0.130、FPS 47、内存123 MB [26] - 效率再升级方法包括LightGaussian(蒸馏+量化+伪视角实现15倍压缩,200 FPS)、CompGS(K-means+游程编码实现存储下降80%)、EAGLES(轻量化编码实现显存下降70%)、SuGaR(表面网格提取实现编辑友好,Poisson重建)、Distwar(寄存器级并行实现GPU原子操作下降60%) [27][28] - 稀疏视角重建(小于10张图)方法包括FSGS(单目深度+邻域上采样实现200 FPS,需预训练DepthNet)、SparseGS(扩散模型补全实现实时360°,生成伪标签)、LM-Gaussian(大模型视觉先验实现迭代细化,视频扩散)、MCGS(多视角一致性修剪实现内存下降50%,渐进剪枝) [29] - 动态重建(视频)方法包括Deformable 3D-GS(变形场实现D-NeRF PSNR 39.51,时序正则)、4D-GS(神经体素+MLP实现PSNR 34.05,分解4D特征)、Gaussian-Flow(双域变形实现PSNR 34.27,显式运动向量)、DN-4DGS(去噪网络实现PSNR 25.59,时空聚合) [30] 三代技术横向对比 - 核心表征:SfM/MVS为点云+Mesh,NeRF为隐式σ(x)+c(x),3DGS为显式高斯集合 [31] - 几何精度:SfM/MVS★★★★☆,NeRF★★★☆☆,3DGS★★★☆☆ [31] - 照片真实感:SfM/MVS★★☆☆☆,NeRF★★★★★,3DGS★★★★☆ [31] - 训练时间:SfM/MVS为小时级,NeRF为小时至天级,3DGS为分钟级 [31] - 渲染FPS:SfM/MVS小于1,NeRF小于1,3DGS为50-300 [31] - 动态扩展:SfM/MVS不支持,NeRF需变形场,3DGS支持时序高斯 [31] - 编辑性:SfM/MVS极难,NeRF隐式不可见,3DGS支持移动/删除/增改 [31] - 硬件门槛:SfM/MVS只需CPU,NeRF需8个高端GPU,3DGS只需1个消费GPU [31] - 代表落地:SfM/MVS用于测绘、文保,NeRF用于影视、直播,3DGS用于AR/VR、自动驾驶 [32] 未来5年技术雷达 - 混合表征:NeRF+3DGS+SDF统一框架,光滑表面用SDF,高频细节用高斯,空洞用NeRF补全 [33] - 端侧实时:INT4量化+TensorRT/ONNX实现手机30 FPS重建 [33] - 生成式重建:Diffusion先验+3DGS实现单图/文本生成可驱动3D资产 [33] - 物理-语义联合:引入光照模型、重力、语义标签实现一键可编辑城市场景 [33] - 多模态融合:LiDAR深度、事件相机、IMU、Thermal同步实现SfM-free鲁棒重建 [33] - 三维重建将走向人人可用、处处实时的普适计算时代,让每部手机、每台车、每副AR眼镜都拥有实时数字化的瑞士军刀 [34]
港科&地平线&浙大联手开源SAIL-Recon:三分钟重建一座城
自动驾驶之心· 2025-09-03 07:33
文章核心观点 - SAIL-Recon提出一种结合场景回归与定位的大规模运动恢复结构(SfM)方法 通过少量锚图像提取神经场景表征 实现数千张图像的高效精确重建 在精度和效率上均超越传统及学习方法 [5][7][10][34] 技术方法 - 采用锚图像采样策略 通过Transformer提取神经场景表征 并基于此对所有图像执行联合位姿与结构估计 [9][11] - 使用DINOv2提取图像特征 结合相机token与寄存器token 通过自注意力层和DPT头预测深度图及场景坐标图 [13] - 引入注意力掩码机制 使查询图像仅与锚图像表征交互 并通过相机头直接回归位姿 [17][19] - 训练阶段采用多任务损失函数 推理阶段通过KV-Cache缓存键值以节省GPU内存 [11][20] 性能表现 - 在Tanks & Temples数据集上 平均每场景处理300+张图像 FFD版本达到70.4% RRA@5和74.7% RTA@5 误差仅0.008 耗时233秒 [21][26] - 在7-Scenes数据集定位任务中 平均精度达93.8% 与ACE0持平 但训练加定位总耗时仅8分钟 远低于ACE0的2小时 [32] - 新视角合成任务中 PSNR指标全面领先:Mip-NeRF 360数据集平均PSNR达19.5 超越DROID-SLAM的16.9和BARF的18.1 [33] - 锚图像数量从10张降至2张时精度仅缓慢下降 300 token/图像配置实现精度与速度平衡 [32] 效率优势 - 处理数千张图像仅需数分钟 显著快于COLMAP的1977秒和ACE0的5499秒 [21][32] - 无需逐场景训练 支持大规模场景一次性前馈推理 后优化阶段10k次迭代仅需2-10分钟 [7][24] - 在TUM-RGBD数据集实现与SLAM相当的精度 且无需相机内参 [32]
多样化大规模数据集!SceneSplat++:首个基于3DGS的综合基准~
自动驾驶之心· 2025-06-20 22:06
三维高斯溅射技术发展 - 三维高斯溅射(3DGS)成为最理想的三维表示方法,因其能联合编码场景的几何、外观和理解属性[2] - 视觉-语言推理是三维场景理解最具前景的方向,将视觉/几何属性与语言概念连接[2] - 现有方法分为三类:基于梯度的单场景优化、免优化的特征聚合、泛化方法[3] 评估基准创新 - 提出SceneSplat-Bench基准,包含1060个场景和325个语义类别,首次在三维空间评估性能[3] - 现有评估存在三大局限:样本量少(仅9-21个场景)、依赖训练视点、二维评估为主[4] - 基准测试显示泛化方法SceneSplat在f-mIoU指标上最高达0.354(ScanNet20)和0.338(Matterport3D)[24] 数据集突破 - 发布SceneSplat-49K数据集,包含46K个3DGS场景,总高斯数达29.24B,覆盖室内外环境[9][10] - 数据集平均质量达27.8dB PSNR和0.90 SSIM,几何误差仅0.061米,存储量8.36TB[10][12] - 包含12K个带视觉语言嵌入的场景,采用动态加权机制融合全局/局部特征[19] 技术性能比较 - 泛化方法SceneSplat运行时仅0.24分钟/场景,显著优于优化方法(76-621分钟)[5][24] - 免优化方法在效率(4-5.6分钟)和准确率上均优于优化方法,如Gradient-Weighted 3DGS在ScanNet20达0.418 f-mIoU[5][24] - 数据规模扩大使ScanNet++性能提升69%(f-mIoU从0.168到0.284)[28] 跨领域应用 - 室内训练模型可迁移至室外场景,零样本性能达0.263 mIoU,但特定领域数据仍关键[29] - 城市尺度数据集HoliCity包含6,300个伦敦场景,覆盖20平方公里,支持室外评估[17][22] - 合成数据Aria ASE贡献25K程序化室内场景,采用鱼眼图像校正技术[16]