3D视觉
搜索文档
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞
具身智能之心· 2025-11-17 08:47
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 现在,只需要一个简单的、用深度光线表示训练的 Transformer 就行了。 这项研究证明了,如今大多数 3D 视觉研究都存在过度设计的问题。 本周五,AI 社区最热门的话题是一篇新论文,有关 3D 建模的。 经过一年多的探索,来自字节跳动的团队推出了 Depth Anything 3(DA3),将单目深度估计扩展到了任何视角场景,让计算机实现了媲美人类的空间感知。 论文:https://arxiv.org/abs/2511.10647 项目页面:https://depth-anything-3.github.io 为了追求最小建模,DA3 的工作获得了 两个关键见解 : 就是这样的方法, 在姿态估计方面比当前业界最先进的方法 (SOTA) 提升了 44%,在几何估计方面提升了 25%。 原来 3D 视觉竟然这么简单? 纽约大学计算机科学助理教授、知名 AI 学者谢赛宁表示,论文有点像电影: ...
顶级四校联手打造OmniVGGT:全模态视觉几何Transformer!
自动驾驶之心· 2025-11-17 08:05
核心观点 - 提出OmniVGGT框架,旨在解决现有3D基础模型无法灵活利用多种辅助几何信息(如深度、相机参数)的问题 [5][6] - 该框架通过两个核心创新(GeoAdapter和随机多模态融合策略)实现在训练和推理时能利用任意数量的辅助模态,且不影响纯RGB输入的性能 [7][9][10] - 实验表明,该模型在单目/多视图深度估计、相机位姿估计、3D重建及机器人操作任务上均达到顶尖水平,展示了强大的性能与实用性 [7][29][48] 技术背景与问题定义 - 当前主流3D基础模型(如VGGT)主要依赖RGB图像,无法有效利用实际应用中广泛存在的辅助信息(如RGB-D数据、激光雷达点云、相机参数) [5] - 现有方法要么只能使用一种辅助信息,要么最多处理两种,缺乏对不同应用场景的灵活适配能力,造成“信息浪费” [5][9] 核心技术:OmniVGGT框架 - **基础架构**:基于VGGT改进,使用DINO骨干网络提取空间令牌,并通过交替注意力机制处理多视图信息 [13][14] - **GeoAdapter(几何适配器)**:包含相机适配器和深度适配器,采用零初始化卷积等技术将不同几何信息轻量且稳定地注入基础模型,计算开销极小 [10][15][16] - **随机多模态融合策略**:在训练时随机采样模态子集,使模型能适应测试时任意数量和组合的模态输入,增强鲁棒性 [10][22][23] - **端到端处理**:输入图像集及任意数量的辅助信息,通过网络直接输出深度图、相机位姿和3D点云图 [12] 实验性能评估 - **单视图深度估计**:在Sintel数据集上,仅使用RGB输入时,其绝对相对误差(Abs Rel)为0.558,优于基线VGGT的0.722;当使用100%深度信息时,Abs Rel显著降低至0.106 [30][36] - **多视图深度估计**:在ETH3D数据集上,结合深度信息后,相对误差(rel)仅为0.5,准确率(δ<1.25)达到98.7% [36][40] - **相机位姿估计**:在CO3Dv2数据集上,结合相机参数输入时,AUC@30°达到93.4%,远超对比方法Pow3R的82.2%,且推理速度仅需0.2秒,快30倍以上 [39][42] - **3D重建**:在7-Scenes数据集上,结合相机与深度信息后,重建精度(Acc)提升至0.036,比纯RGB输入(0.104)提升约64.4% [43][47] - **机器人操作任务**:集成到视觉-语言-动作模型后,在CALVIN数据集上,使用RGB-D输入的任务平均连续完成数(Avg Len)达4.08,优于基线 [48][51] 架构有效性验证 - 消融实验证明,完整的OmniVGGT设计(零卷积处理相机信息、直接相加处理深度信息)性能最优,替代方案(如直接替换令牌或单层适配器)均导致性能下降 [49][52] - 该设计确保了在引入辅助信息时不破坏原有特征空间,纯RGB输入性能仍优于基线 [30][52] 行业应用与前景 - 该技术解决了3D视觉模型在多样化真实场景(如VR/AR、自动驾驶、机器人)中的输入适配性问题,实现了“全能辅助” [5][53] - 模型高效且实用,计算开销小,易于集成到现有系统(如VLA模型)以提升下游任务(如机器人操作)性能 [7][53] - 展现了在多模态融合领域的潜力,为未来扩展到更复杂动态场景奠定了基础 [54]
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞
机器之心· 2025-11-15 17:23
机器之心报道 编辑:泽南、杨文 现在,只需要一个简单的、用深度光线表示训练的 Transformer 就行了。 这项研究证明了,如今大多数 3D 视觉研究都存在过度设计的问题。 本周五,AI 社区最热门的话题是一篇新论文,有关 3D 建模的。 经过一年多的探索,来自字节跳动的团队推出了 Depth Anything 3(DA3),将单目深度估计扩展到了任何 视角场景,让计算机实现了媲美人类的空间感知。 为了追求最小建模,DA3 的工作获得了 两个关键见解 : 就是这样的方法, 在姿态估计方面比当前业界最先进的方法 (SOTA) 提升了 44%,在几何估计方面提升了 25%。 原来 3D 视觉竟然这么简单? 纽约大学计算机科学助理教授、知名 AI 学者谢赛宁表示,论文有点像电影:第一部通常是最好的,续集往 往更复杂却并不更精彩。但这完全不适用于 DepthAnything 系列。 Bingyikang 的团队每次都能让事情变得更 简单、更易于扩展。 论文:https://arxiv.org/abs/2511.10647 项目页面:https://depth-anything-3.github.io 代码:htt ...
奥比中光-UW(688322):25Q3业绩超预期 “机器人之眼”未来成长可期
新浪财经· 2025-10-30 14:36
公司业绩表现 - 2025年前三季度公司实现营业总收入7.14亿元,同比增长103.5% [1] - 2025年前三季度实现归母净利润1.08亿元,扣非归母净利润0.69亿元 [1] - 2025年单第三季度实现营业总收入2.79亿元,同比增长102.49% [1] - 2025年单第三季度实现归母净利润0.48亿元,扣非归母净利润0.38亿元 [1] - 收入增长主要源于三维扫描、支付核验、各类型机器人等业务领域的快速增长 [1] 盈利能力与费用控制 - 前三季度销售毛利率为42.80%,同比小幅下降1.19个百分点 [1] - 前三季度销售净利率为15.08%,同比大幅提升32个百分点 [1] - 前三季度期间费用率为36.08%,同比下降35.18个百分点 [1] - 销售费用率为6.94%,同比下降7.6个百分点 [1] - 管理费用率为9.19%,同比下降13.27个百分点 [1] - 研发费用率为20.52%,同比下降23.18个百分点,研发效率提升 [1] - 财务费用率为-0.58%,同比上升8.86个百分点 [1] - 盈利能力提升主要系大幅降费所致 [1] 市场拓展与技术布局 - 公司在韩国商用及工业移动机器人3D视觉市场占有率达72% [2] - 公司技术助力当地企业Twinny实现物流运营成本降低64.4% [2] - 公司已完成与日本TOP3机器人企业的合作布局 [2] - 在三维扫描领域,公司联合创想三维发布CRScanOtter、CR-Scan Raptor双旗舰3D扫描仪,搭载自研芯片 [2] - 在人形机器人领域,公司与地平线、地瓜机器人达成战略合作,打通"3D视觉+AI决策"链路 [2] - Gemini系列相机全面兼容NVIDIA Jetson平台,并于2025年正式加入Intel合作伙伴联盟,切入全球开发者生态 [2] 未来业绩预测与估值 - 预计公司2025年营收为9.36亿元,同比增长65.9% [2] - 预计公司2026年营收为14.76亿元,同比增长57.6% [2] - 预计公司2027年营收为18.98亿元,同比增长28.6% [2] - 预计公司2025年归母净利润为1.48亿元,同比增长335.0% [2] - 预计公司2026年归母净利润为3.26亿元,同比增长120.4% [2] - 预计公司2027年归母净利润为4.67亿元,同比增长43.4% [2] - 当前股价对应2025年/2026年/2027年PS估值分别为37.82倍/23.98倍/18.65倍 [3] - 公司被视为国内机器人之眼稀缺标的,业绩拐点初现,成长空间广阔 [3]
天准科技:公司将3D视觉技术广泛应用于工业零部件的质量控制
证券日报网· 2025-10-28 18:44
公司业务定位 - 公司是国内3D视觉领域的领先企业之一 [1] - 公司将3D视觉技术广泛应用于工业零部件的质量控制 [1]
天准科技:公司是国内3D视觉领域的领先企业之一
每日经济新闻· 2025-10-28 15:52
公司市场地位 - 公司是国内3D视觉领域的领先企业之一 [2] 技术应用 - 公司将3D视觉技术广泛应用于工业零部件的质量控制 [2]
天准科技:国内3D视觉领先企业,技术用于工业零部件质控
新浪财经· 2025-10-28 15:43
公司行业地位 - 天准科技是国内3D视觉领域的领先企业之一 [1] 技术应用领域 - 公司将3D视觉技术广泛应用于工业零部件的质量控制 [1]
提供最专业的平台和运营团队!我们正在招募运营的同学~
自动驾驶之心· 2025-10-21 08:06
公司业务与团队发展 - 公司已从初创团队发展为具备技术深度和广度的平台,业务线日益增多 [1] - 团队在2年多时间内孵化了4个核心IP,包括具身智能之心、自动驾驶之心、3D视觉之心、大模型之心Tech [1] - 公司内容矩阵在全网覆盖近36万用户,并通过公众号、视频号、知识星球、哔哩哔哩、知乎、小鹅通等多个平台持续运营 [1] 招聘岗位与职责 - 招聘全职及兼职自媒体运营和销售岗位各一名 [2] - 自媒体运营核心职责包括:管理课程/辅导进度、多平台运营以提升用户规模与质量、策划商业化项目与流量转换、负责行业技术类选题和内容、原创稿件撰写策划、推文管理和数据复盘 [4] - 销售岗位核心职责包括:制作在线/硬件产品宣传内容、对接硬件厂家和高校/企业客户、推广和转换在线教育产品 [5][6] 岗位要求 - 自媒体运营岗位要求:强大的执行力与沟通意识、本科及以上学历且计算机/AI类专业优先、熟悉多平台运营、具备文字功底 [4] - 销售岗位要求:强大的执行力与抗压能力、本科及以上学历且计算机/AI类专业优先、有自媒体销售经验、能接受出差和参会 [12] 工作地点与职业发展 - 工作地点位于杭州和上海 [7] - 员工将接触国内顶级运营团队,学习运营技巧和销售策略,获得快速成长机会 [7] - 员工将接触到自动驾驶、具身智能、3D视觉、大模型等前沿AI领域内容,同时对接工业界和学术界,以拓宽产业视野 [8] - 岗位提供读研、读博等个人提升机会 [9]
奥比中光前三季度净利1.07亿元实现扭亏为盈
巨潮资讯· 2025-10-16 18:48
业绩表现 - 公司预计2025年前三季度实现归属于母公司所有者的净利润约1.07亿元,同比增加约1.68亿元,实现扭亏为盈 [1] - 公司预计前三季度实现营业收入约7.14亿元,同比增长约103.5% [3] - 公司预计前三季度归属于母公司所有者的扣除非经常性损益后的净利润约6350万元,同比增加约1.65亿元 [3] 业务与技术 - 公司在3D视觉传感、AI计算与算法等核心技术领域持续深耕 [3] - 公司产品应用不断扩展至智能终端、工业检测、机器人、车载系统等多元场景 [3] - 公司在AI感知算法和结构光模组方面具备领先优势 [3] 市场与行业 - 公司业绩改善主要得益于高附加值产品结构优化及智能化市场需求扩大 [3] - 公司积极拓展国内外客户群体,增强在消费电子和工业视觉领域的渗透力 [3] - 随着行业应用边界扩大,公司盈利能力有望持续增强 [3] 未来展望 - 公司未来将进一步加大研发投入,持续优化智能感知与AI交互产品布局 [3] - 公司旨在巩固在3D视觉领域的技术领先地位,推动经营质量与盈利能力的稳步提升 [3]
提供最专业的平台和运营团队!我们正在招募运营的同学~
自动驾驶之心· 2025-10-16 07:33
公司业务与规模 - 公司从初创团队发展为拥有技术深度和广度的平台,业务线日益增多 [1] - 团队孵化了具身智能之心、自动驾驶之心、3D视觉之心、大模型之心Tech四个IP [1] - 公司全网拥有近36万粉丝,运营平台包括公众号、视频号、知识星球、哔哩哔哩、知乎、小鹅通等 [1] 招聘岗位与职责 - 招聘全职及兼职自媒体运营和销售岗位 [2] - 自媒体运营需负责对接老师学员、管理课程进度、多平台运营、策划商业化项目、行业选题及原创稿件撰写 [4] - 销售岗位需参与制作产品宣传内容、对接硬件厂家及高校企业客户、推广在线教育产品 [5][6] 岗位要求 - 自媒体运营岗位要求强大的执行力、本科及以上学历且计算机/AI类专业优先、熟悉多平台运营、具备文字功底 [4] - 销售岗位要求强大的执行力及抗压能力、本科及以上学历且计算机/AI类专业优先、有自媒体销售经验、能接受出差 [12] 工作地点与职业发展 - 工作地点为杭州和上海 [7] - 员工将接触顶级运营团队,学习运营技巧和销售策略,获得快速成长 [7] - 员工可接触到自动驾驶、具身智能、3D视觉、大模型等最新AI领域内容,同时对接工业界和学术界 [8] - 公司提供读研、读博等个人提升机会 [9]