计算机视觉
搜索文档
单应计算加速数十倍、计算量减少95%!基于几何的SKS和ACA矩阵分解被提出
机器之心· 2025-06-19 11:50
论文简介 - 东华大学、上海交通大学、中科院自动化所研究团队提出两种基于几何的单应矩阵分解方法,相比传统稀疏线性方程组方法减少95%以上计算量,显著提升二维码扫描等视觉应用效率[3] - 该方法适用于射影几何、计算机视觉和图形学领域,论文已被IEEE T-PAMI期刊接收[4] - 论文标题为《Fast and Interpretable 2D Homography Decomposition: Similarity-Kernel-Similarity and Affine-Core-Affine Transformations》,提供代码、视频介绍及奖金激励[5] 问题背景 - 平面单应是8自由度的3×3矩阵,传统DLT方法通过构建稀疏线性方程组求解,OpenCV实现需约2000次浮点运算[6] - 改进方法包括3×3矩阵SVD分解(1800次运算)和定制化高斯消元法(220次运算),二维码场景可进一步简化但缺乏研究[7] 核心方法 - SKS变换利用两组对应点分解单应为相似-射影核-相似变换,通过标准点转换和双曲相似变换实现几何层次化求解[9][10][11] - ACA变换通过三组对应点实现仿射-射影核-仿射分解,仅需85次浮点运算,正方形模板场景可优化至29次运算[15][16][18] 性能对比 - ACA分解单次计算仅需17纳秒,相比DLT+LU方法实现43倍实际加速(理论FLOPs提升20倍)[21][22] - SKS方法在O2优化下实现29倍加速,超越理论11倍FLOPs改进,因避免了条件判断等额外开销[22] 应用前景 - 日均百亿次二维码扫描场景中,新方法可减少浮点运算量,相比传统DLT+LU节省显著[24] - 技术可集成于相机标定、图像拼接、AR等视觉任务,并延伸至深度学习单应估计、P3P姿态估计等研究方向[24][25]
刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
机器之心· 2025-06-13 23:45
CVPR 2025大会概况 - 本届CVPR共收到13008份论文投稿,同比增长13%,最终接收2872篇,接收率22.1% [3] - 大会现场参会学者超过9000人,来自70余个国家和地区 [7] - 图像与视频生成领域论文接收数量最多,基于多视角和单图像的3D领域接收率最高 [8] 最佳论文及荣誉提名 - 最佳论文VGGT由牛津大学和Meta AI联合提出,采用纯前馈Transformer架构实现通用3D视觉模型,推理速度达秒级 [14][17] - 荣誉提名论文MegaSaM来自Google DeepMind等机构,提出深度视觉SLAM框架,在动态场景中实现快速准确的相机姿态估计 [27][30] - 另一篇荣誉提名论文Navigation World Models由LeCun团队提出,采用条件扩散Transformer实现最先进视觉导航性能 [33] 3D视觉技术进展 - 3D Student Splatting and Scooping(SSS)改进了3D高斯泼溅技术,在质量和参数效率上优于现有方法 [37][40] - 论文实验数据显示,SSS方法在Mip-NeRF360数据集上PSNR达29.90,LPIPS为0.145,表现最优 [42] 视觉语言模型创新 - Molmo和PixMo论文提出开源视觉语言模型,72B参数模型在多项基准测试中超越Claude 3.5 Sonnet等商业模型 [46] - 该方法创新性地使用PixMo数据集,无需依赖专有VLM合成数据 [46] 学生论文亮点 - 最佳学生论文提出首个基于物理的多视角动态光传播神经逆渲染系统,实现强间接光条件下的3D重建 [55] - 荣誉提名学生论文创新性地利用扩散时间步构建视觉语言,统一多模态理解和生成 [63][66] 行业重要奖项 - 年轻研究者奖授予Hao Su和谢赛宁,两人论文被引量分别超过12万和7.5万 [68][72][74] - Longuet-Higgins奖授予Inception架构和全卷积网络两篇开创性论文,引用量分别达6.7万和4.9万 [76][79][80][83] - Thomas S. Huang纪念奖授予德克萨斯大学Kristen Grauman教授,表彰其在计算机视觉领域的贡献 [86]
微美全息上涨5.13%,报2.46美元/股,总市值2415.92万美元
金融界· 2025-06-11 21:50
股价表现 - 6月11日开盘上涨5.13%至2.46美元/股 [1] - 当日成交额达10.36万美元 [1] - 总市值为2415.92万美元 [1] 财务数据 - 2024年收入总额5.42亿人民币,同比减少7.42% [1] - 归母净利润7164.15万人民币,同比增长117.01% [1] 公司背景 - 注册于开曼群岛,主要通过北京微美云息软件有限公司运营 [1] - 中国领先的全息云产业综合实体 [1] - 目标成为具有国际影响力的全息云平台 [1] 业务范围 - 覆盖全息AR技术全产业链 [1] - 提供一站式全息云综合技术方案 [1] - 中国最大的全息云技术方案提供商之一 [1] 技术能力 - 涵盖全息计算机视觉AI合成到应用的全环节 [1] - 包括全息AR广告投放、SDK支付、5G通讯开发等 [1] - 具备全息人脸识别和AI换脸开发能力 [1] 行业应用 - 在广告、娱乐、教育、5G通讯领域取得突破 [2] - 深度研发全息3D计算机视觉各环节技术 [2] - 构建开放性服务平台连接技术与应用 [2] 发展战略 - 推动全息技术在不同场景的应用呈现 [2] - 促进行业跨越式发展 [2] - 愿景是成为中国全息生态缔造者 [2]
速递|Buildots完成4500万美元D轮融资,用AI模型+计算机视觉破解建筑业“信息脱节”难题
Z Potentials· 2025-05-30 11:23
公司概况 - Buildots是一家成立于2018年的芝加哥初创公司 由Roy Danon、Aviv Leibovici和Yakir Sudry联合创立 专注于通过人工智能和计算机视觉技术改善建筑行业管理效率 [3] - 公司已完成D轮4500万美元融资 由Qumra Capital领投 总融资额达1 66亿美元 [3] - 目前拥有230多名员工 计划重点扩充研发团队并拓展北美业务 [4] 核心技术 - 平台通过管理人员安全帽上的360度摄像头采集图像 实时追踪施工进度 [3] - 系统具备监测和预测功能 通过AI聊天机器人提供项目状态查询和延误风险预警 [4] - 计划利用历史数据训练AI模型 建立基准并优化建筑项目表现 [4] 市场定位 - 客户包括英特尔和约50家建筑企业 服务对象涵盖现场管理人员、建筑高管等多方利益相关者 [4] - 差异化优势在于以运营为核心的平台及建筑行业绩效管理的独特方法 [5] - 主要竞争对手包括BeamUp和Versatile等AI建筑科技公司 [4] 行业痛点 - 建筑行业存在管理人员与现场实际情况脱节的问题 需同时处理成本动态、多方沟通和承包商风险评估等复杂任务 [2] - 传统决策依赖碎片化信息 缺乏真实可衡量的数据支持 [4]
4万多名作者挤破头,CVPR 2025官方揭秘三大爆款主题, 你卷对方向了吗?
机器之心· 2025-05-28 11:02
计算机视觉领域热门方向 - CVPR 2025基于全球4万多名作者的13008份投稿统计出三大热门方向 投稿数量同比增长13% 最终接收2878篇论文 接收率22.1% [3] - 研究群体呈现指数级增长趋势 AI领域重要性提升带动相关学位攻读人数增加 [3] 多视角与传感器3D技术 - 该方向投稿量激增 研究重点从单幅图像2D渲染转向复杂3D评估 2020年NeRF技术突破推动领域发展 [4][5] - 高斯泼溅(Gaussian splatting)技术进一步促进计算机视觉与图形学融合 神经渲染研究显著提升3D相关论文数量 [5] 图像与视频合成 - 成为CVPR 2025最大论文类别之一 多模态商业聊天机器人已实现图像/视频生成能力 正朝交互式世界生成演进 [6] - 会议展示的合成方法为生成完整虚拟环境奠定技术基础 [6] 多模态学习 - 视觉、语言和推理合并为投稿量最大类别之一 可能预示新研究趋势 [7][8] - CVPR坚持学术公平原则 每篇论文评审标准独立于作者机构背景 维护领域生态平衡 [8] 行业动态 - CVPR 2025会议即将召开 投稿竞争加剧反映AI研究热度持续攀升 [8] - 机器之心将同步举办论文分享会 提供学术交流平台 [8]
长春光机所光电突触器件研究取得新进展
环球网资讯· 2025-05-10 17:18
技术突破 - 长春光机所科研人员开发出紫外光电突触器件和光电突触晶体管,为人工视觉系统和神经形态计算视觉提供新技术路径 [1] - 紫外光电突触器件利用AlScN铁电极化特性和GaN光电性能,基于异质结处空穴俘获与解俘获机制构建 [1] - 光电突触晶体管通过气体吸附辅助持久光电导策略,实现紫外到近红外的宽谱高光电转换效率和长时数据保留能力 [1] 器件性能 - 紫外光电突触器件具备非易失性存储特性,可模拟生物视觉突触功能,实现多阻态调节如长时程增强(LTP)、对脉冲增强(PPF)等 [1] - 光电突触晶体管在375nm-1310nm宽谱范围内展现长时数据保留能力,双脉冲易化(PPF)指数达158% [2] - 器件在紫外到近红外波段展现出优异的光电探测性能 [2] 应用前景 - 器件成功模拟人眼视网膜细胞对多光谱信号的感知与识别功能,为多光谱神经形态视觉系统提供高效解决方案 [2] - 神经形态视觉系统模拟人脑神经元和突触结构,采用并行处理方式,可同时处理多路信息,降低功耗并提升数据处理速度 [2] - 计算机视觉是自动驾驶、智能机器人和智能制造等新兴领域的核心技术 [2]
CVPR 2025 | CV 微调卷出天际,Mona:我小、我强、我省资源
机器之心· 2025-05-01 10:11
代码地址: https://github.com/Leiyi-Hu/mona 合作单位包括清华、国科大、上海交大、阿里巴巴。本文第一作者为殷东硕,清华大学计算机系「 水木学者」博后,中科院博士,曾以一作身份在 Nature Communications、IEEE CVPR、IEEE ICCV、ACM MM、IEEE TITS 等国际期刊/会议发表论文,并任 NeurIPS、CVPR、ICCV、ICLR、IEEE TIP、 IEEE TMM 等会议期刊审稿人。曾获「 中国科学院院长奖」,并与微软亚洲研究院 MSRA 和阿里巴巴集团进行科研合作。研究方向包括计算机视觉、参数 高效微调、视频生成、多模态以及遥感图像解译等。 Mona (Multi-cognitive Visual Adapter)是一种新型视觉适配器微调方法,旨在 打破传统全参数微调(full fine-tuning)在视觉识别任务中的性能瓶颈 论文标题: 5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks 论文地址: http ...
斯坦福大学:人工智能百年研究报告,2030年的人工智能与生活
欧米伽未来研究所2025· 2025-04-01 23:17
文章核心观点 - 斯坦福大学AI100项目首份报告《人工智能与生活2030》为审视未来十几年AI融入日常提供理性视角,AI虽有潜力带来积极影响,但也会带来社会、伦理和法律挑战,需制定政策引导其发展 [3][18] 百年之约:AI100项目的缘起与使命 - AI100项目源于对AI领域快速发展及其深远社会影响的认识,受2008 - 2009年AAAI组织的“阿西洛马会议”启发而生 [4] - 项目设立常设委员会,计划每五年组织专门研究小组评估AI,目标是为AI研究、开发、设计和政策制定提供指导,确保AI惠及个人与社会 [4] 首份报告研究小组及任务 - 首份报告研究小组由17位AI专家及多领域学者组成,背景多元确保研究广度与深度 [5] - 常设委员会要求研究小组聚焦AI到2030年对“典型的北美城市”生活的影响,选择城市和限定北美是为深入探讨特定背景影响并承认全球城市多样性 [5] 揭开AI的面纱:它是什么,不是什么 - AI是一门科学和计算技术,灵感源于人类神经系统和感知等方式,但运作方式与人类不同,精确定义AI有挑战 [6] - 当前AI在特定任务上进展显著,如深度学习、计算机视觉、自然语言处理、AI规划等,但并非“通用人工智能”,缺乏人类常识等能力,不会对人类构成迫在眉睫威胁,应期待其积极影响 [7][8] AI渗透八大领域:2030年城市生活图景 - 交通运输领域,到2030年自动驾驶汽车将更普遍,会改变城市面貌、缓解交通问题,但面临安全性和可靠性挑战,公众对AI的认知可能由此塑造 [9][11] - 家庭/服务机器人领域,未来十五年会出现更多特定用途机器人,但制造通用型机器人面临技术和成本障碍,近期商业机会集中在特定应用 [11] - 医疗健康领域,AI可利用健康数据进行疾病预测等,有望改善数百万人健康和生活质量,但从实验室到临床应用速度较慢,面临数据隐私等挑战 [11] - 教育领域,AI能为教育带来个性化变革,但设计有效AI系统面临挑战,需关注教育资源平等和内容准确性等问题,人机交互顺畅性和信任度是关键 [10] - 低资源社区领域,AI可帮助优化资源分配等,但应用设计可能忽略社区特殊需求或加剧不平等,确保技术普惠性和建立社区信任至关重要 [10] - 公共安全与安防领域,AI用于犯罪预测等引发隐私和偏见担忧,需在提升安全效率与保护公民权利间取得平衡,公众信任是基石 [12] - 就业与职场领域,AI会自动化部分工作冲击现有岗位,但也会创造新岗位和增强人类能力,社会需适应转变,克服人们对被边缘化的恐惧 [12] - 娱乐领域,AI已深度融入娱乐产业,未来会有更具交互性和沉浸感的形式,但可能带来社交隔离等社会风险 [12] 超越技术:AI的社会挑战与政策前瞻 - AI发展带来公平性与偏见、隐私、安全与可靠性、责任归属、经济影响与分配、人机关系等社会、伦理和法律挑战 [13][14] - 报告提出政策建议,包括提升政府AI专业能力、鼓励对AI社会影响的研究、避免对“AI”笼统监管、促进透明度和公众信任、关注公平与普惠 [14][15][17] 结语:面向2030的理性期待与责任 - 报告描绘了AI融入城市生活带来便利和挑战的未来图景,将讨论焦点拉回现实,提醒人们AI未来掌握在自己手中,需积极引导其发展 [18] - AI100项目才刚开始,当下应理解报告洞察与建议,塑造负责任、可持续、以人为本的AI未来 [18]
“计算机视觉被GPT-4o终结了”(狗头)
量子位· 2025-03-29 15:46
GPT-4o多模态图像生成技术突破 - GPT-4o原生多模态图像生成能力被开发出多种新玩法,包括将表情包转化为语义分割图和深度图[2][3][4] - 该技术对传统AI画图工具、设计师和计算机视觉研究领域产生颠覆性影响[6] - 在自动驾驶领域展现潜力,能识别特斯拉自动驾驶系统无法识别的伪装"隐形墙"[8] 技术实现路径争议 - 应用研究主管提出自动驾驶领域只需训练强大基础模型后微调即可实现[10] - 反对观点认为Stable Diffusion+ControlNet已具备同等能力[11] - 技术突破关键在于通过扩大基础模型规模实现意想不到的效果[12] 模型架构技术细节 - GPT-4o图像生成采用原生嵌入ChatGPT的自回归模型,与DALL·E的扩散模型不同[13][15] - 推测采用多尺度自回归组合技术,首先生成粗略图像再逐步填充细节[17] - 存在争议观点认为解码阶段可能仍使用扩散模型,参考Meta 24年8月论文提出的多模态模型同时预测token和扩散图像的方法[20][24] 行业活动信息 - 中国AIGC产业峰会将于4月16日在北京举行,汇聚百度、无问芯穹等AI领域企业[26]
等待13年,AlexNet重磅开源:Hinton团队亲手写的原版代码,甚至还带注释
36氪· 2025-03-24 19:38
文章核心观点 - 计算机历史博物馆与谷歌合作,正式开源了2012年Hinton团队编写的AlexNet原版代码,代码包含原始注释,为研究现代深度学习的起点提供了珍贵资料 [1][9][11] - AlexNet是深度学习领域的里程碑式模型,其在2012年ImageNet竞赛中以Top-5错误率15.3%的突破性成绩,远超第二名26.2%的水平,直接引爆了深度学习浪潮 [2][3] - AlexNet的成功依赖于两个关键外部条件:ImageNet大规模图像数据集和GPU计算能力的飞速提升,这为深度神经网络训练创造了必要条件 [4][5][6] AlexNet的历史意义与影响 - AlexNet模型由5层卷积层和3层全连接层组成,拥有6000万个参数和65万个神经元,并首次成功采用GPU进行加速训练 [2] - 该模型的成功彻底改变了计算机视觉领域的研究方向,证明了深度学习的巨大潜力,其相关论文被引用次数已超过17万次 [3][7] - 在AlexNet出现之前,神经网络研究曾因计算能力和数据量限制而陷入低谷,其突破为后续AI发展奠定了基础 [4] 代码开源过程与细节 - 开源代码为1.53 KB的原始C++/CUDA代码,并非后期PyTorch或TensorFlow重现代码,完整保留了当年的开发思路和注释 [1][11] - 代码开源过程历时五年,由计算机历史博物馆策展人发起,经与谷歌复杂谈判后最终达成,代码已发布至GitHub官方仓库 [9][11][12] - 此次开源使得研究者和开发者能够亲自体验AlexNet最初的训练和推理过程,更好地理解其技术实现 [11]