图形学
搜索文档
刚刚,ICCV最佳论文出炉,朱俊彦团队用砖块积木摘得桂冠
机器之心· 2025-10-22 11:30
ICCV 2025会议概况 - 国际计算机视觉大会ICCV于10月22日在美国夏威夷揭幕,是全球计算机视觉三大顶会之一,每两年举办一次[1][4] - 本届大会共收到11239份有效投稿,最终录用2699篇论文,录用率为24%,相比上一届论文数量大幅增长[4] 最佳论文奖 - 最佳论文奖由卡耐基梅隆大学获得,获奖论文为《Generating Physically Stable and Buildable Brick Structures from Text》,由知名青年学者朱俊彦带领团队完成[2][5][6] - 论文提出了BrickGPT,是首个能够根据文本提示生成物理稳定的相互连接积木装配模型的方法[9] - 研究团队构建了大规模、物理稳定的积木结构数据集StableText2Brick,包含47000多个积木结构和超过28000个独特三维对象及其文本描述[11] - 该方法在自回归推理中引入有效性检查和基于物理约束的回滚机制,实验结果显示其有效性达100%,稳定性达98.8%,全面优于基线模型[18][20] - 生成的设计可由人类手动装配或机械臂自动组装,并开发了基于文本的积木贴图方法用于生成带颜色和纹理的设计[11] 最佳论文提名奖 - 同样来自卡耐基梅隆大学的论文《Spatially-Varying Autofocus》获得最佳论文提名奖[21] - 该研究突破了传统镜头单一平面成像限制,构建了能够任意调整景深的计算镜头,实现了全场景清晰成像并保持最高空间分辨率[23] 最佳学生论文奖 - 最佳学生论文奖由以色列理工学院获得,获奖论文为《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》[2][24][25] - 论文提出FlowEdit方法,创新地绕开传统图像编辑路径,通过构建常微分方程直接在源图像分布与目标图像分布间建立直接映射路径[27][28] - 该方法实现了更低的传输成本,能最大程度保留原始图像结构和内容,在Stable Diffusion 3和FLUX流模型上取得SOTA效果[31] 最佳学生论文提名奖 - 德州大学奥斯丁分校的论文《RayZer: A Self-supervised Large View Synthesis Model》获得最佳学生论文提名奖[32] - 该模型在训练时无需任何3D监督信息,仅需2D图像即可学习并展现出涌现的3D感知能力,在新视角合成任务上表现优异[35] Helmholtz Prize获奖论文 - 该奖项表彰计算机视觉基准测试贡献,有两篇获奖论文[36] - Ross Girshick的《Fast R-CNN》提出快速区域卷积网络,显著提升目标检测的训练、测试速度和检测精度[36] - 何恺明等人的论文《Delving Deep into Rectifiers》引入PReLU激活函数和He初始化方法,首次在ImageNet上达到超越人类水平的分类性能[38] Everingham Prize获奖团队 - 该奖项表彰对社区有重大贡献的研究者,有两个获奖团队[41] - SMPL团队开发了参数化三维可变形人体模型,精准表示人体姿态与形状,广泛应用于动画、虚拟人及生成式AI领域[41] - VQA数据集团队创建了结合图像理解与自然语言问答的大规模基准数据集,推动多模态AI在视觉理解和语言推理方向的研究[43] Significant Researcher Award获奖者 - 该奖项表彰显著推动计算机视觉领域进展的研究人员,颁给David Forsyth和Michal Irani[45][50] - David Forsyth在颜色恒常性方法、人体动作识别与追踪技术方面作出贡献,影响物体识别和动作分析研究[50] - Michal Irani开创图像内部自相似性与空间-时间视频形状研究范式,通过无监督方法解决超分辨和视频结构分析等核心问题[50] Azriel Rosenfeld Award获奖者 - 该终身成就奖表彰在学术界和工业界具有持续影响力的研究者,颁给Rama Chellappa[51][54] - Rama Chellappa作为计算机视觉与模式识别领域先驱,在人脸识别、运动分析、3D建模和生成式视觉理解等方面作出奠基性贡献[54]
暑期打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛报名即将截止~
自动驾驶之心· 2025-08-04 15:31
竞赛概述 - 竞赛聚焦空间智能与具身智能视觉感知技术 旨在推动自动驾驶 智慧城市 机器人等场景的应用突破[4][5] - 核心目标包括推动高效高质量的空间智能技术研究 探索强化学习与计算机视觉等前沿方法创新 促进神经渲染与机器人抓取等应用落地[7] 组织架构 - 主办方包括北京科技大学 清华大学 中国科学院自动化研究所等顶尖机构 技术赞助由九章云极科技提供[9] - 指导专家团队由张兆翔 鲁继文 殷绪成等学界权威组成 确保竞赛专业度[9] 赛制设计 - 设置双赛道:空间智能赛道考核多视角航拍图像三维重建 具身智能赛道测试动态遮挡环境下的机器人抓取能力[20] - 评价体系差异化:空间智能侧重渲染质量(PSNR)与几何精度(F1-Score) 权重6:4 具身智能关注任务完成度(成功率)与执行效率(路径效率) 权重5:5[22][23] 资源支持 - 提供500-1000张1k分辨率无人机航拍图及仿真环境数据集 九章云极赞助8卡H800 GPU算力验证[14][15] - 算力优惠政策:新用户享6元/度体验价 H800 8卡月租4.2万元 显著降低参赛成本[16][17] 赛事日程 - 6月10日发布赛题 8月10日截止报名 9月30日完成评审 10月15日PRCV大会颁奖[13] - 允许2次结果更新 需提交技术报告说明方法细节 最终成绩前20名可获排名积分[26] 奖项设置 - 单赛道设一等奖(6000元+500度算力券) 二等奖(3000元+200度) 三等奖(1000元+100度) 优胜奖(500元+50度)[25][27] - 所有获奖团队将获得PRCV 2025组委会认证证书 奖金及算力券由九章云极全额赞助[27]
暑假打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛启动~
自动驾驶之心· 2025-07-17 15:29
竞赛概述 - 竞赛聚焦空间智能与具身智能视觉感知技术,旨在推动高效、高质量的技术研究,探索强化学习、计算机视觉、图形学等前沿方法创新,并促进神经渲染、场景优化和机器人抓取等方向的应用 [2][4] - 竞赛由北京科技大学、清华大学、中国科学院自动化研究所等多家单位联合组织,北京九章云极科技有限公司提供赞助和技术支持 [5] 参赛要求与流程 - 参赛者包括国内研究团体、企事业单位及高校师生,团队不超过5人,每人仅能加入1个团队 [8][9] - 报名需通过邮件提交团队信息,截止日期为7月31日,比赛分阶段进行,包括数据集发布、结果提交和评审,最终在PRCV2025大会上颁奖 [5][6][10] 竞赛资源与任务 - 提供大规模无人机航拍图(500-1000张1k分辨率)和具身智能仿真场景数据,九章云极提供8卡H800 GPU算力支持 [11][12] - 赛道1要求构建多视角航拍图像的三维重建模型,评估渲染质量(PSNR)和几何精度(F1-Score) [17][19][20] - 赛道2要求完成动态遮挡场景中的抓取任务,评估任务完成度(成功率、位姿误差)和执行效率(耗时、路径效率) [21][23] 奖项与知识产权 - 每个赛道设一等奖(6000元+500度算力券)、二等奖(3000元+200度算力券)、三等奖(1000元+100度算力券)及优胜奖 [25] - 参赛方案知识产权归团队所有,数据仅限竞赛使用,禁止扩散,组织方承诺保密 [29] 相关会议PRCV2025 - PRCV2025为国内模式识别与计算机视觉顶级会议,涵盖学术前沿、产业应用与技术创新,投稿截止2025年6月30日 [27][30] - 会议由四大国家级学会联合主办,上海交通大学承办,Springer出版论文集并被EI/ISTP检索 [31][32]
暑假打打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛正式启动~
自动驾驶之心· 2025-06-30 20:51
竞赛概述 - 竞赛聚焦空间智能与具身智能的视觉感知技术,旨在推动高效、高质量的技术研究,探索强化学习、计算机视觉等前沿方法的创新,并促进神经渲染、场景优化等方向的应用 [2][4] - 竞赛由北京科技大学、清华大学、中国科学院自动化研究所等机构联合组织,北京九章云极科技有限公司提供赞助和技术支持 [5] 参赛要求与流程 - 参赛者包括高校教师、研究生、博士生及企事业单位研究团体,以个人或团队形式报名,每队不超过5人 [8][9] - 报名需通过邮件提交团队信息,截止日期为7月31日,比赛分为训练集发布、结果提交、评测和颁奖四个阶段 [5][6][10] 竞赛资源与任务 - 提供大规模无人机航拍图(500-1000张1k分辨率)和具身智能仿真场景数据,九章云极免费提供8卡H800 GPU算力用于验证 [11][12] - 赛道1要求构建多视角航拍图像的三维重建模型,评估渲染质量(PSNR)和几何精度(F1-Score) [17][19][20] - 赛道2要求完成动态遮挡场景的抓取任务,评估任务完成度(成功率、位姿误差)和执行效率(耗时、路径效率) [21][23] 奖项设置 - 每个赛道设一等奖(6000元+500度算力券)、二等奖(3000元+200度算力券)、三等奖(1000元+100度算力券)及优胜奖(500元+50度算力券) [25] 相关会议 - 竞赛结果将在PRCV2025大会(10月15-18日)公布,该会议是CCF分区顶级学术会议,涵盖模式识别与计算机视觉领域前沿成果 [27][28]
单应计算加速数十倍、计算量减少95%!基于几何的SKS和ACA矩阵分解被提出
机器之心· 2025-06-19 11:50
论文简介 - 东华大学、上海交通大学、中科院自动化所研究团队提出两种基于几何的单应矩阵分解方法,相比传统稀疏线性方程组方法减少95%以上计算量,显著提升二维码扫描等视觉应用效率[3] - 该方法适用于射影几何、计算机视觉和图形学领域,论文已被IEEE T-PAMI期刊接收[4] - 论文标题为《Fast and Interpretable 2D Homography Decomposition: Similarity-Kernel-Similarity and Affine-Core-Affine Transformations》,提供代码、视频介绍及奖金激励[5] 问题背景 - 平面单应是8自由度的3×3矩阵,传统DLT方法通过构建稀疏线性方程组求解,OpenCV实现需约2000次浮点运算[6] - 改进方法包括3×3矩阵SVD分解(1800次运算)和定制化高斯消元法(220次运算),二维码场景可进一步简化但缺乏研究[7] 核心方法 - SKS变换利用两组对应点分解单应为相似-射影核-相似变换,通过标准点转换和双曲相似变换实现几何层次化求解[9][10][11] - ACA变换通过三组对应点实现仿射-射影核-仿射分解,仅需85次浮点运算,正方形模板场景可优化至29次运算[15][16][18] 性能对比 - ACA分解单次计算仅需17纳秒,相比DLT+LU方法实现43倍实际加速(理论FLOPs提升20倍)[21][22] - SKS方法在O2优化下实现29倍加速,超越理论11倍FLOPs改进,因避免了条件判断等额外开销[22] 应用前景 - 日均百亿次二维码扫描场景中,新方法可减少浮点运算量,相比传统DLT+LU节省显著[24] - 技术可集成于相机标定、图像拼接、AR等视觉任务,并延伸至深度学习单应估计、P3P姿态估计等研究方向[24][25]