BrickGPT
搜索文档
刚刚,ICCV最佳论文出炉,朱俊彦团队用砖块积木摘得桂冠
具身智能之心· 2025-10-23 08:03
ICCV 2025会议概况 - 国际计算机视觉大会ICCV于10月22日揭晓年度奖项,该会议是全球计算机视觉三大顶会之一,每两年举办一次[2][5] - 本届会议共收到11,239份有效投稿,最终录用2,699篇论文,录用率为24%,论文数量相比上一届有大幅增长[5] 最佳论文奖:BrickGPT - 最佳论文奖由卡耐基梅隆大学获得,论文标题为《Generating Physically Stable and Buildable Brick Structures from Text》,由知名学者朱俊彦带领团队完成[3][7][9] - 该论文提出了BrickGPT,是首个能够根据文本提示生成物理稳定的相互连接积木装配模型的方法[11] - 研究团队构建了包含47,000多个积木结构的大规模数据集StableText2Brick,并训练了自回归大型语言模型来预测下一块积木[13] - 方法引入了有效性检查和基于物理约束的回滚机制,实验结果显示其有效性达100%,稳定性达98.8%,平均积木稳定性为0.996,全面优于基线模型[20][22] 最佳论文提名奖 - 同样来自卡耐基梅隆大学的论文《Spatially-Varying Autofocus》获得最佳论文提名奖,该研究突破了传统镜头成像规律,能够构建可任意调整景深的计算镜头[24][26] 最佳学生论文奖 - 最佳学生论文奖由以色列理工学院的《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》获得,该论文提出了一种无需反演的新型图像编辑方法[27][28][30] - FlowEdit通过构建常微分方程直接在源图像分布与目标图像分布间建立映射路径,实现了更低的传输成本和更高保真度的编辑,在Stable Diffusion 3和FLUX模型上取得SOTA效果[32][34] 最佳学生论文提名奖 - 德州大学奥斯汀分校的《RayZer: A Self-supervised Large View Synthesis Model》获得最佳学生论文提名奖,该模型在训练时无需任何3D监督信息即可学习3D感知能力[36][38] Helmholtz Prize(测试方法奖) - 该奖项表彰在计算机视觉基准测试中的贡献,获奖论文包括Ross Girshick的《Fast R-CNN》和何恺明等人的《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》[39][41] - 《Fast R-CNN》提出了用于目标检测的快速区域卷积网络,显著提升了训练和测试速度[39] - 何恺明等人的论文引入了PReLU激活函数和He初始化方法,并首次在ImageNet上达到超越人类水平的分类性能[41] Everingham Prize(严谨评估奖) - 该奖项表彰对社区有重大贡献的研究者,获奖团队包括人体3D模型SMPL的团队和VQA数据集团队[44][46] - SMPL模型以参数化方式精准表示人体姿态与形状,被广泛应用于动画、虚拟人及生成式AI中[44] - VQA数据集结合了图像理解与自然语言问答,推动了多模态AI在视觉理解和语言推理方向的研究[46] 研究者个人奖项 - Significant Researcher Award授予David Forsyth和Michal Irani,表彰其研究显著推动了计算机视觉领域进展[48][53] - Azriel Rosenfeld终身成就奖授予Rama Chellappa,表彰其在人脸识别、运动分析、3D建模等领域的奠基性贡献[54][57]
刚刚,ICCV最佳论文出炉,朱俊彦团队用砖块积木摘得桂冠
机器之心· 2025-10-22 11:30
ICCV 2025会议概况 - 国际计算机视觉大会ICCV于10月22日在美国夏威夷揭幕,是全球计算机视觉三大顶会之一,每两年举办一次[1][4] - 本届大会共收到11239份有效投稿,最终录用2699篇论文,录用率为24%,相比上一届论文数量大幅增长[4] 最佳论文奖 - 最佳论文奖由卡耐基梅隆大学获得,获奖论文为《Generating Physically Stable and Buildable Brick Structures from Text》,由知名青年学者朱俊彦带领团队完成[2][5][6] - 论文提出了BrickGPT,是首个能够根据文本提示生成物理稳定的相互连接积木装配模型的方法[9] - 研究团队构建了大规模、物理稳定的积木结构数据集StableText2Brick,包含47000多个积木结构和超过28000个独特三维对象及其文本描述[11] - 该方法在自回归推理中引入有效性检查和基于物理约束的回滚机制,实验结果显示其有效性达100%,稳定性达98.8%,全面优于基线模型[18][20] - 生成的设计可由人类手动装配或机械臂自动组装,并开发了基于文本的积木贴图方法用于生成带颜色和纹理的设计[11] 最佳论文提名奖 - 同样来自卡耐基梅隆大学的论文《Spatially-Varying Autofocus》获得最佳论文提名奖[21] - 该研究突破了传统镜头单一平面成像限制,构建了能够任意调整景深的计算镜头,实现了全场景清晰成像并保持最高空间分辨率[23] 最佳学生论文奖 - 最佳学生论文奖由以色列理工学院获得,获奖论文为《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》[2][24][25] - 论文提出FlowEdit方法,创新地绕开传统图像编辑路径,通过构建常微分方程直接在源图像分布与目标图像分布间建立直接映射路径[27][28] - 该方法实现了更低的传输成本,能最大程度保留原始图像结构和内容,在Stable Diffusion 3和FLUX流模型上取得SOTA效果[31] 最佳学生论文提名奖 - 德州大学奥斯丁分校的论文《RayZer: A Self-supervised Large View Synthesis Model》获得最佳学生论文提名奖[32] - 该模型在训练时无需任何3D监督信息,仅需2D图像即可学习并展现出涌现的3D感知能力,在新视角合成任务上表现优异[35] Helmholtz Prize获奖论文 - 该奖项表彰计算机视觉基准测试贡献,有两篇获奖论文[36] - Ross Girshick的《Fast R-CNN》提出快速区域卷积网络,显著提升目标检测的训练、测试速度和检测精度[36] - 何恺明等人的论文《Delving Deep into Rectifiers》引入PReLU激活函数和He初始化方法,首次在ImageNet上达到超越人类水平的分类性能[38] Everingham Prize获奖团队 - 该奖项表彰对社区有重大贡献的研究者,有两个获奖团队[41] - SMPL团队开发了参数化三维可变形人体模型,精准表示人体姿态与形状,广泛应用于动画、虚拟人及生成式AI领域[41] - VQA数据集团队创建了结合图像理解与自然语言问答的大规模基准数据集,推动多模态AI在视觉理解和语言推理方向的研究[43] Significant Researcher Award获奖者 - 该奖项表彰显著推动计算机视觉领域进展的研究人员,颁给David Forsyth和Michal Irani[45][50] - David Forsyth在颜色恒常性方法、人体动作识别与追踪技术方面作出贡献,影响物体识别和动作分析研究[50] - Michal Irani开创图像内部自相似性与空间-时间视频形状研究范式,通过无监督方法解决超分辨和视频结构分析等核心问题[50] Azriel Rosenfeld Award获奖者 - 该终身成就奖表彰在学术界和工业界具有持续影响力的研究者,颁给Rama Chellappa[51][54] - Rama Chellappa作为计算机视觉与模式识别领域先驱,在人脸识别、运动分析、3D建模和生成式视觉理解等方面作出奠基性贡献[54]