Workflow
计算机视觉
icon
搜索文档
全球首个,Nature重磅研究:计算机视觉告别“偷数据”时代
36氪· 2025-11-06 16:13
计算机视觉(CV)技术,广泛应用于自动驾驶汽车、消费电子设备等众多领域。其中,图像数据集扮演着基础性的角色,ImageNet 等大型图像数据集的 出现,使计算机视觉领域实现了革命性突破。 然而,过去十年,大多数数据集的数据采集依赖网络抓取,仍然存在未经授权、缺乏多样性、知情同意以及补偿相关的伦理问题。 数据的"先天不足"不仅削弱了人工智能(AI)系统的公平性和准确性,还在无形中强化了种族、性别等社会偏见。 例如,有研究指出,商业人脸识别系统在识别深肤色女性时的错误率远高于浅肤色男性;部分知名数据集因数据收集的伦理争议相继撤回,即便仍在使用 的数据集,如 COCO、VQA2.0 或 MIAP,在人口多样性和自我报告信息方面仍存在明显缺陷。 在这一背景下,Sony AI 推出了全球首个公开可用的、全球多样化的、基于用户同意的数据集——FHIBE,专门用于评估以人为中心的计算机视觉任务的 公平性。 据介绍,FHIBE 收录了来自 81 个国家和地区的 10318 张图像,涉及 1981 位独立个体,涵盖从人脸识别到视觉问答等广泛视觉任务。 此外,FHIBE 拥有迄今最全面的标注信息,包括人口统计特征、物理属性、环境 ...
南京大学、影石创新、栖霞区签订战略合作协议 影石智能影像算法创新中心揭牌
南京日报· 2025-11-05 10:01
合作协议核心内容 - 南京大学、影石创新、栖霞区三方签署战略合作协议,并揭牌影石智能影像算法创新中心 [1] - 合作旨在深化校地企协同,达成产教才合作 [1] 公司业务与技术方向 - 公司是全球领先的智能影像品牌,专注于全景相机、运动相机和全景无人机等智能影像设备的研发、生产和销售 [1] - 新设立的创新中心将聚焦AI影像算法、VR/AR、计算机视觉等核心技术方向 [1] 人才与产业合作 - 三方共建影石创新(南大仙林)人才培育基地,开展实习实训、毕业设计、创新创业培养等合作,定向培养高素质应用型、创新型人才 [1] - 合作将联合南大、东大、南航等在宁高校和一系列技术互补型企业,开展技术研发、人才培养、场景落地等合作 [1] 应用场景与政策支持 - 栖霞区将支持公司在工业制造、智能会议、城市治理等领域开展场景示范应用 [1] - 合作依托南京大学的教育资源、公司的产业实践平台以及栖霞区的政策资源 [1]
南京大学、影石创新、栖霞区签订战略合作协议
新浪财经· 2025-11-04 21:25
南京日报消息,11月4日,南京大学、影石创新、栖霞区三方签署战略合作协议,影石智能影像算法创 新中心揭牌。根据合作协议,影石将依托南京大学人才资源,与栖霞区设立影石智能影像算法创新中 心,聚焦AI影像算法、VR/AR、计算机视觉等核心技术方向;依托南京大学的教育资源、影石的产业 实践平台以及栖霞区的政策资源,三方共建影石创新(南大仙林)人才培育基地,开展实习实训、毕业 设计、创新创业培养等合作,定向培养一批符合产业需求的高素质应用型、创新型人才;联合南大、东 大、南航等在宁高校和一系列技术互补型企业,开展技术研发、人才培养、场景落地等合作。栖霞区还 将支持影石创新在工业制造、智能会议、城市治理等领域开展场景示范应用。 ...
A股计算机视觉第一股格灵深瞳业绩持续承压,前三季亏损过亿
南方都市报· 2025-10-30 20:08
财务表现 - 2025年第三季度归属母公司股东净亏损4748.79万元,扣非后归母净亏损5107.75万元 [1] - 2025年前三季度累计净亏损1.27亿元,较2024年同期的1.38亿元亏损略有收窄 [1] - 2025年第三季度营业收入5175.61万元,同比增长453.28%,但低于2021年至2023年同期约7000万元的水平 [1] - 2025年第三季度经营活动产生的现金流量净额为净流出6256.45万元 [3] 业务运营与客户结构 - 公司技术涵盖计算机视觉、多模态大模型、大数据分析和机器人,应用领域包括智慧金融、城市管理、政务及特种、智慧教育 [3] - 智慧金融和特种领域客户集中度较高,受宏观经济影响,智慧金融客户预算收紧,需求放缓 [3] - 2024年第一大客户中国农业银行贡献了年营收的44.44% [3] - 2025年前三季度,来自农业银行以外的其他客户营收占比近90%,公司与中国农业银行的框架合同已于2025年9月到期 [3] 研发投入与项目 - 研发重点投向多模态大模型技术与应用开发项目(预计投资3.68亿元)和智慧能源农场项目(预计投资5058万元) [4] - 智慧能源农场项目始于2023年,已完成全自动微藻培养系统开发并实现智能算法控制的技术验证 [4] - 2025年上半年研发人员数量从2024年同期的318人减少至227人 [5] - 研发人员平均薪酬从2024年上半年的18.97万元降至2025年上半年的17.89万元 [5] 公司治理 - 公司实际控制人为赵勇,其创办公司前曾担任谷歌总部研究院资深研究员 [6]
今年CVPR,自动驾驶还能冲什么方向?
自动驾驶之心· 2025-10-28 08:03
行业趋势与市场定位 - CVPR 2026投稿量已超2000篇,预计将超过ICLR投稿量[1] - 行业研究趋势显示,CVPR 2026主旋律可能是世界模型,紧跟2024多模态和2025视频生成的趋势[1] - 公司专注于自动驾驶、具身智能、机器人等交叉学科,深耕多年并拥有顶尖学术资源[3] 公司服务与产品核心 - 提供论文辅导服务,内容包括掌握技术脉络、复现模型、产出论文初稿及投稿指导,目标冲击高区或顶会[2] - 拥有300多名专职老师,来自全球QS排名前100,发表过多篇顶会/子刊/A会/B会论文,近3年辅导学员超400名,中稿率高达96%[5] - 服务流程包括个性化论文指导、导师实时互动、录播回看及课后答疑,提供从选题到中稿的一站式科研服务[13] 目标客户与学员成果 - 目标客户包括有科研需求、从事人工智能领域工作、考研申博留学等群体[14] - 学员案例显示,辅导周期2-4个月可达成SCI、CCF A/B、顶会等成果,例如某学员在3个月内完成CCF B类论文并投稿emnlp顶会[6] - 学员要求自带简历并有一定PyTorch基础,主要方向涵盖三维重建、SLAM、点云处理、计算机视觉等[10] 服务优势与附加价值 - 解决导师放养、知识零散、缺乏科研体系等问题,帮助建立科研思维并熟悉流程[7] - 优秀学员可获得清北/MIT等名校推荐信,或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] - 提供精准匹配系统,根据学员研究方向、目标期刊和基础水平筛选3-5位导师,并支持试听和退款承诺[18][19]
汇报一下ICCV全部奖项,恭喜朱俊彦团队获最佳论文
具身智能之心· 2025-10-26 12:02
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 刚刚,备受瞩目的ICCV 2025,在美国夏威夷正式"开奖"! 好家伙,在提交论文的作者里,中国直接占了半壁江山,不多不少占比50%。 各个奖项也是重中之重捷报频传,现场更是人山人海……好在前方参会的"詹姆斯邦迪" ( 小红书博主,欢迎大家去 follow) ,第一时间分享了最 新进展。 让我们一起膜拜看看顶会荣耀,今年花落谁家? 最佳论文奖(马尔奖) : Generating Physically Stable and Buildable Brick Structures from Text(从文本生成物理稳定且可搭建的积木结构)。 △ 图源小红书博主:@詹姆斯邦迪 最佳学生论文奖 : FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models(基于预训练流模型的无反演文本编辑方法) 。 △ 图源小红 ...
刚刚,ICCV最佳论文出炉,朱俊彦团队用砖块积木摘得桂冠
具身智能之心· 2025-10-23 08:03
ICCV 2025会议概况 - 国际计算机视觉大会ICCV于10月22日揭晓年度奖项,该会议是全球计算机视觉三大顶会之一,每两年举办一次[2][5] - 本届会议共收到11,239份有效投稿,最终录用2,699篇论文,录用率为24%,论文数量相比上一届有大幅增长[5] 最佳论文奖:BrickGPT - 最佳论文奖由卡耐基梅隆大学获得,论文标题为《Generating Physically Stable and Buildable Brick Structures from Text》,由知名学者朱俊彦带领团队完成[3][7][9] - 该论文提出了BrickGPT,是首个能够根据文本提示生成物理稳定的相互连接积木装配模型的方法[11] - 研究团队构建了包含47,000多个积木结构的大规模数据集StableText2Brick,并训练了自回归大型语言模型来预测下一块积木[13] - 方法引入了有效性检查和基于物理约束的回滚机制,实验结果显示其有效性达100%,稳定性达98.8%,平均积木稳定性为0.996,全面优于基线模型[20][22] 最佳论文提名奖 - 同样来自卡耐基梅隆大学的论文《Spatially-Varying Autofocus》获得最佳论文提名奖,该研究突破了传统镜头成像规律,能够构建可任意调整景深的计算镜头[24][26] 最佳学生论文奖 - 最佳学生论文奖由以色列理工学院的《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》获得,该论文提出了一种无需反演的新型图像编辑方法[27][28][30] - FlowEdit通过构建常微分方程直接在源图像分布与目标图像分布间建立映射路径,实现了更低的传输成本和更高保真度的编辑,在Stable Diffusion 3和FLUX模型上取得SOTA效果[32][34] 最佳学生论文提名奖 - 德州大学奥斯汀分校的《RayZer: A Self-supervised Large View Synthesis Model》获得最佳学生论文提名奖,该模型在训练时无需任何3D监督信息即可学习3D感知能力[36][38] Helmholtz Prize(测试方法奖) - 该奖项表彰在计算机视觉基准测试中的贡献,获奖论文包括Ross Girshick的《Fast R-CNN》和何恺明等人的《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》[39][41] - 《Fast R-CNN》提出了用于目标检测的快速区域卷积网络,显著提升了训练和测试速度[39] - 何恺明等人的论文引入了PReLU激活函数和He初始化方法,并首次在ImageNet上达到超越人类水平的分类性能[41] Everingham Prize(严谨评估奖) - 该奖项表彰对社区有重大贡献的研究者,获奖团队包括人体3D模型SMPL的团队和VQA数据集团队[44][46] - SMPL模型以参数化方式精准表示人体姿态与形状,被广泛应用于动画、虚拟人及生成式AI中[44] - VQA数据集结合了图像理解与自然语言问答,推动了多模态AI在视觉理解和语言推理方向的研究[46] 研究者个人奖项 - Significant Researcher Award授予David Forsyth和Michal Irani,表彰其研究显著推动了计算机视觉领域进展[48][53] - Azriel Rosenfeld终身成就奖授予Rama Chellappa,表彰其在人脸识别、运动分析、3D建模等领域的奠基性贡献[54][57]
汇报一下ICCV全部奖项,恭喜朱俊彦团队获最佳论文
量子位· 2025-10-22 13:48
会议概况与参与度 - ICCV 2025在美国夏威夷举行,中国作者在提交论文的作者中占比高达50% [1] 主要奖项与获奖研究 - 最佳论文奖(马尔奖)授予研究“Generating Physically Stable and Buildable Brick Structures from Text”,该研究提出BRICKGPT模型,基于包含超过47,000个积木结构、涵盖28,000多个独特三维物体的大规模数据集StableText2Brick进行训练 [4][24] - 最佳学生论文奖授予研究“FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models”,该方法无需反演和优化,在Stable Diffusion 3和FLUX上取得最先进效果 [6][39][40] - 最佳论文荣誉提名授予研究“Spatially-Varying Autofocus”,该技术利用光学组合实现空间可变自动对焦,能同时使整个场景保持清晰对焦并维持最高空间分辨率 [7][42][44] - 最佳学生论文荣誉提名授予研究“RayZer: A self-supervised large view synthesis model”,该模型仅依赖2D图像监督和自预测相机位姿进行新视角合成 [9][47][48] - 赫尔姆霍兹奖授予两项来自微软研究院的研究:Fast R-CNN和Delving Deep into Rectifiers [10][51] - Fast R-CNN在PASCAL VOC 2012数据集上,对VGG16网络的训练速度较R-CNN提升9倍,测试速度提升213倍,并获得更高mAP指标 [54] - Delving Deep into Rectifiers研究提出的PReLU-nets在ImageNet 2012分类数据集上实现4.94%的Top-5测试误差,相比GoogLeNet的6.66%提升26%,并首次超越人类水平(5.1%) [60] - 埃弗林厄姆奖授予The SMPL Body Model Team和The VQA Team [12][62] - VQA团队提供的数据集包含约25万张图像、76万个问题和约1000万个答案 [70] - 杰出研究员奖授予David Forsyth和Michal Irani [14][73][76] - 阿兹列尔·罗森菲尔德终身成就奖授予Rama Chellappa [16][79] 获奖者背景 - 最佳论文奖团队由朱俊彦带队,其本科毕业于清华大学计算机科学系(专业排名第2/140),博士毕业于UC伯克利,现任CMU助理教授 [28][30][31] - 最佳论文奖团队其他成员包括:本科毕业于北京大学的Kangle Deng(Roblox研究科学家)、本硕博均就读于CMU的Ruixuan Liu、本科毕业于清华博士毕业于UC伯克利的Changliu Liu(CMU副教授) [33][35][37]
CVPR 2026新规:强制披露算力成本,高效率、高透明度论文可获三项认可奖
机器之心· 2025-10-22 11:30
文章核心观点 - CVPR2026会议将实施一项名为“计算资源报告表(CRF)”的试点计划,强制要求所有论文作者报告研究过程中使用的计算资源,旨在增加AI研究的透明度和公平性 [2] - 该计划的核心目标是帮助社区了解不同方法的实际计算成本,并促进可持续和可及的AI研究实践,但报告数据不会影响论文的接收决策 [2][15][18] 计算资源报告表(CRF)规定 - 从CVPR2026开始,提交计算资源报告是强制性的,需与补充材料一同提交,填写时间约需10-15分钟 [2][7] - 报告内容包括硬件基本信息(如GPU类型和数量)、最终模型的计算时间或FLOP估算,以及论文主要性能结果与最强基准的对比 [7][31] - 报告数据由一个独立的计算资源报告委员会审查,不与论文评审人员共享,因此不影响论文接收决定 [7][16] 认可奖项计划 - 为鼓励透明度和效率,设立三项认可奖项:“高效CVPR”徽章、“CVPR计算金星奖”和“CVPR计算透明度冠军奖” [9] - 奖项根据客观指标(如每单位性能改进的计算量)评定,获奖论文将在会议期间获得特别展示 [10][27] - 提交匿名的Weights & Biases日志可增强获奖资格,但此项提交完全可选 [11][26] 报告填写与提交指南 - 作者需参考预填写的示例文件来填写报告,并保存原始PDF文件,避免压平或修改表格以免删除表单字段 [11][12][20] - 对于无法精确追踪的数据,可根据云服务提供商账单、集群日志或实验追踪工具记录进行估算 [22][25] - 报告区分必填部分(再现核心结果所需资源)和可选部分(总开发计算数据),后者用于了解完整研究过程 [23]
刚刚,ICCV最佳论文出炉,朱俊彦团队用砖块积木摘得桂冠
机器之心· 2025-10-22 11:30
ICCV 2025会议概况 - 国际计算机视觉大会ICCV于10月22日在美国夏威夷揭幕,是全球计算机视觉三大顶会之一,每两年举办一次[1][4] - 本届大会共收到11239份有效投稿,最终录用2699篇论文,录用率为24%,相比上一届论文数量大幅增长[4] 最佳论文奖 - 最佳论文奖由卡耐基梅隆大学获得,获奖论文为《Generating Physically Stable and Buildable Brick Structures from Text》,由知名青年学者朱俊彦带领团队完成[2][5][6] - 论文提出了BrickGPT,是首个能够根据文本提示生成物理稳定的相互连接积木装配模型的方法[9] - 研究团队构建了大规模、物理稳定的积木结构数据集StableText2Brick,包含47000多个积木结构和超过28000个独特三维对象及其文本描述[11] - 该方法在自回归推理中引入有效性检查和基于物理约束的回滚机制,实验结果显示其有效性达100%,稳定性达98.8%,全面优于基线模型[18][20] - 生成的设计可由人类手动装配或机械臂自动组装,并开发了基于文本的积木贴图方法用于生成带颜色和纹理的设计[11] 最佳论文提名奖 - 同样来自卡耐基梅隆大学的论文《Spatially-Varying Autofocus》获得最佳论文提名奖[21] - 该研究突破了传统镜头单一平面成像限制,构建了能够任意调整景深的计算镜头,实现了全场景清晰成像并保持最高空间分辨率[23] 最佳学生论文奖 - 最佳学生论文奖由以色列理工学院获得,获奖论文为《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》[2][24][25] - 论文提出FlowEdit方法,创新地绕开传统图像编辑路径,通过构建常微分方程直接在源图像分布与目标图像分布间建立直接映射路径[27][28] - 该方法实现了更低的传输成本,能最大程度保留原始图像结构和内容,在Stable Diffusion 3和FLUX流模型上取得SOTA效果[31] 最佳学生论文提名奖 - 德州大学奥斯丁分校的论文《RayZer: A Self-supervised Large View Synthesis Model》获得最佳学生论文提名奖[32] - 该模型在训练时无需任何3D监督信息,仅需2D图像即可学习并展现出涌现的3D感知能力,在新视角合成任务上表现优异[35] Helmholtz Prize获奖论文 - 该奖项表彰计算机视觉基准测试贡献,有两篇获奖论文[36] - Ross Girshick的《Fast R-CNN》提出快速区域卷积网络,显著提升目标检测的训练、测试速度和检测精度[36] - 何恺明等人的论文《Delving Deep into Rectifiers》引入PReLU激活函数和He初始化方法,首次在ImageNet上达到超越人类水平的分类性能[38] Everingham Prize获奖团队 - 该奖项表彰对社区有重大贡献的研究者,有两个获奖团队[41] - SMPL团队开发了参数化三维可变形人体模型,精准表示人体姿态与形状,广泛应用于动画、虚拟人及生成式AI领域[41] - VQA数据集团队创建了结合图像理解与自然语言问答的大规模基准数据集,推动多模态AI在视觉理解和语言推理方向的研究[43] Significant Researcher Award获奖者 - 该奖项表彰显著推动计算机视觉领域进展的研究人员,颁给David Forsyth和Michal Irani[45][50] - David Forsyth在颜色恒常性方法、人体动作识别与追踪技术方面作出贡献,影响物体识别和动作分析研究[50] - Michal Irani开创图像内部自相似性与空间-时间视频形状研究范式,通过无监督方法解决超分辨和视频结构分析等核心问题[50] Azriel Rosenfeld Award获奖者 - 该终身成就奖表彰在学术界和工业界具有持续影响力的研究者,颁给Rama Chellappa[51][54] - Rama Chellappa作为计算机视觉与模式识别领域先驱,在人脸识别、运动分析、3D建模和生成式视觉理解等方面作出奠基性贡献[54]