计算机视觉 - 财报，业绩电话会，研报，新闻 - Reportify

计算机视觉

搜索文档

全球引才：Faster R-CNN、ResNet作者，中国科大任少卿，招募教授、学者和学生

机器之心· 2025-12-05 18:17

中国科学技术大学通用人工智能研究所（筹）及负责人介绍 - 中国科学技术大学通用人工智能研究所（筹）聚焦人工智能、世界模型、具身智能、AI for Science、自动驾驶等前沿方向，致力于开展引领性、原创性、颠覆性、前瞻性科学研究工作，并构建学科建设、科研突破、人才培养、产业应用、国际合作的一体化创新体系 [7] - 研究所负责人任少卿教授是中国科学技术大学讲席教授、博士生导师，于2025年9月加入该校担任二级教授，其在深度学习、计算机视觉及智能驾驶等领域做出了基础性、开创性贡献，研究成果已成为驱动自动驾驶、工业检测、医疗影像、安防监控、卫星遥感等关键领域的核心引擎 [4][5] 负责人学术成就与行业影响 - 截至2025年11月，任少卿教授的学术论文被引用超过46万次，位列全学科领域国内学者第一，并在AI 2000全球人工智能学者总榜排名第三 [5] - 其研究成果获得了多项国际顶尖荣誉，包括2023未来科学大奖—数学与计算机科学奖、2025 NeurIPS时间检验奖、2025 Helmholtz Prize（ICCV十年影响力奖）、2016 CVPR最佳论文奖，以及ImageNet竞赛与MSCOCO竞赛全球冠军 [5] - 其荣获NeurIPS 2025时间检验奖的论文《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》是计算机视觉领域的里程碑之作，自2015年发表以来已被引用超过98,000次，该研究首次用完全可学习的两阶段pipeline取代了传统方法，实现了高精度与接近实时（5 FPS）检测的统一，奠定了现代目标检测框架的核心范式，并深刻影响了后续十年视觉模型的发展方向 [6] 人才招募计划 - 研究所面向全球进行人才招募，名额充足且长期有效 [8] - 招募岗位涵盖教授、研究员、副教授、博后、工程师、博士生、硕士生、本科实习生等多个层次 [9] - 研究所提供顶配资源与顶格待遇，诚邀海内外优秀本科、硕士、博士研究生及博士后青年人才积极申请，并全力支持优秀青年学者申请海外优青、杰青等国家高层次人才项目 [10] - 工作地点可选上海或合肥 [11]

计算机视觉

计算机视觉

辽宁青年科学家论坛在沈举办

辽宁日报· 2025-11-24 09:04

论坛概况 - 第八届辽宁青年科学家论坛于11月23日在沈阳举办，旨在为青年科技人才搭建高层次学术交流平台 [1] - 论坛主题为“智创辽宁，AI赋能”，核心目标是推动人工智能技术与传统产业深度融合，助力辽宁数字经济发展和智造强省建设 [1] 核心议题与专家观点 - 论坛特邀唐立新院士作题为《智能工业数据解析与优化》的报告 [1] - 省内专家围绕人工智能赋能产业转型升级和前沿技术与创新应用作报告，聚焦领域包括工业智能、智慧能源、机器人、医工融合、大模型、计算机视觉 [1] 论坛建议与发展方向 - 建议强化工业智能根基，推动传统产业升级 [1] - 建议聚焦前沿技术应用，开辟新兴赛道 [1] - 建议促进“产学研用”深度融合，构建创新生态 [1] - 建议夯实人才支撑体系，激发青年创新活力 [1] 参与方 - 参与者包括省内高校与科研院所、企业、学会代表，省政协青年委员代表，以及中国科协青年人才托举工程博士生专项计划、培育工程工程师专项计划入选者代表 [1]

AI视觉GPT时刻，Meta新模型一键“分割世界”，网友直呼太疯狂了

36氪· 2025-11-20 18:04

产品发布核心 - Meta公司宣布推出全新的SAM 3D模型家族，包含用于物体和场景重建的SAM 3D Objects以及用于人体和体型估计的SAM 3D Body [1] - 同日，此前引发热议的SAM 3图像分割模型也正式发布，其亮点是引入了“可提示概念分割”的新功能 [1] - 该系列模型能够使用户点击图像中的元素后，直接从2D图像中扣出一个可360度旋转且基本无破绽的3D模型 [1] SAM 3D Objects模型技术细节 - 通过强大的数据注释引擎，在大规模自然图像上实现了3D物体的精细标注，涉及近百万张图像，生成超过314万个网格模型 [7] - 结合了“众包+专家”的数据标注模式，并借鉴大型语言模型的训练理念，将合成数据学习重新定义为“三维预训练” [9] - 在一对一的人类偏好测试中以5:1的优势战胜现有领先模型，并能结合扩散捷径和优化算法在几秒钟内完成全纹理3D重建 [10] - 模型当前输出分辨率有限，复杂物体细节可能出现缺失，且物体布局预测仍以单个物体为主 [11] SAM 3D Body模型技术细节 - 专注于从单张图像中精确估算人体的三维姿态和形状，支持通过分割掩码、二维关键点等提示输入引导模型预测 [12] - 核心是一种名为Meta Momentum Human Rig（MHR）的开源3D网格格式，将人体骨骼结构与软组织形状分离 [12] - 研究团队整合了数十亿张图像等数据，通过自动化数据引擎筛选出约800万张高质量训练样本 [13] - 当前模型主要针对单人处理，尚未支持多人或人与物体的交互预测，手部姿势估计精度也有待提升 [16] SAM 3模型技术细节 - 是一款统一模型，能够基于文本、示例图像或视觉提示实现对象的检测、分割和跟踪 [18] - 通过“可提示概念分割”功能，可以识别复杂细微的概念，如“条纹红伞”或“手中未持礼盒的坐着的人” [19] - 在SA-Co基准上的概念分割性能实现了约100%的提升，在用户偏好测试中相较最强竞品OWLv2更受青睐，比例达到约3:1 [19] - 采用人类与AI协同的数据引擎，AI注释者能提升标注速度（负样本快约400%，正样本快约36%）并自动筛选简单样本 [20] 性能与基准测试 - SAM 3D Objects在3D形状指标F1 (0.01)上达到0.2339，显著高于对比模型（如Trellis + MegaPose的0.1436） [10] - SAM 3具有超快的推理速度，在单张英伟达H200 GPU上能在30毫秒左右识别一张包含超过100个可检测物体的图片 [3] - SAM 3D Body在多个三维人体基准测试中取得了显著优势，准确性和稳健性均领先于以往模型 [13] 商业化与开源 - Meta已开始将SAM 3D Objects和SAM 3用于商业应用，例如Facebook Market的“房间视图”功能，帮助用户购买家具前预览效果 [6] - SAM 3D系列模型和SAM 3的相关训练评估数据、基准、模型检查点、推理代码等均已开源 [6] - MHR参数化人体模型在商业许可下可供使用，使Meta的技术如Codec Avatars等得以落地应用 [16]

Meta Platforms(US:META)

计算机视觉

Artificial Intelligence

SAM 3D系列模型

计算机视觉

Artificial Intelligence

SAM 3D系列模型

七大“深度科技”将引领全球农业变革

科技日报· 2025-11-13 09:00

文章核心观点 - 全球农业面临气候变化、资源退化、人口结构变动与地缘政治动荡等空前压力，亟须一场由深度科技引领的系统性变革 [1] - 世界经济论坛报告指出，未来十年，以生成式人工智能、计算机视觉、边缘物联网、卫星遥感、机器人、CRISPR基因编辑及纳米技术为代表的深度科技，有望成为推动全球农业转型的关键引擎 [1] - 深度科技旨在助力构建更具韧性、更可持续且效率更高的农业体系 [1] 生成式人工智能 - 应用受益于大语言模型快速发展和农业数据日益丰富，场景广泛包括提供个性化作物管理建议、生成高度本地化农事方案、预测农产品市场价格 [2] - 结合自然语言处理技术可实现智能交互，成为农民的AI顾问，例如印度瓦德瓦尼AI研究所开发的AgriAI Collect能快速回应各类农业咨询 [2] - 能协助政府制定宏观作物规划、帮助企业模拟气候影响、识别优良基因并预测基因编辑效果，从而加速新品种作物研发 [2] - 高质量训练数据缺乏，尤其是适用于本地化场景的数据，是制约其推广的关键难题 [2] 计算机视觉 - 作为AI重要分支，赋予机器看懂图像与视频的能力，通过解析视觉信息结合机器学习算法直接生成决策建议，显著降低对人工分析的依赖 [3] - 应用场景正快速拓展，已能精准识别作物病害、杂草与害虫，并实时监测作物生长压力 [3] - 是农业机器人、自动化分拣分级系统等智能装备的核心技术 [3] - 农田环境充满变数，不同生长阶段的光照条件、植株形态变化多样，制约着技术的大规模应用 [3] 边缘物联网 - 核心架构是将物联网数据直接在设备端或邻近网络边缘处理，无需远传至云端，实现低延时实时响应并加速自主决策进程 [4] - 适用于网络覆盖薄弱农村地区，应用场景包括灌溉自动化、作物病害早期预警和肥料精准施用 [4] - 这些应用融合了机器学习、计算机视觉与生成式人工智能技术，使农业生产更加智能高效 [4] - 面临设备购置成本较高以及不同边缘系统之间互操作性有待提升的双重挑战 [4] 卫星遥感技术 - 随着空间与光谱分辨能力提升以及数据采集频次增加，正被广泛应用于农业领域 [6] - 能够高效获取大范围地理区域时空数据，以较低成本实现大规模监测 [6] - 结合机器学习方法，数据可用于评估作物健康状况、监测养分与水分分布，并预测病虫害发生趋势 [6] - 面对小规模分散农田或多季作物轮作等复杂场景时，技术精度仍有待提升 [7] 机器人技术 - 指利用自主机械系统完成劳动密集或高度复杂任务，系统集成了感知与决策能力，无需人工直接干预即可高效运行 [8] - 随着人工智能感知能力提升及云边协同技术成熟，农业机器人正迎来更广阔应用空间 [8] - 与计算机视觉等技术结合，能够实现精准播种、智能除草、自动化采收、实时作物监测与精准施肥 [8] - 目前技术成本较高，在劳动力充裕、工资水平较低的国家推广面临挑战 [9] CRISPR技术 - 以其精准高效特点成为推动农业发展关键力量，可对生物体DNA进行精确修改，引入优良性状或剔除不良性状 [10] - 有助于加速培育抗旱、抗病虫害、营养价值更高且生长周期更短的作物 [10] - 有望在实际应用中提升产量、减少农药使用，并增强作物对气候变化适应能力 [10] - 繁琐的审批流程与公众接受度问题是其商业化道路上的主要挑战 [11] 纳米技术 - 当材料被缩小至纳米尺度会展现出与宏观状态截然不同的性质，在农业领域展现出显著潜力 [12] - 可广泛应用于病虫害防治、养分精准管理、农业投入品的可控释放及生物传感等多个方向 [12] - 由于缺乏长期环境与健康影响数据，该项技术的大规模应用仍面临挑战 [12]

生成式人工智能（GenAI）

计算机视觉

边缘物联网

生成式人工智能（GenAI）

计算机视觉

边缘物联网

全球首个，Nature重磅研究：计算机视觉告别“偷数据”时代

36氪· 2025-11-06 16:13

数据集背景与行业痛点 - 计算机视觉技术广泛应用于自动驾驶、消费电子等领域，图像数据集是基础[2] - 过去十年数据集多依赖网络抓取，存在未经授权、缺乏多样性、知情同意和补偿等伦理问题[2] - 数据缺陷削弱了AI系统的公平性和准确性，并强化了种族、性别等社会偏见，例如商业人脸识别系统识别深肤色女性的错误率远高于浅肤色男性[2] - 部分知名数据集如COCO、VQA2.0或MIAP在人口多样性和自我报告信息方面存在明显缺陷[2] FHIBE数据集核心特点 - Sony AI推出全球首个公开可用、全球多样化、基于用户同意的数据集FHIBE，专门用于评估以人为中心的计算机视觉任务的公平性[2] - 数据集收录来自81个国家和地区的10318张图像，涉及1981位独立个体，涵盖人脸识别到视觉问答等广泛视觉任务[2] - 采用全球众包和自我报告形式，形成1234个交叉群组，区域分布均衡：非洲占44.7%，亚洲与大洋洲占40.6%，改善了人像数据过度集中于北美与欧洲的问题[6] - 拥有迄今最全面的标注信息，包括人口统计特征、物理属性、环境因素、仪器参数及像素级标注数据[3] - 每张图像附有自述姿势、互动、外观特征、年龄类别标注以及人脸、人物编辑框的像素级标注，包括33个关键点与28类分割标签[7] 数据收集的伦理与合规性 - 数据收集过程严格遵守《通用数据保护条例》（GDPR）等法规，包含清晰条款的同意书[10] - 参与者在充分了解用途后自愿签署知情同意书，明确同意其生物特征数据用于AI公平性研究，并保留随时撤回同意的权利[10] - 通过生成式扩散模型对非自愿主体及可识别个人身份的信息进行图像修复与人工复核，避免传统隐私保护措施可能造成的再识别风险[10] 模型公平性评估应用 - 利用FHIBE对8类计算机视觉任务的主流模型进行系统测试，包括姿态估计、人物分割、人物检测、人脸检测等[11] - 研究发现，基于交叉群组的分析显示，年轻（18-29岁）、肤色较浅、亚洲血统的群体获得较高准确率；年长（50岁以上）、肤色较深、非洲血统的群体准确率较低[11] - 发现了之前未被识别的细微偏见，例如面部解析模型对灰白发色人群识别能力不足，人脸验证模型识别女性群体的准确率更低[13] - 在多模态基础模型测试中，CLIP在图像分类任务中对使用"he/him/his"代词的图像比使用"she/her/hers"代词的图像更倾向于赋予中性标签[13] - BLIP-2在开放式问答中会生成带有性别或种族偏见的描述，对于负面提示在特定群体中引发更高的有害刻板印象[15] 行业意义与未来展望 - 该成果是可信人工智能发展的重要里程碑，提高了人工智能公平性基准的衡量标准，为负责任的数据管理提供了实现路径[5] - 研究团队希望以FHIBE为起点，推动计算机视觉领域在数据收集、知情同意、隐私保护与多样性设计上的制度化实践[17] - 希望发挥FHIBE作为检测工具的作用，通过评估监测模型的性能与偏见，助力开发更具包容性与可信度的人工智能系统[17]

索尼集团(US:SONY)

计算机视觉

可信人工智能

Artificial Intelligence

计算机视觉

可信人工智能

Artificial Intelligence

南京大学、影石创新、栖霞区签订战略合作协议影石智能影像算法创新中心揭牌

南京日报· 2025-11-05 10:01

合作协议核心内容 - 南京大学、影石创新、栖霞区三方签署战略合作协议，并揭牌影石智能影像算法创新中心 [1] - 合作旨在深化校地企协同，达成产教才合作 [1] 公司业务与技术方向 - 公司是全球领先的智能影像品牌，专注于全景相机、运动相机和全景无人机等智能影像设备的研发、生产和销售 [1] - 新设立的创新中心将聚焦AI影像算法、VR/AR、计算机视觉等核心技术方向 [1] 人才与产业合作 - 三方共建影石创新（南大仙林）人才培育基地，开展实习实训、毕业设计、创新创业培养等合作，定向培养高素质应用型、创新型人才 [1] - 合作将联合南大、东大、南航等在宁高校和一系列技术互补型企业，开展技术研发、人才培养、场景落地等合作 [1] 应用场景与政策支持 - 栖霞区将支持公司在工业制造、智能会议、城市治理等领域开展场景示范应用 [1] - 合作依托南京大学的教育资源、公司的产业实践平台以及栖霞区的政策资源 [1]

计算机视觉

智能影像设备

计算机视觉

智能影像设备

南京大学、影石创新、栖霞区签订战略合作协议

新浪财经· 2025-11-04 21:25

合作核心内容 - 南京大学、影石创新、栖霞区三方签署战略合作协议并揭牌影石智能影像算法创新中心 [1] - 合作将依托南京大学人才资源与栖霞区政策资源设立创新中心 [1] - 三方共建影石创新（南大仙林）人才培育基地 [1] 技术研发方向 - 创新中心聚焦AI影像算法、VR/AR、计算机视觉等核心技术方向 [1] - 公司将联合南大、东大、南航等在宁高校及技术互补型企业开展技术研发合作 [1] 人才培养计划 - 人才培育基地将开展实习实训、毕业设计、创新创业培养等合作 [1] - 合作旨在定向培养一批符合产业需求的高素质应用型、创新型人才 [1] 应用场景拓展 - 栖霞区支持公司在工业制造、智能会议、城市治理等领域开展场景示范应用 [1]

计算机视觉

计算机视觉

A股计算机视觉第一股格灵深瞳业绩持续承压，前三季亏损过亿

南方都市报· 2025-10-30 20:08

财务表现 - 2025年第三季度归属母公司股东净亏损4748.79万元，扣非后归母净亏损5107.75万元 [1] - 2025年前三季度累计净亏损1.27亿元，较2024年同期的1.38亿元亏损略有收窄 [1] - 2025年第三季度营业收入5175.61万元，同比增长453.28%，但低于2021年至2023年同期约7000万元的水平 [1] - 2025年第三季度经营活动产生的现金流量净额为净流出6256.45万元 [3] 业务运营与客户结构 - 公司技术涵盖计算机视觉、多模态大模型、大数据分析和机器人，应用领域包括智慧金融、城市管理、政务及特种、智慧教育 [3] - 智慧金融和特种领域客户集中度较高，受宏观经济影响，智慧金融客户预算收紧，需求放缓 [3] - 2024年第一大客户中国农业银行贡献了年营收的44.44% [3] - 2025年前三季度，来自农业银行以外的其他客户营收占比近90%，公司与中国农业银行的框架合同已于2025年9月到期 [3] 研发投入与项目 - 研发重点投向多模态大模型技术与应用开发项目（预计投资3.68亿元）和智慧能源农场项目（预计投资5058万元） [4] - 智慧能源农场项目始于2023年，已完成全自动微藻培养系统开发并实现智能算法控制的技术验证 [4] - 2025年上半年研发人员数量从2024年同期的318人减少至227人 [5] - 研发人员平均薪酬从2024年上半年的18.97万元降至2025年上半年的17.89万元 [5] 公司治理 - 公司实际控制人为赵勇，其创办公司前曾担任谷歌总部研究院资深研究员 [6]

格灵深瞳(SH:688207)

计算机视觉

多模态大模型

大数据分析

人工智能产品

智能终端计算设备及解决方案

计算机视觉

多模态大模型

大数据分析

人工智能产品

智能终端计算设备及解决方案

今年CVPR，自动驾驶还能冲什么方向？

自动驾驶之心· 2025-10-28 08:03

行业趋势与市场定位 - CVPR 2026投稿量已超2000篇，预计将超过ICLR投稿量[1] - 行业研究趋势显示，CVPR 2026主旋律可能是世界模型，紧跟2024多模态和2025视频生成的趋势[1] - 公司专注于自动驾驶、具身智能、机器人等交叉学科，深耕多年并拥有顶尖学术资源[3] 公司服务与产品核心 - 提供论文辅导服务，内容包括掌握技术脉络、复现模型、产出论文初稿及投稿指导，目标冲击高区或顶会[2] - 拥有300多名专职老师，来自全球QS排名前100，发表过多篇顶会/子刊/A会/B会论文，近3年辅导学员超400名，中稿率高达96%[5] - 服务流程包括个性化论文指导、导师实时互动、录播回看及课后答疑，提供从选题到中稿的一站式科研服务[13] 目标客户与学员成果 - 目标客户包括有科研需求、从事人工智能领域工作、考研申博留学等群体[14] - 学员案例显示，辅导周期2-4个月可达成SCI、CCF A/B、顶会等成果，例如某学员在3个月内完成CCF B类论文并投稿emnlp顶会[6] - 学员要求自带简历并有一定PyTorch基础，主要方向涵盖三维重建、SLAM、点云处理、计算机视觉等[10] 服务优势与附加价值 - 解决导师放养、知识零散、缺乏科研体系等问题，帮助建立科研思维并熟悉流程[7] - 优秀学员可获得清北/MIT等名校推荐信，或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] - 提供精准匹配系统，根据学员研究方向、目标期刊和基础水平筛选3-5位导师，并支持试听和退款承诺[18][19]

计算机视觉

自动驾驶之心论文辅导

计算机视觉

自动驾驶之心论文辅导

汇报一下ICCV全部奖项，恭喜朱俊彦团队获最佳论文

具身智能之心· 2025-10-26 12:02

文章核心观点 - ICCV 2025会议在美国夏威夷举行，中国提交论文的作者占比达到50% [1] - 会议公布了多项重要奖项，包括最佳论文奖、最佳学生论文奖等，展示了计算机视觉领域的最新研究进展 [3][4][6][7][9][10][12][14][16] 获奖研究成果 - **最佳论文奖（马尔奖）**：研究提出BRICKGPT模型，能够根据文本提示生成物理稳定的积木结构，构建了包含超过47000个积木结构的数据集StableText2Brick，涵盖28000多个独特三维物体 [24][26] - **最佳学生论文奖**：提出FlowEdit方法，基于预训练T2I流模型实现文本驱动图像编辑，无需反演和优化，在Stable Diffusion 3和FLUX上取得最先进效果 [38][39][40] - **最佳论文荣誉提名**：来自卡内基梅隆大学的团队开发空间可变自动对焦技术，利用光学组合使每个像素聚焦在不同深度上，能够同时使整个场景保持清晰对焦 [42][44] - **最佳学生论文荣誉提名**：RayZer模型以未标定图像作为输入，自主恢复相机参数并生成新视角画面，仅通过2D图像监督完成训练 [47][48][49] - **赫尔姆霍兹奖**：Fast R-CNN方法在PASCAL VOC 2012数据集上对VGG16网络的训练速度较R-CNN提升9倍，测试速度提升213倍 [54]；PReLU网络在ImageNet 2012分类数据集上实现4.94%的Top-5测试误差，相比GoogLeNet的6.66%提升26%，首次超过人类水平的5.1% [58][59][60] 获奖团队与研究人员 - **The SMPL Body Model Team**：开发了基于蒙皮和混合形状技术的逼真人体三维模型，模型参数完全从数据中学习 [62][64][66] - **The VQA Team**：提供了包含约25万张图像、76万个问题和约1000万个答案的视觉问答数据集，并提供了多种基线方法 [67][68][69] - **David Forsyth**：伊利诺伊大学香槟分校计算机科学教授，研究方向包括计算机视觉、计算机图形学和机器学习 [72][73] - **Michal Irani**：以色列魏茨曼科学研究院教授，研究领域为计算机视觉、图像处理和人工智能 [75] - **Rama Chellappa**：约翰霍普金斯大学布隆伯格杰出教授，研究领域涵盖计算机视觉、模式识别、图像与信号处理等 [78] 研究人员背景 - 朱俊彦：清华大学计算机科学系本科毕业，UC伯克利博士，现任CMU助理教授，博士论文获ACM SIGGRAPH 2018"杰出博士论文奖" [30][31] - Kangle Deng：Roblox研究科学家，北京大学本科，卡内基梅隆大学博士 [33] - Ruixuan Liu：卡内基梅隆大学博士生，研究方向包括机器人学习、操作与控制等 [35] - Changliu Liu：清华大学本科，加州大学伯克利分校博士，现任卡内基梅隆大学机器人研究所副教授 [37]

计算机视觉

人工智能与计算机视觉

计算机视觉

人工智能与计算机视觉