计算机视觉 - 财报，业绩电话会，研报，新闻 - Reportify

计算机视觉

搜索文档

今年CVPR，自动驾驶还能冲什么方向？

自动驾驶之心· 2025-10-28 08:03

行业趋势与市场定位 - CVPR 2026投稿量已超2000篇，预计将超过ICLR投稿量[1] - 行业研究趋势显示，CVPR 2026主旋律可能是世界模型，紧跟2024多模态和2025视频生成的趋势[1] - 公司专注于自动驾驶、具身智能、机器人等交叉学科，深耕多年并拥有顶尖学术资源[3] 公司服务与产品核心 - 提供论文辅导服务，内容包括掌握技术脉络、复现模型、产出论文初稿及投稿指导，目标冲击高区或顶会[2] - 拥有300多名专职老师，来自全球QS排名前100，发表过多篇顶会/子刊/A会/B会论文，近3年辅导学员超400名，中稿率高达96%[5] - 服务流程包括个性化论文指导、导师实时互动、录播回看及课后答疑，提供从选题到中稿的一站式科研服务[13] 目标客户与学员成果 - 目标客户包括有科研需求、从事人工智能领域工作、考研申博留学等群体[14] - 学员案例显示，辅导周期2-4个月可达成SCI、CCF A/B、顶会等成果，例如某学员在3个月内完成CCF B类论文并投稿emnlp顶会[6] - 学员要求自带简历并有一定PyTorch基础，主要方向涵盖三维重建、SLAM、点云处理、计算机视觉等[10] 服务优势与附加价值 - 解决导师放养、知识零散、缺乏科研体系等问题，帮助建立科研思维并熟悉流程[7] - 优秀学员可获得清北/MIT等名校推荐信，或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] - 提供精准匹配系统，根据学员研究方向、目标期刊和基础水平筛选3-5位导师，并支持试听和退款承诺[18][19]

计算机视觉

自动驾驶之心论文辅导

计算机视觉

自动驾驶之心论文辅导

汇报一下ICCV全部奖项，恭喜朱俊彦团队获最佳论文

具身智能之心· 2025-10-26 12:02

文章核心观点 - ICCV 2025会议在美国夏威夷举行，中国提交论文的作者占比达到50% [1] - 会议公布了多项重要奖项，包括最佳论文奖、最佳学生论文奖等，展示了计算机视觉领域的最新研究进展 [3][4][6][7][9][10][12][14][16] 获奖研究成果 - **最佳论文奖（马尔奖）**：研究提出BRICKGPT模型，能够根据文本提示生成物理稳定的积木结构，构建了包含超过47000个积木结构的数据集StableText2Brick，涵盖28000多个独特三维物体 [24][26] - **最佳学生论文奖**：提出FlowEdit方法，基于预训练T2I流模型实现文本驱动图像编辑，无需反演和优化，在Stable Diffusion 3和FLUX上取得最先进效果 [38][39][40] - **最佳论文荣誉提名**：来自卡内基梅隆大学的团队开发空间可变自动对焦技术，利用光学组合使每个像素聚焦在不同深度上，能够同时使整个场景保持清晰对焦 [42][44] - **最佳学生论文荣誉提名**：RayZer模型以未标定图像作为输入，自主恢复相机参数并生成新视角画面，仅通过2D图像监督完成训练 [47][48][49] - **赫尔姆霍兹奖**：Fast R-CNN方法在PASCAL VOC 2012数据集上对VGG16网络的训练速度较R-CNN提升9倍，测试速度提升213倍 [54]；PReLU网络在ImageNet 2012分类数据集上实现4.94%的Top-5测试误差，相比GoogLeNet的6.66%提升26%，首次超过人类水平的5.1% [58][59][60] 获奖团队与研究人员 - **The SMPL Body Model Team**：开发了基于蒙皮和混合形状技术的逼真人体三维模型，模型参数完全从数据中学习 [62][64][66] - **The VQA Team**：提供了包含约25万张图像、76万个问题和约1000万个答案的视觉问答数据集，并提供了多种基线方法 [67][68][69] - **David Forsyth**：伊利诺伊大学香槟分校计算机科学教授，研究方向包括计算机视觉、计算机图形学和机器学习 [72][73] - **Michal Irani**：以色列魏茨曼科学研究院教授，研究领域为计算机视觉、图像处理和人工智能 [75] - **Rama Chellappa**：约翰霍普金斯大学布隆伯格杰出教授，研究领域涵盖计算机视觉、模式识别、图像与信号处理等 [78] 研究人员背景 - 朱俊彦：清华大学计算机科学系本科毕业，UC伯克利博士，现任CMU助理教授，博士论文获ACM SIGGRAPH 2018"杰出博士论文奖" [30][31] - Kangle Deng：Roblox研究科学家，北京大学本科，卡内基梅隆大学博士 [33] - Ruixuan Liu：卡内基梅隆大学博士生，研究方向包括机器人学习、操作与控制等 [35] - Changliu Liu：清华大学本科，加州大学伯克利分校博士，现任卡内基梅隆大学机器人研究所副教授 [37]

计算机视觉

人工智能与计算机视觉

计算机视觉

人工智能与计算机视觉

刚刚，ICCV最佳论文出炉，朱俊彦团队用砖块积木摘得桂冠

具身智能之心· 2025-10-23 08:03

ICCV 2025会议概况 - 国际计算机视觉大会ICCV于10月22日揭晓年度奖项，该会议是全球计算机视觉三大顶会之一，每两年举办一次[2][5] - 本届会议共收到11,239份有效投稿，最终录用2,699篇论文，录用率为24%，论文数量相比上一届有大幅增长[5] 最佳论文奖：BrickGPT - 最佳论文奖由卡耐基梅隆大学获得，论文标题为《Generating Physically Stable and Buildable Brick Structures from Text》，由知名学者朱俊彦带领团队完成[3][7][9] - 该论文提出了BrickGPT，是首个能够根据文本提示生成物理稳定的相互连接积木装配模型的方法[11] - 研究团队构建了包含47,000多个积木结构的大规模数据集StableText2Brick，并训练了自回归大型语言模型来预测下一块积木[13] - 方法引入了有效性检查和基于物理约束的回滚机制，实验结果显示其有效性达100%，稳定性达98.8%，平均积木稳定性为0.996，全面优于基线模型[20][22] 最佳论文提名奖 - 同样来自卡耐基梅隆大学的论文《Spatially-Varying Autofocus》获得最佳论文提名奖，该研究突破了传统镜头成像规律，能够构建可任意调整景深的计算镜头[24][26] 最佳学生论文奖 - 最佳学生论文奖由以色列理工学院的《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》获得，该论文提出了一种无需反演的新型图像编辑方法[27][28][30] - FlowEdit通过构建常微分方程直接在源图像分布与目标图像分布间建立映射路径，实现了更低的传输成本和更高保真度的编辑，在Stable Diffusion 3和FLUX模型上取得SOTA效果[32][34] 最佳学生论文提名奖 - 德州大学奥斯汀分校的《RayZer: A Self-supervised Large View Synthesis Model》获得最佳学生论文提名奖，该模型在训练时无需任何3D监督信息即可学习3D感知能力[36][38] Helmholtz Prize（测试方法奖） - 该奖项表彰在计算机视觉基准测试中的贡献，获奖论文包括Ross Girshick的《Fast R-CNN》和何恺明等人的《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》[39][41] - 《Fast R-CNN》提出了用于目标检测的快速区域卷积网络，显著提升了训练和测试速度[39] - 何恺明等人的论文引入了PReLU激活函数和He初始化方法，并首次在ImageNet上达到超越人类水平的分类性能[41] Everingham Prize（严谨评估奖） - 该奖项表彰对社区有重大贡献的研究者，获奖团队包括人体3D模型SMPL的团队和VQA数据集团队[44][46] - SMPL模型以参数化方式精准表示人体姿态与形状，被广泛应用于动画、虚拟人及生成式AI中[44] - VQA数据集结合了图像理解与自然语言问答，推动了多模态AI在视觉理解和语言推理方向的研究[46] 研究者个人奖项 - Significant Researcher Award授予David Forsyth和Michal Irani，表彰其研究显著推动了计算机视觉领域进展[48][53] - Azriel Rosenfeld终身成就奖授予Rama Chellappa，表彰其在人脸识别、运动分析、3D建模等领域的奠基性贡献[54][57]

计算机视觉

计算机视觉

汇报一下ICCV全部奖项，恭喜朱俊彦团队获最佳论文

量子位· 2025-10-22 13:48

会议概况与参与度 - ICCV 2025在美国夏威夷举行，中国作者在提交论文的作者中占比高达50% [1] 主要奖项与获奖研究 - 最佳论文奖（马尔奖）授予研究“Generating Physically Stable and Buildable Brick Structures from Text”，该研究提出BRICKGPT模型，基于包含超过47,000个积木结构、涵盖28,000多个独特三维物体的大规模数据集StableText2Brick进行训练 [4][24] - 最佳学生论文奖授予研究“FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models”，该方法无需反演和优化，在Stable Diffusion 3和FLUX上取得最先进效果 [6][39][40] - 最佳论文荣誉提名授予研究“Spatially-Varying Autofocus”，该技术利用光学组合实现空间可变自动对焦，能同时使整个场景保持清晰对焦并维持最高空间分辨率 [7][42][44] - 最佳学生论文荣誉提名授予研究“RayZer: A self-supervised large view synthesis model”，该模型仅依赖2D图像监督和自预测相机位姿进行新视角合成 [9][47][48] - 赫尔姆霍兹奖授予两项来自微软研究院的研究：Fast R-CNN和Delving Deep into Rectifiers [10][51] - Fast R-CNN在PASCAL VOC 2012数据集上，对VGG16网络的训练速度较R-CNN提升9倍，测试速度提升213倍，并获得更高mAP指标 [54] - Delving Deep into Rectifiers研究提出的PReLU-nets在ImageNet 2012分类数据集上实现4.94%的Top-5测试误差，相比GoogLeNet的6.66%提升26%，并首次超越人类水平（5.1%） [60] - 埃弗林厄姆奖授予The SMPL Body Model Team和The VQA Team [12][62] - VQA团队提供的数据集包含约25万张图像、76万个问题和约1000万个答案 [70] - 杰出研究员奖授予David Forsyth和Michal Irani [14][73][76] - 阿兹列尔·罗森菲尔德终身成就奖授予Rama Chellappa [16][79] 获奖者背景 - 最佳论文奖团队由朱俊彦带队，其本科毕业于清华大学计算机科学系（专业排名第2/140），博士毕业于UC伯克利，现任CMU助理教授 [28][30][31] - 最佳论文奖团队其他成员包括：本科毕业于北京大学的Kangle Deng（Roblox研究科学家）、本硕博均就读于CMU的Ruixuan Liu、本科毕业于清华博士毕业于UC伯克利的Changliu Liu（CMU副教授） [33][35][37]

计算机视觉

计算机视觉

CVPR 2026新规：强制披露算力成本，高效率、高透明度论文可获三项认可奖

机器之心· 2025-10-22 11:30

文章核心观点 - CVPR2026会议将实施一项名为“计算资源报告表（CRF）”的试点计划，强制要求所有论文作者报告研究过程中使用的计算资源，旨在增加AI研究的透明度和公平性 [2] - 该计划的核心目标是帮助社区了解不同方法的实际计算成本，并促进可持续和可及的AI研究实践，但报告数据不会影响论文的接收决策 [2][15][18] 计算资源报告表（CRF）规定 - 从CVPR2026开始，提交计算资源报告是强制性的，需与补充材料一同提交，填写时间约需10-15分钟 [2][7] - 报告内容包括硬件基本信息（如GPU类型和数量）、最终模型的计算时间或FLOP估算，以及论文主要性能结果与最强基准的对比 [7][31] - 报告数据由一个独立的计算资源报告委员会审查，不与论文评审人员共享，因此不影响论文接收决定 [7][16] 认可奖项计划 - 为鼓励透明度和效率，设立三项认可奖项：“高效CVPR”徽章、“CVPR计算金星奖”和“CVPR计算透明度冠军奖” [9] - 奖项根据客观指标（如每单位性能改进的计算量）评定，获奖论文将在会议期间获得特别展示 [10][27] - 提交匿名的Weights & Biases日志可增强获奖资格，但此项提交完全可选 [11][26] 报告填写与提交指南 - 作者需参考预填写的示例文件来填写报告，并保存原始PDF文件，避免压平或修改表格以免删除表单字段 [11][12][20] - 对于无法精确追踪的数据，可根据云服务提供商账单、集群日志或实验追踪工具记录进行估算 [22][25] - 报告区分必填部分（再现核心结果所需资源）和可选部分（总开发计算数据），后者用于了解完整研究过程 [23]

计算机视觉

计算资源报告表（CRF）

计算机视觉

计算资源报告表（CRF）

刚刚，ICCV最佳论文出炉，朱俊彦团队用砖块积木摘得桂冠

机器之心· 2025-10-22 11:30

ICCV 2025会议概况 - 国际计算机视觉大会ICCV于10月22日在美国夏威夷揭幕，是全球计算机视觉三大顶会之一，每两年举办一次[1][4] - 本届大会共收到11239份有效投稿，最终录用2699篇论文，录用率为24%，相比上一届论文数量大幅增长[4] 最佳论文奖 - 最佳论文奖由卡耐基梅隆大学获得，获奖论文为《Generating Physically Stable and Buildable Brick Structures from Text》，由知名青年学者朱俊彦带领团队完成[2][5][6] - 论文提出了BrickGPT，是首个能够根据文本提示生成物理稳定的相互连接积木装配模型的方法[9] - 研究团队构建了大规模、物理稳定的积木结构数据集StableText2Brick，包含47000多个积木结构和超过28000个独特三维对象及其文本描述[11] - 该方法在自回归推理中引入有效性检查和基于物理约束的回滚机制，实验结果显示其有效性达100%，稳定性达98.8%，全面优于基线模型[18][20] - 生成的设计可由人类手动装配或机械臂自动组装，并开发了基于文本的积木贴图方法用于生成带颜色和纹理的设计[11] 最佳论文提名奖 - 同样来自卡耐基梅隆大学的论文《Spatially-Varying Autofocus》获得最佳论文提名奖[21] - 该研究突破了传统镜头单一平面成像限制，构建了能够任意调整景深的计算镜头，实现了全场景清晰成像并保持最高空间分辨率[23] 最佳学生论文奖 - 最佳学生论文奖由以色列理工学院获得，获奖论文为《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》[2][24][25] - 论文提出FlowEdit方法，创新地绕开传统图像编辑路径，通过构建常微分方程直接在源图像分布与目标图像分布间建立直接映射路径[27][28] - 该方法实现了更低的传输成本，能最大程度保留原始图像结构和内容，在Stable Diffusion 3和FLUX流模型上取得SOTA效果[31] 最佳学生论文提名奖 - 德州大学奥斯丁分校的论文《RayZer: A Self-supervised Large View Synthesis Model》获得最佳学生论文提名奖[32] - 该模型在训练时无需任何3D监督信息，仅需2D图像即可学习并展现出涌现的3D感知能力，在新视角合成任务上表现优异[35] Helmholtz Prize获奖论文 - 该奖项表彰计算机视觉基准测试贡献，有两篇获奖论文[36] - Ross Girshick的《Fast R-CNN》提出快速区域卷积网络，显著提升目标检测的训练、测试速度和检测精度[36] - 何恺明等人的论文《Delving Deep into Rectifiers》引入PReLU激活函数和He初始化方法，首次在ImageNet上达到超越人类水平的分类性能[38] Everingham Prize获奖团队 - 该奖项表彰对社区有重大贡献的研究者，有两个获奖团队[41] - SMPL团队开发了参数化三维可变形人体模型，精准表示人体姿态与形状，广泛应用于动画、虚拟人及生成式AI领域[41] - VQA数据集团队创建了结合图像理解与自然语言问答的大规模基准数据集，推动多模态AI在视觉理解和语言推理方向的研究[43] Significant Researcher Award获奖者 - 该奖项表彰显著推动计算机视觉领域进展的研究人员，颁给David Forsyth和Michal Irani[45][50] - David Forsyth在颜色恒常性方法、人体动作识别与追踪技术方面作出贡献，影响物体识别和动作分析研究[50] - Michal Irani开创图像内部自相似性与空间-时间视频形状研究范式，通过无监督方法解决超分辨和视频结构分析等核心问题[50] Azriel Rosenfeld Award获奖者 - 该终身成就奖表彰在学术界和工业界具有持续影响力的研究者，颁给Rama Chellappa[51][54] - Rama Chellappa作为计算机视觉与模式识别领域先驱，在人脸识别、运动分析、3D建模和生成式视觉理解等方面作出奠基性贡献[54]

计算机视觉

计算机视觉

可实时预警岩体微小变化！深大团队研发地质灾害防治系统

南方都市报· 2025-10-21 15:57

技术突破与核心优势 - 新一代地质灾害智能监测系统融合计算机视觉、深度学习与云边端协同技术，实现对边坡落石、危岩移动等地质灾害的全天候、全覆盖、智能化监测[1] - 系统创新性地提出核心图形信息“云-边-端”协同处理技术，构建高效优化算子，实现从“点式监测”到“体式防控”的跨越[3] - 在运动检测、目标识别、精准测量三个关键技术层面实现突破，其中对落石事件的识别准确率超过85%[3] 应用场景与市场前景 - 系统应用场景广泛，包括山区公路隧道口和高边坡路段24小时监测、铁路沿线落石灾害预警、矿山开采区边坡稳定性监测以及水利工程边坡安全[5] - 该系统已在深圳市尖岗山公园投入应用，实现对危岩及落石的24小时不间断监控和报警[5] - 监测设备内置大容量太阳能供电系统，具备强大环境适应性与能源自给能力，可实现24小时不间断运行[5] 系统运行机制与行业影响 - 设备通过高分辨率摄像头捕捉岩体微小变化，利用内置智能算法实时分析研判，一旦监测到异常立即触发多级预警并通过4G/5G网络将数据实时上传至云端管理平台[5] - 系统实现了从“被动等待”到“主动预判”的转变，推动地质灾害监测预警进入“全域感知、智能推演、精准预警”的新阶段[5]

地质灾害防治

云-边-端协同处理技术

计算机图形学

计算机视觉

地质灾害智能监测系统

地质灾害防治

云-边-端协同处理技术

计算机图形学

计算机视觉

地质灾害智能监测系统

苹果盯上Prompt AI，不是买产品，是要伯克利团队的“视觉大脑”

36氪· 2025-10-14 08:59

收购交易概况 - 苹果公司正与计算机视觉初创企业Prompt AI进行收购事宜的“最后阶段谈判”[1] - 交易聚焦Prompt AI的核心技术与核心团队，若达成将成为苹果自2014年以30亿美元收购Beats Electronics后在AI领域的标志性动作[3] - 此次收购是硅谷巨头“人才收购”热潮的典型案例[3] 目标公司基本情况 - Prompt AI成立于2023年，员工数量仅11人[4] - 公司在2023年完成由AIX和Abstract Ventures联合领投的500万美元种子轮融资（约合3565.7万元人民币）[5] - 核心产品Seemour应用因商业模式未达预期计划下线，所有用户数据将被清除以保障隐私[7] - 本次收购对投资人只能收回部分资金，无法全额回本；部分未能加入苹果的员工将获得补偿并可申请苹果其他岗位[7] 技术价值与生态适配 - Seemour应用具备与家庭安防摄像头连接的三大核心功能：精准识别（区分人物/宠物/物体）、场景描述（生成文字说明并回答自然语言问题）、隐私保护（本地设备处理数据）[8] - 技术高度契合苹果HomeKit智能家居生态短板，并与苹果“端侧AI”“隐私优先”战略一致[8] - 底层“环境实时感知”和“空间场景解析”技术可支撑苹果AI智能眼镜研发与自动驾驶路况判断需求[8] 苹果收购策略分析 - 苹果收购偏好“谨慎又聚焦”，最大并购案仍为2014年30亿美元收购Beats[9] - 历史上多次进行“小而精”团队收购，如2011年5亿美元收购Anobit（提升存储性能）、2012年3.56亿美元收购AuthenTec（推出Touch ID）、2013年3.6亿美元收购PrimeSense（用于Face ID）[10] - 2020年收购WaveOne（视频压缩）和Lattice Data（数据可视化）等技术团队均整合至iPhone、Apple Watch等核心产品[10] - 与Meta用143亿美元收购Scale AI、谷歌用24亿美元拿下Windsurf相比，苹果倾向低调收购小型团队以快速融入产品线，规避监管与整合风险[7] 行业竞争与战略动机 - 苹果在AI领域感到“紧迫”，去年6月推出的“Apple智能”系列功能市场反响平平，需通过收购追赶Meta、谷歌等对手在计算机视觉领域的优势[11] - “人才收购”可实现低成本快速补能力，Prompt AI团队拥有加州大学伯克利分校博士及伯克利人工智能研究实验室背景，收购可缩短研发周期并避免团队磨合问题[11][13] - 硅谷巨头普遍采用“人才收购”模式，Meta收Scale AI、谷歌收Windsurf均以获取核心团队为目标，苹果策略更侧重“小而美+精准适配”自身生态（如HomeKit、AR、自动驾驶）[14] 潜在行业影响 - 若收购成功，可能成为苹果AI战略布局的“重要转折点”[15] - 反映AI竞争从“技术堆砌”转向“生态适配”，巨头更关注技术能否融入现有产品体系并解决用户真实需求[15] - 提示初创公司在AI赛道应聚焦细分领域“精准技术突破”，而非追求“大而全的商业模式”[15]

苹果(US:AAPL)

计算机视觉

计算机视觉

ImageNet作者苏昊被曝任教复旦

量子位· 2025-10-10 11:52

文章核心观点 - 核心观点为华人学者苏昊（Hao Su）可能从加州大学圣地亚哥分校（UCSD）转赴复旦大学任教，此消息尚未得到官方确认 [1][12][51] - 苏昊是人工智能领域，特别是计算机视觉与具身智能方向的顶尖学者，是ImageNet、ShapeNet、PointNet等多个奠基性项目的核心贡献者 [4][14][24][29][32] - 其职业动向与复旦大学在具身智能领域的战略布局（如成立可信具身智能研究院）相关联，可能预示着中国在AI前沿领域的投入与人才吸引力的提升 [51][52][55] 苏昊的学术背景与成就 - 苏昊现任加州大学圣地亚哥分校计算机科学学院副教授、具身智能实验室主任，并于2023年获得晋升 [14][49] - 其研究历程经历了从自然语言处理到2D计算机视觉，再到3D视觉，最终聚焦于具身智能与机器人的演进 [20][21][22][28][34] - 他是多个里程碑式项目的关键人物：参与ImageNet数据集工作 [24]、主导创建大规模3D数据集ShapeNet（包含超过300万个3D CAD模型，覆盖3135个类别） [29][30]、共同提出PointNet（被引21,737次）和PointNet++（被引16,103次）模型 [32][33]、发布PartNet数据集 [33]、开发机器人模拟器SAPIEN和仿真平台ManiSkill [35][37] - 2024年，他与谢赛宁共同获得CVPR青年学者奖 [5] 苏昊的创业实践：Hillbot - 苏昊于2024年联合创办具身智能公司Hillbot并担任首席技术官 [43] - 公司核心技术产品包括Sapien仿真器和ManiSkill机器人仿真训练平台，专注于通过模拟和3D生成技术解决机器人领域数据采集成本高的问题 [42][45] - 公司已推出轮式机器人Hillbot Alpha，应用于零售店、咖啡馆和制造车间等复杂环境的移动操纵任务 [45] - 在技术合作上，Hillbot与英伟达合作，利用Nvidia Cosmos平台生成高仿真视频训练数据 [47] - 公司已获得Cherubic Ventures的投资 [48] 复旦大学在具身智能领域的布局 - 复旦大学于2024年1月成立了可信具身智能研究院，为吸引顶尖人才提供了具有竞争力的薪酬条件（基本薪资60万到100万，绩效上不封顶） [55] - 有传闻称复旦大学可能投资苏昊创办的Hillbot公司，并且苏昊可能成为相辉研究院、学敏高等研究院的双聘对象 [52] - 目前该研究院的领导职务（如院长）尚未正式公布，被解读为可能为引进资深学者预留位置 [57]

计算机视觉

Artificial Intelligence

Sapien仿真器

ManiSkill机器人仿真训练平台

计算机视觉

Artificial Intelligence

Sapien仿真器

ManiSkill机器人仿真训练平台

算法小垃圾跳槽日记 2024&2025版

自动驾驶之心· 2025-10-06 12:05

行业技术趋势 - 计算机视觉领域传统算法需求锐减，检测、分割等已被归类为传统算法，类似SVM、SIFT的地位 [8] - 市场需求高度集中于大模型、多模态、文生图/视频以及自动驾驶端到端大模型等前沿方向 [8] - 自动驾驶公司的感知岗位是计算机视觉领域内少数仍有需求的领域 [8] 企业招聘动态 - 2024年求职机会相比2021年显著增多，各大厂及知名中小厂均能提供较多面试机会 [8] - 面试流程密集，存在单日进行多达8场面试的情况，反映出招聘活动活跃 [4] - 企业招聘考核标准趋严，几乎所有公司都要求手写LeetCode代码题，高频题目包括实现NMS、MultiHeadSelfAttention、MLP的前向和反向、岛屿数量等 [9][11] 业务部门价值 - 公司中台部门业务价值受到质疑，缺乏自有业务，主要承接其他部门已深度优化的算法任务，难以形成系统性业务积累 [6] - 行业出现去中台化趋势，中台部门对求职者吸引力较低 [6] - 相比中台，拥有稳定业务的部门（如内容安全）更具吸引力 [6]

计算机视觉

计算机视觉