Workflow
计算机视觉
icon
搜索文档
视觉强化学习最新综述:全领域梳理(新加坡国立&浙大&港中文)
自动驾驶之心· 2025-08-16 08:03
研究背景与综述定位 - 视觉强化学习(Visual RL)的爆发源于强化学习在大语言模型(LLM)中的成功迁移,特别是RLHF(人类反馈强化学习)显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战:复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱(多模态LLM/视觉生成/统一模型/VLA模型)、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程(MDP),将文本/图像/视频生成统一为episodic MDP框架,状态包含用户prompt和已生成动作序列[15] - 三大对齐范式:RLHF(三阶段流程:SFT→奖励模型→PPO优化)、DPO(直接优化偏好数据)、RLVR(可验证奖励替代主观偏好)[18][19][20] - 策略优化算法PPO(带价值网络与KL惩罚)和GRPO(组相对优势+移除价值网络)分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域 多模态大语言模型(MLLM) - 常规RL驱动型MLLM使用可验证奖励(如精确匹配/IoU)优化VLM骨干,代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D(Omni-R1双系统GRPO优化情感识别)和3D(MetaSpatial用渲染深度奖励优化AR场景生成)[34] - 图像推理分为"基于图像思考"(SVQA-R1用视图一致性奖励)和"用图像思考"(GRIT优化答案正确性+框精度)[35] 视觉生成 - 图像生成三大奖励范式:人类中心偏好优化(ImageReward)、多模态推理对齐(UnifiedReward)、Metric驱动优化(DDPO最小化FID)[37][40] - 视频生成通过偏好模型优化(InstructVideo)、组相对优化(DanceGRPO)、领域特定奖励(Phys-AR惩罚物理定律违反)提升时序一致性[41] - 3D生成采用RL优化文本-网格生成(DreamCS融合轮廓IoU与CLIP对齐)、交互式编辑(Nabla-R2D3用实时渲染验证奖励)[41] 视觉-语言-动作模型(VLA) - GUI自动化分桌面(GUI-R1映射点击成功为稠密奖励)和移动场景(AgentCPM-GUI压缩动作空间适配设备)[42] - 视觉导航采用端到端RL(VLN-R1时间衰减奖励处理轨迹)和仿真微调(Flare实现家居场景泛化)[45] - 机器人操纵通过任务接地奖励(TGRPO)、课程式RL(RLVLA提升重排成功率)优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级(FID/FVD)、样本级(人类偏好分数)、状态级(KL散度监控策略漂移)[46][48][49] - 开放挑战包括有效推理平衡(自适应周期策略)、VLA长周期RL(分层子目标发现)、视觉思考RL(混合动作空间设计)[50][51][52] - 奖励模型设计需融合低阶信号(几何一致性)与高阶偏好,并实现跨模态泛化与动态更新[53][56]
吞下17亿图片,Meta最强巨兽DINOv3开源,重新定义CV天花板
36氪· 2025-08-15 15:29
技术突破 - Meta推出DINOv3视觉模型,通过自监督学习(SSL)训练,无需人工标注,使用17亿张图片训练出70亿参数的视觉主干网络 [1] - DINOv3在多个密集预测任务中首次超越专用解决方案,刷新或逼近多项基准测试最佳成绩 [1] - 模型参数规模达70亿,训练数据量比前代提升12倍,在15项视觉任务和60多个基准测试中表现优异 [19] 性能表现 - 在ADE-20k分割任务中达到55.9分,相比DINOv2的49.5分有显著提升 [2] - 深度估计任务NYU I误差降至0.309,优于DINOv2的0.372 [2] - 视频跟踪DAVIS得分83.3,实例检索Met得分55.4,均大幅领先前代 [2] - ImageNet ReaL分类准确率达90.4%,与当前最优弱监督模型相当 [2][23] 应用场景 - NASA已将DINOv3应用于火星探测机器人,实现低资源多任务视觉处理 [3][24] - 世界资源研究所使用DINOv3监测森林砍伐,树冠高度测量误差从4.1米降至1.2米 [16][17] - 适用于医疗影像、卫星遥感、自动驾驶等领域,特别适合标注稀缺场景 [10][15] 技术特点 - 采用完全开源策略,包含预训练模型、适配器、训练代码等全流程资源 [6][9] - 支持高分辨率特征提取,能生成包含可测量属性的像素级密集特征 [21] - 无需微调即可直接应用于下游任务,多个任务可共享计算开销 [22][24] - 提供从轻量级到高性能的模型家族,包括ViT和ConvNeXt等多种架构 [26] 行业影响 - 首次证明自监督学习模型能超越弱监督模型,减少对人工标注的依赖 [11][12] - 推动计算机视觉领域范式转变,加速医疗、环保、制造等行业的视觉应用 [10] - 开源策略降低技术门槛,促进社区在视觉基础模型上的创新 [6][26]
用时间积累换突破——月之暗面专注通用人工智能领域
经济日报· 2025-08-12 06:12
公司概况 - 北京月之暗面科技有限公司(Moonshot AI)成立于2023年4月,专注于通用人工智能(AGI)研发,目标是探索智能极限并实现普惠AI [1] - 公司位于北京海淀区中关村,拥有约300名员工,其中50%为90后,团队涵盖算法、工程、产品及运营领域的顶尖人才 [2] - 创始人杨植麟具有10年自然语言处理(NLP)研究经验,团队具备超大规模计算集群运维和深度学习框架开发能力 [1][2] 技术产品 - 核心产品Kimi智能助手于2023年10月上线,是全球首个支持20万字长文本处理的AI助手,半年后长文本能力扩展至200万字 [2][4][5] - 2024年7月发布开源大模型Kimi K2,参数规模达万亿级别但激活参数仅320亿,成本效益显著提升 [3][6] - Kimi K2在多项基准测试中表现优异,特别在自主编程、工具调用和数学推理三方面能力突出,成为全球开源模型榜单前五名中唯一的开源模型 [6] - 产品线持续扩展,包括K1.5视觉思考模型、Kimi-Researcher深度研究模型及浏览器助手等 [2] 技术创新 - 坚持无损数据压缩技术路线,拒绝滑动窗口等捷径方案,实现200万字长文本处理突破 [5] - 首次将创新优化器应用于万亿参数规模模型训练,验证了训练效率的技术突破 [8] - 开发具备Agent能力的模型,可自主探索使用工具并与电子/真实世界交互,推动AI进入智能体时代 [7][8] - 开源策略使Kimi K2成为API调用量和下载量增长最快的大模型,将顶尖技术能力开放给开发者社区 [6] 市场表现 - 2024年Kimi用户量实现100倍增长,从几十万跃升至数千万级别 [5] - Kimi K2已接入部分国际主流开发平台,在3D/游戏/动画制作等场景展现强大交互能力 [3][7] - 产品演示显示可在4分钟内根据指令创建3D森林环境,并具备软件开发、英语学习应用创建等多元功能 [7] 发展理念 - 坚持"技术理想主义",通过长期积累实现突破,专注通用人工智能而非垂直领域解决方案 [8] - 追求"将能源转化为智能的最优解",致力于发展通用泛化能力而非单一技能 [8] - 产品设计强调个性化定制,打破技术专用性壁垒,实现"代码人人可用"的普惠目标 [7]
秒测!AI视觉技术让油菜籽品质检测像扫码一样简单
新京报· 2025-08-11 14:12
技术创新 - 中国农业科学院油料作物研究所利用计算机视觉和人工智能构建了油菜籽高质量图像数据库与模型库,实现了品质在线实时秒测 [1] - 传统检测方法依赖精密仪器和实验室分析,样本易破坏且费时费力,难以满足大规模实时检测需求 [1] - 科研人员开发出SeedVision软件,通过拍照上传图像可在10秒内检测含油量和蛋白含量等指标,准确率超过88%,平均误差保持在5%以内 [1] 应用前景 - 该技术为油菜籽、花生、大豆等油料作物品质实时在线检测提供了技术支撑 [1] - 成果已申请发明专利3项、软件著作权1项,显示出较强的商业化潜力 [1] 研发支持 - 研究得到"十四五"国家重点研发计划、国家自然科学基金、中国农业科学院科技创新工程等项目资助 [1]
推荐几个具身智能与机器人私房菜!
具身智能之心· 2025-08-10 14:54
行业动态与人才竞争 - 具身与自动驾驶行业进入规模化量产阶段,融资和招聘活动显著增长 [1] - 可落地技术成为竞争焦点,具备相关能力的人才供不应求 [1] - 行业门槛高导致岗位竞争激烈,系统性学习方法是脱颖而出的关键 [1] 学术与技术资源平台 - **arXiv每日学术速递**:覆盖AI、计算机视觉、机器人等领域的实时论文更新,提供摘要翻译和机构信息 [1] - **自动驾驶专栏**:聚焦行业资讯与技术研究,促进从业者交流 [1] - **北京市高级别自动驾驶示范区**:政策创新与技术突破的前沿阵地,提供商业化落地动态 [1] 专业社区与开发者平台 - **自动驾驶之心**:国内最大开发者社区,覆盖感知、规划、SLAM等方向,吸引300+企业关注并提供学习网站 [2] - **智驾最前沿**:技术资讯全媒体平台,提供免费专业资料 [4] - **计算机视觉研究院**:专注AI研究与落地,分享论文算法和实战项目 [5] 具身智能领域资源 - **视觉语言导航**:聚焦机器人导航领域的技术梳理与行业资讯 [6] - **具身智能研究室**:强化学习、多智能体协同等核心领域的研究与产业案例,拥有2000+开发者社区 [7] - **具身智能之心**:全栈技术交流社区,覆盖多模态大模型、运动控制等方向 [8]
从自动驾驶到具身智能,这几个社区撑起了半边天!
自动驾驶之心· 2025-08-09 00:04
行业动态 - 各家具身与自驾公司开始规模化量产相关产品,融资和招聘情况大幅增长 [1] - 可落地的技术成为行业争先占领的重点,具备相关能力的人才成为争夺目标 [1] - 行业对从业者能力要求较高,岗位竞争激烈 [1] 技术社区资源 - 智驾最前沿:自动驾驶领域专业的技术、资讯全媒体平台,提供超多份自动驾驶领域专业资料 [1][3] - 计算机视觉研究院:涉及AI研究和落地实践,致力于目标检测、目标跟踪、图像分割等方向,每日分享最新论文算法新框架 [3] - 视觉语言导航:专注于视觉语言导航、目标导航、无人机导航等前沿领域的成果分享 [5] - 具身智能研究室:聚焦强化学习、多智能体协同、运动控制等具身智能核心领域,汇聚2000+开发者形成活跃社区 [6][7] - 具身智能之心:国内首个具身智能全栈技术交流社区,聚焦数据采集、多模态大模型、VLA等方向 [7] - arXiv每日学术速递:每日全量更新arXiv学术论文速递,覆盖人工智能、计算机、金融等多个方向 [8] - 自动驾驶专栏:聚焦自动驾驶最新资讯,分享行业内相关技术研究 [8] - 北京市高级别自动驾驶示范区:全国首个高级别自动驾驶示范区,提供政策创新、技术突破与商业化落地的前沿信息 [9] - 自动驾驶之心:国内最大的自动驾驶开发者社区,关注VLA/VLM、端到端、BEV感知等方向,吸引了近300+自动驾驶与AI类公司/机构关注 [10]
自动驾驶之心项目与论文辅导来了~
自动驾驶之心· 2025-08-07 20:00
自动驾驶之心项目与论文辅导 - 项目正式推出自动驾驶领域论文辅导服务 旨在解决学生在研究过程中遇到的环境配置 创新点实现 模型调试等疑难问题 [1] - 过往辅导成果显著 部分学员成功在CVPR ICRA等顶级会议发表论文 [1] - 2024年计划扩大辅导规模 目标助力更多学员冲击顶会 [1] 主要辅导方向 方向1:多模态与计算机视觉 - 覆盖端到端自动驾驶 BEV感知 大模型等前沿技术领域 [2][3] - 辅导老师为华为天才少年计划入选者 在CVPR/ICCV/ECCV/NIPS等顶会发表论文30+篇 总引用量超6000次 [3] - 学术指导经验丰富 曾指导博士生在CCF-A类顶会顶刊以一作/共一身份发表7篇论文 [3] 方向2:3D视觉技术 - 聚焦图像/点云数据的3D目标检测 语义分割 占据预测等多任务研究 [4][5] - 辅导老师来自国内TOP2高校 在ECCV CVPR等会议有多次论文发表记录 [5] 方向3:自动驾驶感知架构 - 研究领域包含OCC 世界模型 BEV等自动驾驶核心感知方案 [6] - 辅导团队参与多个主流感知方案开发 成员均来自国内TOP2高校 在CVPR ECCV等会议有论文发表 [6] 方向4:神经渲染与重建 - 涉及NeRF 3D Gaussian Splatting等三维重建技术 [7] - 辅导老师以第一作者发表4篇CCF-A类论文(含2篇CVPR和2篇IEEE Trans) [7] - 另有导师在CVPR ICCV ICML TPAMI等期刊会议发表多篇论文 学术背景覆盖国内外顶尖高校(QS200/国内TOP100) [7] 合作方式 - 提供个性化论文辅导服务 具体细节需通过指定微信号(wenyirumo)咨询 [7] - 咨询时需备注"论文辅导"以获取定向服务 [8]
暑期打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛报名即将截止~
自动驾驶之心· 2025-08-04 15:31
竞赛概述 - 竞赛聚焦空间智能与具身智能视觉感知技术 旨在推动自动驾驶 智慧城市 机器人等场景的应用突破[4][5] - 核心目标包括推动高效高质量的空间智能技术研究 探索强化学习与计算机视觉等前沿方法创新 促进神经渲染与机器人抓取等应用落地[7] 组织架构 - 主办方包括北京科技大学 清华大学 中国科学院自动化研究所等顶尖机构 技术赞助由九章云极科技提供[9] - 指导专家团队由张兆翔 鲁继文 殷绪成等学界权威组成 确保竞赛专业度[9] 赛制设计 - 设置双赛道:空间智能赛道考核多视角航拍图像三维重建 具身智能赛道测试动态遮挡环境下的机器人抓取能力[20] - 评价体系差异化:空间智能侧重渲染质量(PSNR)与几何精度(F1-Score) 权重6:4 具身智能关注任务完成度(成功率)与执行效率(路径效率) 权重5:5[22][23] 资源支持 - 提供500-1000张1k分辨率无人机航拍图及仿真环境数据集 九章云极赞助8卡H800 GPU算力验证[14][15] - 算力优惠政策:新用户享6元/度体验价 H800 8卡月租4.2万元 显著降低参赛成本[16][17] 赛事日程 - 6月10日发布赛题 8月10日截止报名 9月30日完成评审 10月15日PRCV大会颁奖[13] - 允许2次结果更新 需提交技术报告说明方法细节 最终成绩前20名可获排名积分[26] 奖项设置 - 单赛道设一等奖(6000元+500度算力券) 二等奖(3000元+200度) 三等奖(1000元+100度) 优胜奖(500元+50度)[25][27] - 所有获奖团队将获得PRCV 2025组委会认证证书 奖金及算力券由九章云极全额赞助[27]
2025-2031年实验室自动化设备行业全景深度分析及投资战略可行性评估预测报告-中金企信发布
搜狐财经· 2025-07-24 11:42
实验室自动化设备行业现状 - 实验室自动化是指通过自动进行样本制备、操作控制、检测、信息处理等实验流程,减少人工干预,广泛应用于多领域实验室操作环节 [2] - 根据自动化程度和规模可分为四个阶段:单一设备形式自动化、工作站形式自动化、流水线形式自动化和智能化形式自动化 [2] - 海外市场主要参与者包括Tecan、Hamilton、BeckmanCoulter等成熟领先企业,国内企业受益于政策支持、公共卫生防控意识升级和国产化替代处于快速发展阶段 [7] 行业发展趋势 - 流程标准化程度高的实验室将向高通量、自动化、信息化方向发展 [7] - 结合机器学习、计算机视觉、数字孪生等技术推动系统向方案自适应调整、流程智能决策等更高智能化方向发展 [7] - 推动检验检测、精准医疗等多应用场景整合和多组学分析更快发展 [7] 技术门槛 - 设备仪器技术门槛:基因测序仪涉及光学、机械、电子、流体、软件、算法等多学科交叉,对硬件设计、系统集成和生产制造工艺要求高 [8] - 试剂耗材技术门槛:涉及文库制备试剂、阵列芯片、关键酶等,需高效控制核酸片段提取、断裂、扩增和富集过程,阵列芯片制作需半导体加工工艺 [9] - 数据分析和软件开发门槛:需处理庞大测序数据并进行基因组装、比对、变异检测等生物信息学分析,是精准医疗应用的基础 [10] 行业发展状况 - 2019-2024年中国实验室自动化设备行业经营效益分析显示盈利能力、运营能力、偿债能力和发展能力等指标均有详细数据 [11] - 行业经济指标分析包括不同规模企业、不同性质企业和不同地区企业的工业总产值、销售产值等 [12] - 2019-2024年全国及各地区供给情况、需求情况和产销率分析显示行业供需平衡状况 [12] 全球市场竞争 - 全球市场主要参与者集中在欧洲、北美、日本和韩国等地区,海外企业占据主导地位 [13][14] - 2019-2024年欧洲、北美、日本和韩国市场规模及2025-2031年预测数据显示各地区发展前景 [16] - 全球市场规模现状、需求结构分析和市场前景展望显示行业整体增长趋势 [16] 中国市场运行 - 2019-2024年中国实验室自动化设备行业总体规模分析包括企业数量、人员规模、资产规模和市场规模 [17] - 行业产销情况分析显示总产值、销售产值和产销率等指标 [17] - 区域细分市场调研显示东北、华北、华东、华南、华中和西南地区市场规模差异 [18] 产业链分析 - 行业产业链包括上游产业供给和下游产业需求,上游涉及原材料和技术供给,下游涉及检验检测、精准医疗等应用领域 [19] - 上游产业发展现状、供给分析和供给价格分析显示产业链上游状况 [19] - 下游产业发展现状和需求分析显示应用领域对行业的影响 [20] 行业发展趋势与前景 - 2025-2031年中国实验室自动化设备市场趋势预测显示产量、市场规模和销量增长预期 [21] - 细分市场发展趋势预测显示不同应用领域的发展潜力 [21] - 行业供需预测显示供给量、需求量和供需平衡状况 [21] 行业投资分析 - 2019-2024年行业投资规模、资金来源构成和投资主体构成显示投资活跃度 [22] - 行业进入壁垒、盈利模式和盈利因素分析显示投资特性 [23] - 投资机会和风险分析显示行业发展潜力和潜在挑战 [23]
江苏两项目入选文旅部建设名单
江南时报· 2025-07-22 21:48
文化和旅游部技术创新中心建设 - 第二批文化和旅游部技术创新中心建设名单公布,江苏省两家企业入选,分别为交互式体感仿真游乐装备中心和3D动漫制作工具链研发与服务中心 [1][2] - 第二批技术创新中心持续深耕文旅科技前沿与关键应用场景,继首批11家单位后进一步拓展领域 [1] 交互式体感仿真游乐装备技术创新中心 - 依托徐州拓普互动智能科技有限公司,聚焦体感仿真游乐设备专业赛道,重点破解设备智能化、一体化等行业关键问题 [1] - 中心研究方向包括设备外观设计、系统集成研发和内容制作分发,实现专业化研发与产业化生产双提升 [1] - 公司拥有超30000平方米生产基地,在曲柄结构控制、伺服控制、变频控制、体感交互、环境模拟等核心技术领域稳居业内前沿 [1] - 公司荣誉包括全国虚拟现实设备厂商十强企业、江苏省科普产品研发基地、全国文化和旅游装备技术提升优秀案例等 [1] 3D动漫制作工具链研发与服务中心 - 依托江苏原力数字科技股份有限公司,以研发创新3D数字技术产品及服务为核心 [2] - 中心设计计算机视觉相关软件系统与工具,深挖计算机图形、三维动画理论与算法,植入深度学习算法优化动画制作流程 [2] - 公司为行业内唯一国家专精特新"小巨人"企业,专注3D数字内容制作,通过重光照技术实现精细面部建模 [2] - 公司作品包括《凡人修仙传》《遮天》《鬼吹灯之南海归墟》等口碑动画,并参与《战神:诸神黄昏》《漫威复仇者联盟》等知名作品制作 [2] - 公司生成国内首套可用于AIGC的高精度中国人面部3D&4D扫描数据包 [2]