Workflow
计算机视觉
icon
搜索文档
格灵深瞳: 格灵深瞳2025年半年度报告
证券之星· 2025-08-23 00:29
核心观点 - 公司2025年上半年营业收入同比下降17.22%至4247.28万元,主要受智慧金融领域客户预算收紧影响,但其他领域收入同比增长超40% [3] - 归属于上市公司股东的净利润为-7985.37万元,同比亏损略有扩大,主要因收入减少及管理费用增长 [3] - 研发投入占营业收入比例达160.21%,虽同比下降22.54个百分点,但仍保持高强度投入,重点聚焦多模态大模型技术研发 [3][41] 财务表现 - 营业收入4247.28万元,同比减少17.22% [3] - 归属于上市公司股东的净利润-7985.37万元,同比亏损扩大2.48% [3] - 经营活动现金流量净额-1.03亿元,同比流出增加17.95% [3] - 总资产21.26亿元,较上年度末减少8.26% [3] 技术研发进展 - 发布视觉大模型系列Glint-MVT v1.5,在10亿级图像数据预训练,学术评测超过CLIP和SigLIP2 [14] - 多模态嵌入模型Glint-ME在学术评测榜单MMEB获得第一名 [21] - 新增专利14项(含发明专利2项)、软件著作权8项,累计拥有专利116项、软件著作权192项 [40][41] - 研发投入6804.49万元,其中费用化研发投入占比100% [41] 产品与业务发展 - 智慧金融领域覆盖农业银行上万家网点,新推出金融Super-Agent平台,在多家银行实施智能体应用 [6][23] - 城市管理领域推出基于视觉语言大模型的新一代智能视图大数据系统,车路协同感知MEC产品已交付 [7][24] - 政务及特种领域发布基于国产信创平台的"政企数字员工大模型一体机"与"墨刃Z1 AIPC"产品 [16] - 智慧教育领域产品覆盖学校规模同比提升,深瞳阿瞳目产品应用于多省市体育考试场景 [24] 行业与战略定位 - 公司属于"新一代信息技术产业"中的"人工智能"行业,受益于国家"人工智能+"行动政策支持 [4][5] - 实施"2+2"战略,聚焦智慧金融、城市管理两大战略赛道及政务与特种、智慧教育两大创新领域 [13] - 非农行客户营收占比超90%,收入金额同比增长超40%,业务多元化成效显著 [16] 组织与人才发展 - 2025年上半年新引入专业销售近30人,重建行业专业化销售团队 [18] - 实施"2025年限制性股票与股票增值权激励计划",覆盖高管、中层及核心技术骨干 [18] - 研发人员占比61.68%,核心团队含5名博士,技术带头人曾获军队科技进步二等奖 [26]
视觉强化学习最新综述:全领域梳理(新加坡国立&浙大&港中文)
自动驾驶之心· 2025-08-16 08:03
研究背景与综述定位 - 视觉强化学习(Visual RL)的爆发源于强化学习在大语言模型(LLM)中的成功迁移,特别是RLHF(人类反馈强化学习)显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战:复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱(多模态LLM/视觉生成/统一模型/VLA模型)、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程(MDP),将文本/图像/视频生成统一为episodic MDP框架,状态包含用户prompt和已生成动作序列[15] - 三大对齐范式:RLHF(三阶段流程:SFT→奖励模型→PPO优化)、DPO(直接优化偏好数据)、RLVR(可验证奖励替代主观偏好)[18][19][20] - 策略优化算法PPO(带价值网络与KL惩罚)和GRPO(组相对优势+移除价值网络)分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域 多模态大语言模型(MLLM) - 常规RL驱动型MLLM使用可验证奖励(如精确匹配/IoU)优化VLM骨干,代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D(Omni-R1双系统GRPO优化情感识别)和3D(MetaSpatial用渲染深度奖励优化AR场景生成)[34] - 图像推理分为"基于图像思考"(SVQA-R1用视图一致性奖励)和"用图像思考"(GRIT优化答案正确性+框精度)[35] 视觉生成 - 图像生成三大奖励范式:人类中心偏好优化(ImageReward)、多模态推理对齐(UnifiedReward)、Metric驱动优化(DDPO最小化FID)[37][40] - 视频生成通过偏好模型优化(InstructVideo)、组相对优化(DanceGRPO)、领域特定奖励(Phys-AR惩罚物理定律违反)提升时序一致性[41] - 3D生成采用RL优化文本-网格生成(DreamCS融合轮廓IoU与CLIP对齐)、交互式编辑(Nabla-R2D3用实时渲染验证奖励)[41] 视觉-语言-动作模型(VLA) - GUI自动化分桌面(GUI-R1映射点击成功为稠密奖励)和移动场景(AgentCPM-GUI压缩动作空间适配设备)[42] - 视觉导航采用端到端RL(VLN-R1时间衰减奖励处理轨迹)和仿真微调(Flare实现家居场景泛化)[45] - 机器人操纵通过任务接地奖励(TGRPO)、课程式RL(RLVLA提升重排成功率)优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级(FID/FVD)、样本级(人类偏好分数)、状态级(KL散度监控策略漂移)[46][48][49] - 开放挑战包括有效推理平衡(自适应周期策略)、VLA长周期RL(分层子目标发现)、视觉思考RL(混合动作空间设计)[50][51][52] - 奖励模型设计需融合低阶信号(几何一致性)与高阶偏好,并实现跨模态泛化与动态更新[53][56]
吞下17亿图片,Meta最强巨兽DINOv3开源,重新定义CV天花板
36氪· 2025-08-15 15:29
技术突破 - Meta推出DINOv3视觉模型,通过自监督学习(SSL)训练,无需人工标注,使用17亿张图片训练出70亿参数的视觉主干网络 [1] - DINOv3在多个密集预测任务中首次超越专用解决方案,刷新或逼近多项基准测试最佳成绩 [1] - 模型参数规模达70亿,训练数据量比前代提升12倍,在15项视觉任务和60多个基准测试中表现优异 [19] 性能表现 - 在ADE-20k分割任务中达到55.9分,相比DINOv2的49.5分有显著提升 [2] - 深度估计任务NYU I误差降至0.309,优于DINOv2的0.372 [2] - 视频跟踪DAVIS得分83.3,实例检索Met得分55.4,均大幅领先前代 [2] - ImageNet ReaL分类准确率达90.4%,与当前最优弱监督模型相当 [2][23] 应用场景 - NASA已将DINOv3应用于火星探测机器人,实现低资源多任务视觉处理 [3][24] - 世界资源研究所使用DINOv3监测森林砍伐,树冠高度测量误差从4.1米降至1.2米 [16][17] - 适用于医疗影像、卫星遥感、自动驾驶等领域,特别适合标注稀缺场景 [10][15] 技术特点 - 采用完全开源策略,包含预训练模型、适配器、训练代码等全流程资源 [6][9] - 支持高分辨率特征提取,能生成包含可测量属性的像素级密集特征 [21] - 无需微调即可直接应用于下游任务,多个任务可共享计算开销 [22][24] - 提供从轻量级到高性能的模型家族,包括ViT和ConvNeXt等多种架构 [26] 行业影响 - 首次证明自监督学习模型能超越弱监督模型,减少对人工标注的依赖 [11][12] - 推动计算机视觉领域范式转变,加速医疗、环保、制造等行业的视觉应用 [10] - 开源策略降低技术门槛,促进社区在视觉基础模型上的创新 [6][26]
用时间积累换突破——月之暗面专注通用人工智能领域
经济日报· 2025-08-12 06:12
公司概况 - 北京月之暗面科技有限公司(Moonshot AI)成立于2023年4月,专注于通用人工智能(AGI)研发,目标是探索智能极限并实现普惠AI [1] - 公司位于北京海淀区中关村,拥有约300名员工,其中50%为90后,团队涵盖算法、工程、产品及运营领域的顶尖人才 [2] - 创始人杨植麟具有10年自然语言处理(NLP)研究经验,团队具备超大规模计算集群运维和深度学习框架开发能力 [1][2] 技术产品 - 核心产品Kimi智能助手于2023年10月上线,是全球首个支持20万字长文本处理的AI助手,半年后长文本能力扩展至200万字 [2][4][5] - 2024年7月发布开源大模型Kimi K2,参数规模达万亿级别但激活参数仅320亿,成本效益显著提升 [3][6] - Kimi K2在多项基准测试中表现优异,特别在自主编程、工具调用和数学推理三方面能力突出,成为全球开源模型榜单前五名中唯一的开源模型 [6] - 产品线持续扩展,包括K1.5视觉思考模型、Kimi-Researcher深度研究模型及浏览器助手等 [2] 技术创新 - 坚持无损数据压缩技术路线,拒绝滑动窗口等捷径方案,实现200万字长文本处理突破 [5] - 首次将创新优化器应用于万亿参数规模模型训练,验证了训练效率的技术突破 [8] - 开发具备Agent能力的模型,可自主探索使用工具并与电子/真实世界交互,推动AI进入智能体时代 [7][8] - 开源策略使Kimi K2成为API调用量和下载量增长最快的大模型,将顶尖技术能力开放给开发者社区 [6] 市场表现 - 2024年Kimi用户量实现100倍增长,从几十万跃升至数千万级别 [5] - Kimi K2已接入部分国际主流开发平台,在3D/游戏/动画制作等场景展现强大交互能力 [3][7] - 产品演示显示可在4分钟内根据指令创建3D森林环境,并具备软件开发、英语学习应用创建等多元功能 [7] 发展理念 - 坚持"技术理想主义",通过长期积累实现突破,专注通用人工智能而非垂直领域解决方案 [8] - 追求"将能源转化为智能的最优解",致力于发展通用泛化能力而非单一技能 [8] - 产品设计强调个性化定制,打破技术专用性壁垒,实现"代码人人可用"的普惠目标 [7]
秒测!AI视觉技术让油菜籽品质检测像扫码一样简单
新京报· 2025-08-11 14:12
技术创新 - 中国农业科学院油料作物研究所利用计算机视觉和人工智能构建了油菜籽高质量图像数据库与模型库,实现了品质在线实时秒测 [1] - 传统检测方法依赖精密仪器和实验室分析,样本易破坏且费时费力,难以满足大规模实时检测需求 [1] - 科研人员开发出SeedVision软件,通过拍照上传图像可在10秒内检测含油量和蛋白含量等指标,准确率超过88%,平均误差保持在5%以内 [1] 应用前景 - 该技术为油菜籽、花生、大豆等油料作物品质实时在线检测提供了技术支撑 [1] - 成果已申请发明专利3项、软件著作权1项,显示出较强的商业化潜力 [1] 研发支持 - 研究得到"十四五"国家重点研发计划、国家自然科学基金、中国农业科学院科技创新工程等项目资助 [1]
推荐几个具身智能与机器人私房菜!
具身智能之心· 2025-08-10 14:54
行业动态与人才竞争 - 具身与自动驾驶行业进入规模化量产阶段,融资和招聘活动显著增长 [1] - 可落地技术成为竞争焦点,具备相关能力的人才供不应求 [1] - 行业门槛高导致岗位竞争激烈,系统性学习方法是脱颖而出的关键 [1] 学术与技术资源平台 - **arXiv每日学术速递**:覆盖AI、计算机视觉、机器人等领域的实时论文更新,提供摘要翻译和机构信息 [1] - **自动驾驶专栏**:聚焦行业资讯与技术研究,促进从业者交流 [1] - **北京市高级别自动驾驶示范区**:政策创新与技术突破的前沿阵地,提供商业化落地动态 [1] 专业社区与开发者平台 - **自动驾驶之心**:国内最大开发者社区,覆盖感知、规划、SLAM等方向,吸引300+企业关注并提供学习网站 [2] - **智驾最前沿**:技术资讯全媒体平台,提供免费专业资料 [4] - **计算机视觉研究院**:专注AI研究与落地,分享论文算法和实战项目 [5] 具身智能领域资源 - **视觉语言导航**:聚焦机器人导航领域的技术梳理与行业资讯 [6] - **具身智能研究室**:强化学习、多智能体协同等核心领域的研究与产业案例,拥有2000+开发者社区 [7] - **具身智能之心**:全栈技术交流社区,覆盖多模态大模型、运动控制等方向 [8]
从自动驾驶到具身智能,这几个社区撑起了半边天!
自动驾驶之心· 2025-08-09 00:04
行业动态 - 各家具身与自驾公司开始规模化量产相关产品,融资和招聘情况大幅增长 [1] - 可落地的技术成为行业争先占领的重点,具备相关能力的人才成为争夺目标 [1] - 行业对从业者能力要求较高,岗位竞争激烈 [1] 技术社区资源 - 智驾最前沿:自动驾驶领域专业的技术、资讯全媒体平台,提供超多份自动驾驶领域专业资料 [1][3] - 计算机视觉研究院:涉及AI研究和落地实践,致力于目标检测、目标跟踪、图像分割等方向,每日分享最新论文算法新框架 [3] - 视觉语言导航:专注于视觉语言导航、目标导航、无人机导航等前沿领域的成果分享 [5] - 具身智能研究室:聚焦强化学习、多智能体协同、运动控制等具身智能核心领域,汇聚2000+开发者形成活跃社区 [6][7] - 具身智能之心:国内首个具身智能全栈技术交流社区,聚焦数据采集、多模态大模型、VLA等方向 [7] - arXiv每日学术速递:每日全量更新arXiv学术论文速递,覆盖人工智能、计算机、金融等多个方向 [8] - 自动驾驶专栏:聚焦自动驾驶最新资讯,分享行业内相关技术研究 [8] - 北京市高级别自动驾驶示范区:全国首个高级别自动驾驶示范区,提供政策创新、技术突破与商业化落地的前沿信息 [9] - 自动驾驶之心:国内最大的自动驾驶开发者社区,关注VLA/VLM、端到端、BEV感知等方向,吸引了近300+自动驾驶与AI类公司/机构关注 [10]
自动驾驶之心项目与论文辅导来了~
自动驾驶之心· 2025-08-07 20:00
自动驾驶之心项目与论文辅导 - 项目正式推出自动驾驶领域论文辅导服务 旨在解决学生在研究过程中遇到的环境配置 创新点实现 模型调试等疑难问题 [1] - 过往辅导成果显著 部分学员成功在CVPR ICRA等顶级会议发表论文 [1] - 2024年计划扩大辅导规模 目标助力更多学员冲击顶会 [1] 主要辅导方向 方向1:多模态与计算机视觉 - 覆盖端到端自动驾驶 BEV感知 大模型等前沿技术领域 [2][3] - 辅导老师为华为天才少年计划入选者 在CVPR/ICCV/ECCV/NIPS等顶会发表论文30+篇 总引用量超6000次 [3] - 学术指导经验丰富 曾指导博士生在CCF-A类顶会顶刊以一作/共一身份发表7篇论文 [3] 方向2:3D视觉技术 - 聚焦图像/点云数据的3D目标检测 语义分割 占据预测等多任务研究 [4][5] - 辅导老师来自国内TOP2高校 在ECCV CVPR等会议有多次论文发表记录 [5] 方向3:自动驾驶感知架构 - 研究领域包含OCC 世界模型 BEV等自动驾驶核心感知方案 [6] - 辅导团队参与多个主流感知方案开发 成员均来自国内TOP2高校 在CVPR ECCV等会议有论文发表 [6] 方向4:神经渲染与重建 - 涉及NeRF 3D Gaussian Splatting等三维重建技术 [7] - 辅导老师以第一作者发表4篇CCF-A类论文(含2篇CVPR和2篇IEEE Trans) [7] - 另有导师在CVPR ICCV ICML TPAMI等期刊会议发表多篇论文 学术背景覆盖国内外顶尖高校(QS200/国内TOP100) [7] 合作方式 - 提供个性化论文辅导服务 具体细节需通过指定微信号(wenyirumo)咨询 [7] - 咨询时需备注"论文辅导"以获取定向服务 [8]
暑期打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛报名即将截止~
自动驾驶之心· 2025-08-04 15:31
竞赛概述 - 竞赛聚焦空间智能与具身智能视觉感知技术 旨在推动自动驾驶 智慧城市 机器人等场景的应用突破[4][5] - 核心目标包括推动高效高质量的空间智能技术研究 探索强化学习与计算机视觉等前沿方法创新 促进神经渲染与机器人抓取等应用落地[7] 组织架构 - 主办方包括北京科技大学 清华大学 中国科学院自动化研究所等顶尖机构 技术赞助由九章云极科技提供[9] - 指导专家团队由张兆翔 鲁继文 殷绪成等学界权威组成 确保竞赛专业度[9] 赛制设计 - 设置双赛道:空间智能赛道考核多视角航拍图像三维重建 具身智能赛道测试动态遮挡环境下的机器人抓取能力[20] - 评价体系差异化:空间智能侧重渲染质量(PSNR)与几何精度(F1-Score) 权重6:4 具身智能关注任务完成度(成功率)与执行效率(路径效率) 权重5:5[22][23] 资源支持 - 提供500-1000张1k分辨率无人机航拍图及仿真环境数据集 九章云极赞助8卡H800 GPU算力验证[14][15] - 算力优惠政策:新用户享6元/度体验价 H800 8卡月租4.2万元 显著降低参赛成本[16][17] 赛事日程 - 6月10日发布赛题 8月10日截止报名 9月30日完成评审 10月15日PRCV大会颁奖[13] - 允许2次结果更新 需提交技术报告说明方法细节 最终成绩前20名可获排名积分[26] 奖项设置 - 单赛道设一等奖(6000元+500度算力券) 二等奖(3000元+200度) 三等奖(1000元+100度) 优胜奖(500元+50度)[25][27] - 所有获奖团队将获得PRCV 2025组委会认证证书 奖金及算力券由九章云极全额赞助[27]
《中国城市创投活力及城市创新力指数报告》发布:创投创新联动 头部城市差异化发展各显其能
证券时报· 2025-07-31 03:09
城市创投活力排名 - 上海 深圳 北京稳居前三且优势突出 与第四名及之后城市拉开较大差距 呈现头部领跑梯队分化格局 [1][2] - 募资指数北京第一 依托集中全国头部金融机构和国家级出资平台 上海苏州紧随其后 广深位列前五 苏州超越广深 南京与深圳基本持平 [2] - 投资指数上海全国第一 北京深圳紧随其后 前10名城市差距较小且以一线或新一线城市为主 [2] - 退出指数深圳居首 打破募资投资领域北京上海垄断前二格局 长三角苏州杭州进入前10 中西部以武汉合肥成都为主 [2] 城市创新力排名 - 北京上海深圳创新力指数位居前三 北京绝对领先 [1][2] - 北京依托国家实验室占全国60% 央企研发总部中关村聚集约76家及清华北大等顶尖高校 巩固创新策源地地位 [2] 热门赛道城市分布 - 半导体集成电路赛道在十大热门城市均位于前三 在上海深圳苏州杭州合肥南京成都武汉8个城市位列首位 在北京广州位居第二 显示绝对资本聚集效应 [3] - 北京以人工智能为首要赛道显著领先其他城市 深圳计算机视觉位列第四 合肥新材料航空航天赛道位列前五 体现地方产业资源与资本选择深度绑定 [3] - 生物制药在上海杭州南京成都武汉5个城市排名前两名 在北京苏州广州位列前五 [3] - 医疗器械在深圳苏州广州排名第二 在上海北京杭州合肥成都稳居前三甲 医疗健康领域在所有城市TOP5中占据关键位置 [3] 区域创投表现 - 杭州苏州凭借六大战略性新兴产业赛道活跃表现 在热门赛道投融资城市排名中双双跻身前五名 [1]