视觉

搜索文档
4万多名作者挤破头,CVPR 2025官方揭秘三大爆款主题, 你卷对方向了吗?
机器之心· 2025-05-28 11:02
计算机视觉领域热门方向 - CVPR 2025基于全球4万多名作者的13008份投稿统计出三大热门方向 投稿数量同比增长13% 最终接收2878篇论文 接收率22.1% [3] - 研究群体呈现指数级增长趋势 AI领域重要性提升带动相关学位攻读人数增加 [3] 多视角与传感器3D技术 - 该方向投稿量激增 研究重点从单幅图像2D渲染转向复杂3D评估 2020年NeRF技术突破推动领域发展 [4][5] - 高斯泼溅(Gaussian splatting)技术进一步促进计算机视觉与图形学融合 神经渲染研究显著提升3D相关论文数量 [5] 图像与视频合成 - 成为CVPR 2025最大论文类别之一 多模态商业聊天机器人已实现图像/视频生成能力 正朝交互式世界生成演进 [6] - 会议展示的合成方法为生成完整虚拟环境奠定技术基础 [6] 多模态学习 - 视觉、语言和推理合并为投稿量最大类别之一 可能预示新研究趋势 [7][8] - CVPR坚持学术公平原则 每篇论文评审标准独立于作者机构背景 维护领域生态平衡 [8] 行业动态 - CVPR 2025会议即将召开 投稿竞争加剧反映AI研究热度持续攀升 [8] - 机器之心将同步举办论文分享会 提供学术交流平台 [8]
小红书高级副总裁汤维维: 从“文字转换”到“文化解码”的跨越
深圳商报· 2025-05-28 04:29
小红书国际文化交流与技术突破 - 2025年1月大量海外用户涌入小红书平台,引发跨文化交流现象,包括宠物互动、语言学习、中餐教学等内容 [1] - 语言障碍成为核心挑战,用户高频提出翻译需求,如"一键翻译"功能和文字识别需求 [1] - 公司迅速响应,数天内通过技术迭代上线"一键翻译"功能,实现英语评论自动转中文,减少用户跨应用操作 [1] 技术实现与文化解码 - 翻译功能采用多模态AI模型,整合NLP、OCR、CV技术,能解析文字及表情包谐音梗等非结构化内容 [1] - 建立动态学习机制,用户对译文的编辑行为持续优化模型,尤其在宗教符号、历史典故等文化敏感领域实现渐进式改进 [1] - 技术目标从"文字转换"升级至"文化适配",覆盖千年历史的阿姆哈拉语和网络热梗等多样性内容 [1] 平台战略与行业意义 - 公司将跨语言能力定位为基础设施级服务("水电煤"),通过技术+人文驱动构建无国界社交平台 [2] - 实践验证技术融合人文可突破文化边界,案例体现行业在AI社交领域的创新方向 [2]
泽景电子冲刺港股IPO 主要产品均价持续下跌
每日经济新闻· 2025-05-27 21:51
公司IPO及主营业务 - 江苏泽景汽车电子股份有限公司正冲刺港股IPO [1] - 公司主营产品为HUD(抬头显示器)解决方案,包括挡风玻璃HUD解决方案"CyberLens"和增强现实HUD解决方案"CyberVision" [2] - 公司是中国创新智能座舱视觉、交互解决方案的先行者和领军者 [2] 财务表现 - 2022~2024年公司毛利率分别为22.6%、25.6%和27.3%,其中HUD解决方案毛利率分别为20.8%、26.5%和27.6% [2] - HUD解决方案销量从2022年17.57万套增至2024年62.46万套,增长2.55倍 [3] - HUD解决方案平均价格从2022年974.31元/套降至2024年865.47元/套 [2] - 2024年人工成本2533.1万元,同比下降12.82% [3] - 2024年收入增速从2023年156.6%大幅放缓至5.1% [3] - 2024年对前五大客户销售收入4.68亿元,较2023年5.15亿元下降9.13% [5] 市场份额与竞争 - 以2024年销量计,公司在中国HUD解决方案供应商中排名第二位,市场份额16.2% [3] - 主要竞争对手华阳集团(002906)2024年HUD产品销售收入大幅增长 [5] - 华阳集团预计未来HUD产品仍将保持较高增长态势 [5] 经营挑战 - 公司报告期内未能实现盈利 [5] - 截至2024年末资产负债率215.6%,流动比率41.2% [5] - 2024年末贸易应收账款及应收票据之和达2.96亿元 [6] - 贸易应收账款周转天数从2022年102.2天升至2024年140.5天 [6] - 客户信贷期延长,如第一大客户A公司信贷期从2022年60天延长至2024年90天 [6] - 面临来自下游客户的持续降价压力 [7] 成本控制与增长策略 - 2023年毛利率提升主要来自销量激增带来的规模经济 [3] - 2024年毛利率提升得益于有效成本控制和规模经济 [3] - 2022~2024年原材料成本从1.44亿元上升至3.65亿元,增长1.53倍,低于销量增长幅度 [3] - 2023年采取更谨慎方法竞争定点项目,导致2024年收入增速放缓 [4]
ETT:打破原生多模态学习视觉瓶颈,重塑视觉tokenizer优化范式
机器之心· 2025-05-27 14:38
核心观点 - 提出ETT(End-to-End Vision Tokenizer Tuning)方法,实现视觉tokenization与目标自回归任务的联合优化,打破传统方法中视觉tokenizer固定不变的局限 [4] - ETT通过引入视觉tokenizer的码本嵌入和token级别字幕损失函数,使视觉tokenizer能根据下游任务反馈调整参数,显著提升多模态任务性能 [6] - 在模型参数和数据规模更小的条件下,ETT在多项基准测试中达到或超越现有最先进视觉语言模型的表现 [12][14][17] 传统方法的局限与ETT的突破 - 传统方法使用冻结的视觉tokenizer离散索引,导致特征表示能力浪费且无法端到端训练 [6] - ETT创新性引入码本嵌入(码本大小131,072,特征维度256)替代离散索引,结合联合优化策略释放视觉tokenizer潜力 [6][10] - 相比Emu3等框架,ETT简化模型架构并减少计算开销,同时提升多模态理解能力 [12] ETT核心架构与训练策略 - 基于改进的IBQ框架,分三阶段训练:前期对齐学习(冻结参数训练投影层)、语义学习(端到端联合优化)、后训练(特定任务微调) [10][11] - 训练中同时优化caption损失函数和重建损失函数,保持图像重建能力的同时增强语义感知 [11] - 投影层采用多层感知机,匹配视觉嵌入与预训练语言模型的隐藏层维度 [10] 性能表现 多模态理解 - MMBench测试中性能与连续编码器模型相当,部分子任务更优(如ETT 58.8 vs QwenVL-Chat 60.6) [12] - 在GQA(59.4)、TextVQA(56.8)等任务中表现优于Chameleon(47.2/4.8)等离散VLM模型 [12] 多模态生成 - 在T2I-CompBench的颜色(81.03)、形状(58.19)、纹理(72.14)子任务上超越Emu3(79.13/58.46/74.22) [15] - GenEval测试中Overall得分0.63,接近DALL-E3(0.67)且优于SDXL(0.55) [15] 视觉重构 - 保留低级细节的同时提升高级语义表示能力,如改善文本渲染效果 [17] 潜在发展与局限 - 当前数据规模和模型容量仍有扩展空间 [19] - 未来计划探索从头训练视觉tokenizer,并扩展至视频、音频等多模态场景 [19] - 方法易于实现集成,有望推动多模态基础模型应用 [25]
新技术背景下智能视频分析技术的发展与应用
搜狐财经· 2025-05-27 12:42
金融行业安防系统技术演进 - 金融行业安防系统起源于数百年前 20世纪初银行采用入侵报警和视频监控系统保护金库和现金柜台[3] - 21世纪初国内视频监控技术成熟 成为金融行业技术防范重要组成部分 但功能限于犯罪威慑和证据固定[3] - 2000年后计算机视觉技术快速发展 深度学习推动人脸识别和行为分析精度提升 实现从被动监看向主动预警转变[4] 智能视频分析关键技术 - 视频图像处理技术:早期采用帧差法、光流算法等传统计算机视觉方法 应用于监狱越界监测和交通违章识别等场景[6][7] - 人脸识别技术:2014年卷积神经网络首次超越人类识别精度 实现人员搜索和嫌疑人布控等安防功能[8][9] - 视频结构化解析:将非结构化视频转化为可检索数据 实现人员衣着特征和携带物等属性的机器搜索[10][11] - 多维数据分析模型:融合时空数据构建专业预警模型 应用于智能交通和实战指挥等警务场景[12] 智能视频产品分类与应用 - 边缘智能:前端摄像机实现人脸识别和异常行为监测 金融行业可针对性选择防入侵和现金交接监测功能[17][20][21] - 云端智能:建设视频解析平台和人脸库 支持吸毒人员复吸模型和群租房分析等高级应用[18][23] - 2024年视觉大模型进入行业落地阶段 需结合小模型形成端边云协同解决方案[24] 金融行业智能化建设方向 - 需重视顶层设计 规划云边端架构和统一数据资源池 开发现金交接监测等专业算法[19][21] - 大模型与小模型协同将成为趋势 需根据业务场景选择合适技术组合[24][25]
One RL to See Them All?一个强化学习统一视觉-语言任务!
机器之心· 2025-05-27 12:11
机器之心报道 编辑:+0、Panda 强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。然而,RL 在推理任务之外的应用,尤其是在目标检测 和目标定位等感知密集型任务中的应用,仍 有待深入探索。 近日,国内初创公司 MiniMax 提出了 V -Tri une ,一个视觉三重统一强化学习系统,它能使 VLM 在单一的训练流程中同时学习视觉推理和感知任务。 该系统建立在三个核心且相互关联的部分之上,旨在协同处理这些多样化的任务。接下来将详细解释这三个核心组件,并介绍 MiniMax 新颖的动态 IoU 奖励机 制。 样本级数据格式化 MiniMax 是如何格式化数据以支持跨感知和推理任务的统一训练的呢? V-Triune 包含三个互补的组件: 样本级数据格式化 (Sample-Level Data Formatting)(用以统一多样化的任务输入)、 验证器级奖励计算 (Verifier-Level Reward Computation)(通过专门的验证器提供定制化奖励)以及 数据源级指标监控 (Source-Level Metric Monitoring)(用以诊断数据源层面的问题)。 M ...
思看科技(688583)深度研究报告:从平面到立体,商业级蓝海启航,工业级技术筑基
华创证券· 2025-05-27 08:40
报告公司投资评级 - 首次覆盖给予“强推”评级 [1][9][118] 报告的核心观点 - 报告从工业级、专业级、商业级下游分析3D视觉数字化产品的应用场景和增长驱动力,对三维视觉数字化与传统接触式扫描进行优劣势对比,预计视觉方案渗透率以及手动式产品占比有望提升,并梳理了目前市场的主要参与者 [7] - 全球三维数字化市场规模正快速增长,报告研究的具体公司核心软硬件均自主研发,商业级拓展处于初期后期具备广阔成长空间,预计2025 - 2027年收入和归母净利润保持增长,给予2025年70倍PE,对应目标价148.35元 [6][9][118] 根据相关目录分别进行总结 思看科技:面向全球的三维视觉数字化综合解决方案提供商 - 产品类型覆盖工业级和专业级,包括便携式、跟踪式、专业级彩色3D视觉数字化产品和工业级自动化3D视觉检测系统等,产品保持快速研发迭代周期 [13][14] - 实控人为王江峰、陈尚俭、郑俊,合计持股44.6%,股权结构稳定 [30] - 2020年以来收入和归母净利润CAGR分别为37.9%和41.7%,2025年Q1同比分别增长26.38%和21.23%,2020 - 2025年Q1毛利率持续保持在75.5%以上,销售费用率呈上升态势,2022 - 2024年研发费用率基本在18%左右 [32][34] 预计到2027年全球三维视觉数字化产品市场规模将达到400亿元 - 3D视觉技术拓宽机器视觉应用场景,全球机器视觉市场规模2024 - 2028年CAGR为8.2%,我国为17.5%,3D视觉可作为2D视觉的有效补充,拓宽应用场景 [38][45] - 三维数字化行业是构建三维机器视觉的重要基础,通过设备获取物品外形数据,经加工处理形成3D数据文件 [46] - 以工业级领域为基本盘,卡位大客户,未来拓展专业级、商业级领域,产品广泛应用于多个领域,2024年上半年工业级占比达92.8% [56] - 2022年全球/中国三维视觉产品规模占比分别为24.6%/20.8%,预计2027年将分别达到400/60.3亿元,CAGR分别为26.6%/32.3%,手动式产品占比有望分别提升至51.2%/56.7% [6][8][86] - 国内厂商性价比叠加渠道拓展,持续推进全球市场的进口替代,国内手持式产品已逐步接近甚至超越发达国家 [101] 核心软硬件自主研发,奠定长期拓展基础 - 2022年以来研发费用率在18%上下,截至2024年年底拥有84项授权发明专利、47项软件著作权 [104] - 硬件自研或定制关键器件,软件形成三大核心技术集群,掌握18项核心技术 [105] 盈利预测与估值分析 - 预计工业级产品2025 - 2027年收入增速分别为22.7%/23.0%/22.2%,毛利率保持在75.8%;专业级彩色3D扫描仪收入增速分别为120%/80%/70%,毛利率保持在73% [116] - 预计2025 - 2027年收入分别为4.21/5.34/6.77亿元,同比分别增长26.5%/26.9%/26.8%,归母净利润分别为1.44/1.73/2.09亿元,同比增速分别为19.6%/19.8%/20.8%,给予2025年70倍PE,对应目标价148.35元 [6][9][118]
“杭州六小龙”的背后是一个懂企业需求的政府和一群执着创新的“极客” “我负责阳光雨露 你负责茁壮成长”
广州日报· 2025-05-27 03:32
杭州民营经济与科创生态 - 杭州形成以"六小龙"为代表的科技新锐集群,重构民营经济版图,涵盖人工智能、机器人、脑机接口等高精尖领域[1] - 余杭人工智能小镇、萧山机器人小镇、西湖云栖小镇等创新聚落构成城市产业图谱,推动数字经济发展[1] - 2025年杭州将实施"三个15%"科技投入政策,确保财政科技投入年均增长超15%,集中培育新质生产力[17] 脑机接口行业突破 - 强脑科技实现全球首个便携式高精度脑机接口产品10万台量产,与Neuralink并列全球融资超3亿美元的两大脑机接口企业[2][3] - 公司攻克脑电信号采集难题(仅50微伏),开发自适应AI解码算法,使系统响应延迟低于300毫秒[6] - 产品线覆盖智能仿生手/腿,用户可实现钢琴演奏(《大鱼》演奏流畅度达专业级)和极限运动[2] 机器人技术商业化 - 云深处科技"绝影"机器狗实现95%国产化,落地29城400+项目,防护等级达IP67(-20℃至55℃工况)[7][9] - 技术突破包括:深度强化学习多专家体系(Science Robotics封面)、自适应步态算法、电力系统海外首单[8] - 2023年推出人形机器人DR01,八年累计融资超B+轮,浙大系员工占比初期达50%[10][11] 3D视觉感知技术 - 蓝芯科技开发全球首批3D视觉感知移动机器人,拥有156项专利(41项发明),服务30国1000+客户[13][15] - 技术迭代使生产线物流效率提升3倍(光伏花篮搬运案例),SMT上下料延误率保持0%[12] - 2019年订单达1500万元,现筹备IPO冲刺"3D视觉机器人第一股",研发人员占比超50%[14][16] 政府支持体系 - "春晖计划"2024年减负450亿元,发放2.5亿元/年算力券,政策兑付最快8分钟到账[18][19] - 产业基金集群规模2442亿元(民营项目占90%),专精特新贷担保费率低至0.24%[18] - 人才政策覆盖A-E五类人才,应届生补贴标准:本科1万/硕士3万/博士10万,2024年已发放23万人次[21][22] 产学研协同机制 - 浙大系形成"斯坦福-硅谷"模式,"六小龙"中50%与浙大深度关联,教师创业政策支持成果转化[27] - 良渚实验室等科研机构提供脑机接口研发支撑,政府协助对接电网/湿地等测试场景[6][10] - 企业需求驱动政策创新,如余杭区打造"六小龙"联合展区降低接待压力,实现"无事不扰"[29]
富煌钢构: 安徽富煌钢构股份有限公司董事会关于本次交易摊薄即期回报的影响及采取填补措施的公告
证券之星· 2025-05-26 23:16
交易概述 - 公司拟通过发行股份及支付现金方式收购合肥中科君达视界技术股份有限公司100%股份,并向不超过35名特定投资者募集配套资金 [1] 财务影响分析 - 交易后总资产增长5.17%至107.29亿元,净资产增长12.17%至36.09亿元 [1] - 营业收入增长5.63%至41.59亿元,归母净利润增长30.07%至6682万元 [1] - 基本每股收益从0.12元/股降至0.11元/股(降幅8.33%),主要因标的公司一次性股份支付费用2268万元影响 [2] - 剔除股份支付影响后,基本每股收益提升至0.14元/股 [2] 业务协同效应 - 标的公司专注高速视觉感知和测量技术,技术附加值及盈利能力显著高于公司现有钢结构业务 [1] - 交易将优化公司资产质量并增强持续盈利能力 [1] 填补措施 - 加强标的公司经营管理和内部控制,提升企业管控效能 [2] - 优化利润分配政策,强化投资者回报机制透明度 [2] 相关主体承诺 - 控股股东承诺保持上市公司独立性,不干预经营且不侵占利益 [3][4] - 董事及高管承诺勤勉履职,将薪酬与填补回报措施执行情况挂钩 [4]
富煌钢构: 华泰联合证券有限责任公司关于本次交易产业政策和交易类型的核查意见
证券之星· 2025-05-26 23:16
交易概述 - 公司拟通过发行股份及支付现金方式收购合肥中科君达视界技术股份有限公司100%股份,并向不超过35名特定投资者募集配套资金 [1] - 交易涉及17名交易对方,包括富煌建设、孟君、吕盼稂、富煌众发等 [1] 行业属性核查 - 标的公司属于"C40仪器仪表制造业"之"C401通用仪器仪表制造"子类,具体为"C4019其他通用仪器制造" [1] - 标的公司主营业务为高速视觉感知和测量技术,专注于高速图像采集、分析与处理仪器及系统的研发、生产和销售 [1][2] - 经核查确认标的公司不属于《监管规则适用指引——上市类第1号》规定的快速审核通道行业(如新能源、生物产业等19类产业) [1][2] 交易类型分析 - 上市公司主营业务为钢结构加工制造(重型/轻型钢结构、实木复合门等),与标的公司的科学仪器业务无直接关联 [2] - 本次交易不属于同行业或上下游并购 [2] - 交易不构成重组上市,因控股股东(富煌建设)及实控人(杨俊斌)在交易前后均未变更 [2] 交易方案细节 - 交易包含发行股份及现金支付两种方式 [3] - 配套融资计划向不超过35名特定投资者发行股份 [3] 合规性核查 - 上市公司未被中国证监会立案稽查且无未结案情形 [4]