Workflow
视觉
icon
搜索文档
消费电子行业温和复苏前景广阔,泉果基金调研凌云光
新浪财经· 2025-07-03 13:59
泉果基金调研凌云光核心要点 基金概况 - 泉果基金成立于2022年2月8日 管理资产规模170 90亿元 旗下7个基金产品 6位基金经理 [1] - 表现最佳基金为泉果旭源三年持有期混合A 近一年收益18 93% [1] - 非货币基金近一年回报前8名中 混合型基金收益区间10 16%-18 93% 债券型基金收益区间2 91%-3 12% [1] 公司治理 - 实控人姚毅及杨艺持有2 24亿股将于2025年7月7日解禁 承诺未来12个月内不减持 [1] 并购整合 - 已完成收购JAI 双方在技术 产品 市场 供应链 生产等方面具有协同性 [1] - JAI主营机器视觉上游器件相机 覆盖欧美日韩市场 与凌云光中国及东南亚业务形成互补 [1] - 正推进产品 市场深度融合 强化"视觉+AI"战略在国际市场的扩展应用 [1] 消费电子业务 - 行业呈现温和复苏态势 AI技术加速产品迭代 折叠屏 VR眼镜等创新产品逐步成熟 [1] - 增长驱动来自可配置视觉系统国产化替代加速 2024年及2025Q1相关业务收入同比显著提升 [1] - 智能装备突破精密控制难题 实现毫米级至微米级高精度协同操作 [1] 技术研发布局 - 算法能力提升 新场景下模型精度达90%-99% 支持无缺陷样本建模 [1] - 在消费电子 新能源 半导体领域进行下一代产品预研 如与富士康合作研发固态电池 [1] - 深化"视觉+AI+大数据"工业应用 提供工业大数据质量管理SaaS平台 [1] 具身智能解决方案 - FZMotion运动捕捉系统已应用于人形机器人场景 [1] - 支持机械臂 灵巧手等数据采集效率比传统技术提升数倍 [1][2] - 开发人形机器人运动分析与测评系统 保障出厂质量一致性 [2]
大模型角力视觉推理,推理AI新时代来临
21世纪经济报道· 2025-07-03 13:11
多模态大模型技术突破 - 智谱发布并开源视觉语言大模型GLM-4.1V-Thinking,支持图像、视频、文档等多模态输入,具备复杂认知任务处理能力 [1] - 模型通过预训练构造视觉理解模型,监督微调提升推理能力,首次实现推理与视觉理解的有机结合 [1] - 2023年视觉推理成为行业竞争焦点,OpenAI、字节跳动、阿里等企业相继推出具备视觉推理能力的模型 [1] 视觉推理能力应用场景 - 多模态模型可解析PDF中的图片、图表、表格布局,理解页面结构,提升结构化信息提取效率 [3] - GLM-4.1V-Thinking支持图片理解(如看图买菜)、数学与科学推理(如几何题解)、视频时序分析与事件逻辑建模 [3] - 视觉推理能力可应用于GUI与网页智能体任务,实现交互操作,提升人机交互可控性 [4] - 模型能与Python数据分析、网络搜索等工具协同,解决复杂问题,提供多模态Agent体验 [4] 商业化落地路径 - 面向B端客户提供Agent应用空间,降低企业接入门槛,实现成熟、安全、可控的Agent能力 [6] - Agent类型包括任务型、交互型、自主型、协作型,目标为替代基础性、重复性工作以提升效率 [6] - 视觉推理与工具调用深度融合,加速教育、医疗、企服等垂直场景的Agent商业化进程 [6] - 生成式AI向"自主智能体"演进,可能催生全新商业模式 [7] 智能硬件与端侧部署 - 早期模型依赖云端推理,现通过端侧算力提升实现端云结合,部署于汽车、AI眼镜等硬件 [8] - 未来机器人、汽车、眼镜等设备均将接入AI能力,形成更广泛的应用生态 [9]
大会发布 | 世界人工智能大会青年菁英交流会学术研究成果征集通知
36氪· 2025-07-03 10:53
背景与目的 - 活动响应世界人工智能大会"智能时代 同球共济"主题,推动全球青年人工智能研究者学术交流与创新合作 [3] - 面向国内外高校、科研机构及企业征集人工智能领域前沿研究成果 [3] - 旨在为青年学者、技术开发者提供高规格学术交流平台,促进学术思想碰撞,打造顶级国际学术会议 [3] 征集内容 - 聚焦人工智能全领域前沿探索,涵盖大模型与生成式人工智能、计算机视觉与多模态学习、强化学习与机器人技术、人工智能伦理与安全、跨学科应用创新五大方向 [4][5][6][7][8] - 大模型与生成式人工智能包括新一代模型架构、强化学习模型、多模态生成模型、可控生成技术及行业场景适配研究 [4] - 计算机视觉与多模态学习涵盖空间智能、图像/视频理解、跨模态表征学习、视觉推理、自动驾驶视觉感知等核心技术 [5] - 强化学习与机器人技术包括深度强化学习算法、机器人自主控制、人机协作系统、智能无人系统等关键领域 [6] - 人工智能伦理与安全涉及算法公平性、数据隐私保护、技术治理框架、对抗攻击防御及社会影响评估 [7] - 跨学科应用创新鼓励医疗AI辅助诊断、教育智能系统、能源网络优化、金融科技等领域的交叉融合研究 [8] 成果形式提交 - 学术海报展示需涵盖研究背景与问题定义、方法论框架与技术路线、创新点突破与核心贡献、实验结果或应用价值 [8] - 学术海报推荐尺寸为90cm(宽)×120cm(高),支持PDF或高精度JPG格式(分辨率≥300dpi) [8] - 预印本论文提交需满足可在arXiv等公开预印本平台发布,包含规范学术结构,鼓励同步提交代码链接、数据集说明 [9] - 投稿格式要求英语投稿,双栏,Times New Roman,10号字,单倍行距,篇幅在6-10页 [9] - 两种成果形式可择一或同时提交,不影响后续向其他学术会议或期刊投稿 [9] 核心权益 - 入选成果将以Poster形式收录至《青年菁英交流会论文精粹集》,并在世界人工智能大会主会场及官网同步展示 [10] - 优秀论文作者受邀在交流会现场进行口头报告,与行业领军人物面对面交流 [10] - 论文可自愿申请通过主办方与《自然》杂志合作渠道,直接推荐至《自然・机器智能》等人工智能子刊主编,优先进入审稿流程 [10] - 推荐论文享受快速评审通道,部分成果可直接发表为期刊专刊文章 [10] - 参与交流会的作者将纳入世界人工智能大会青年学者库,优先获得国际合作、博士后及企业研发岗位推荐机会 [10] 投稿要求 - 提交材料需包含成果标题、作者信息(姓名、单位、邮箱、联系方式)、Poster设计文件或预印本论文全文、150字以内的研究亮点摘要 [11] - 投稿至邮箱waic@waicyes.cn,邮件主题需注明"青年菁英交流会 - 姓名 - 单位 - 成果类型" [11] 时间节点 - 投稿截止日期:2025年7月10日 [12] - 审核结果通知日期:2025年7月15日 [12] - 交流会举办:2025年7月27日(上海世博中心) [12] 特别说明 - 成果展示及精粹集发布不构成正式发表,作者可自由选择后续投稿至其他学术会议 [13] - 若论文已被其他会议接收,需在投稿时声明并提供录用证明 [13] - 作者需在投稿时注明是否申请期刊推荐,获得推荐的论文将呈送国际顶级期刊编辑团队进行独立评审 [14] - 投稿即视为同意主办方对成果进行非商业性展示与传播,若涉及保密内容需提前提交单位保密审查证明 [15]
实验室10篇论文被ICCV 2025录用
自动驾驶之心· 2025-07-02 21:54
论文研究成果总结 论文1 - 提出类别级几何学习框架用于三维点云分割的域泛化问题 通过几何嵌入感知点云细粒度属性并构建类别级几何属性 耦合几何嵌入与语义学习提升泛化能力 [1] - 引入几何一致性学习模拟潜在三维分布并对齐类别级几何嵌入 使模型关注几何不变信息 实验验证该方法在域泛化三维分割中具有竞争力 [1] 论文2 - 开发分层变分测试时提示生成方法 通过Hyper Transformer动态生成文本/视觉提示 解决传统方法提示模板固定导致的领域适应性问题 [3] - 采用变分推理减轻提示模板敏感性和分布偏移 通过分层条件提示捕捉深层上下文依赖 实验显示该方法在零样本准确率上达到SOTA [3] 论文3 - 提出知识引导部件分割框架(KPS) 利用大语言模型构建部件结构知识图谱 通过结构知识引导模块将关系信息嵌入视觉特征 [5][6] - 设计粗粒度物体引导模块增强整体类别感知 实现复杂场景下的精细部件分割 突破传统方法忽视部件结构联系的局限 [5][6] 论文4 - 构建TopicGeo统一检索匹配框架 通过CLIP提示学习嵌入文本语义主题 消除多时相遥感图像的类内/类间分布差异 [9] - 采用中心自适应标签分配与离群点剔除机制优化检索匹配流程 实验表明该方法在召回率和匹配精度上均优于分离范式 [9] 论文5 - 提出视觉语言交互关系挖掘模型(VL-IRM) 通过多模态交互学习解决开放词汇场景图生成中的关系感知缺失问题 [11] - 开发关系生成模型增强文本模态的开放式关系探索能力 利用视觉引导扩展关系文本空间语义 实验验证其广义关系表征优势 [11] 论文6 - 设计VGMamba网络实现三维视觉定位 包含属性Mamba、位置Mamba和多模态融合Mamba三模块 通过SVD分解与滑动窗口捕获属性特征 [13] - 提出属性到位置线索推理机制 融合语言查询与点云空间信息精准定位目标物体 在复杂语义查询场景下表现优异 [13] 论文7 - 创新动态中心距离(DCD)度量 通过元学习框架计算特征空间样本难度 解决噪声标签学习中简单样本主导问题 [15] - 结合DCD与半监督训练策略 聚焦硬样本优化分类损失 在合成/真实噪声数据集及医学图像中验证鲁棒性 [15] 论文8 - 提出BuCSFR方法实现粗标签到细粒度表征学习 通过自底向上构建树状图适应动态类别变化 无需预定义类别数量 [17] - 基于最小信息损失准则迭代合并实例 利用EM框架协同优化树状图构建与特征可分性 在物种识别等任务中表现突出 [17] 论文9 - 开发类别特异选择性特征增强模型 针对长尾多标签分类中样本稀缺类别敏感性丧失问题 利用类激活图定位关键区域 [19][20] - 设计渐进式注意力增强机制 按头部-中部-尾部类别顺序提升低置信度响应 实验显示其在标签不平衡场景下的泛化优势 [19][20] 论文10 - 建立部分匹配子图定位框架 通过高斯分布建模跨模态歧义性 放宽指令文本与点云地图严格对齐假设 [22][23] - 提出不确定性感知相似性度量 将定位阶段的不确定性传播至场景识别阶段 提升真实噪声场景下的任务协同性 [22][23] 学术会议背景 - ICCV 2025为计算机视觉A类顶会 本届收到11239份投稿 录用率24% 将于10月19-25日在夏威夷举办 [25] 技术社区资源 - 具身智能之心知识星球聚集近1500名开发者 覆盖40+开源项目与60+数据集 涉及VLA、VLN、Diffusion Policy等前沿方向 [29][30] - 3D视觉之心社区聚焦三维重建、NeRF、SLAM等技术 提供行业交流与求职对接服务 [26][27]
从中美对比和商业化速度,看Robotaxi产业链发展
长江证券· 2025-07-02 19:42
报告行业投资评级 - 看好丨维持 [12] 报告的核心观点 - 特斯拉Robotaxi服务在美国奥斯汀南部启动试运营,迈出自动驾驶商业化关键一步,此次是对纯视觉方案的首次公开验证 [2][6][20] - 中国凭借政策协同性与技术优势,商业化进程与美国头部企业并驾齐驱,2023年已实现限定区域的无主驾安全员商业化运营 [8][29] - 2024年中国出租车及持证网约车总保有量或在400 - 500万台级别,当前国内头部企业运营Robotaxi数量不足3000台,市场渗透率不足1% [8][40] - 无人驾驶商业化落地进程为Robovan>Robotruck>Robotaxi,Robotaxi仍处于量产前夜,加速推广瓶颈在于前期全无人化运营数据积累和区域性运营牌照制约 [9] 各部分总结 特斯拉Robotaxi试运行,无人驾驶商业化加速 - 2025年6月22日,特斯拉Robotaxi服务在美国奥斯汀南部启动,首批约10辆2025款Model Y SUV组成车队,特定区域运营,少部分受邀用户可试乘,每次行程收4.20美元,副驾驶配安全员 [6][20] - 行业头部玩家聚焦Waymo、Zoox和特斯拉,Waymo采用跨越式路径,直接研发L4级无人驾驶;特斯拉选择渐进式路线,基于量产车部署L2/L3级辅助驾驶系统,以纯视觉方案叠加低成本硬件收集数据驱动算法迭代,此次试运营是对该技术路径首次公开验证 [7][24][28] - 截至2025年5月,Waymo车队规模达1500辆,服务覆盖4个城市,每周完成超25万次付费出行,计划2026年底扩展至七个美国城市 [25] - 2024年,Robotaxi行业中国及全球规模分别为16.5亿元、77.8亿元,预计2030年分别为390亿美元、666亿美元 [27] Robotaxi开启商业化运营,中美企业角逐 - 中国凭借政策协同性与技术优势,商业化进展与美国并驾齐驱,2023年多家企业实现Robotaxi平台商业化运营 [29] - 国内头部企业如萝卜快跑、小马智行和文远知行等已在试点区域运营,萝卜快跑车辆总数超1000辆 [32] - 国家和地方政府频繁发布支持政策,2023年底《准入通知》和《服务指南》弥补政策空白,地方规定相对宽松 [34] - 中国监管“循序渐进”,技术可靠后放开;美国更开放,部分城市大胆放开 [35] - 中国Robotaxi单车成本为美国代表性企业的三分之一左右,领先企业加速全球化布局 [36] - 2021 - 2024年国内网约车保有量从156万台增至328万台,2023年全国巡游出租车137万台,2024年出租车及持证网约车总保有量或400 - 500万台,国内头部企业运营Robotaxi数量不足3000台,市场渗透率不足1% [40] 商业化进程:Robovan>Rotruck>Robotaxi - 无人驾驶商业化落地进程为Robovan>Robotruck>Robotaxi,Robovan率先落地,因商业模型跑通、算法技术门槛低、路权政策宽松 [9] - Robotruck以渐进式技术路线商业化,L2+辅助驾驶前装系统要求低,长距离运输降本,数据沉淀支撑向L4迭代 [45] - Robotaxi单车成本待突破,运营模型未闭环,目前年均成本大于10万元,单公里运输成本是出租车/网约车2倍左右,预计2026年每公里成本有望与有人驾驶出租车持平 [50] - Robotaxi加速推广瓶颈在于前期全无人化运营数据积累和区域性运营牌照制约,区域运营权稀缺排他,运营商有望享受技术迭代红利 [9][54]
VQ-VLA:大规模合成数据驱动动作tokenizer,推理速度提升近三倍
具身智能之心· 2025-07-02 18:18
视觉-语言-动作模型(VLA)的挑战与改进 - 动作表示效率低:传统连续动作离散化方法难以捕捉复杂时空动态,导致长时域任务中累积误差增大 [3][4] - 数据依赖瓶颈:真实机器人数据采集成本高,限制模型泛化能力 [3][4] 核心贡献 - 通用动作分词器框架:基于卷积残差VQ-VAE的框架替代传统分桶离散化方法 [4] - 合成数据驱动缩放:利用超大规模合成数据(100倍于先前工作)训练分词器,纯合成数据训练的VQ在真实任务接近混合数据性能 [4] - 性能全面优化:长时域任务成功率最高提升30%,动作执行频率从4.16Hz提升至11.84Hz [4][13] 关键技术方案 - 卷积残差VQ-VAE架构:采用2D时序卷积层替代传统MLP,LIBERO-10任务成功率提升6.6%(60.0% vs 53.4%) [7][8] - 残差量化:通过多阶段残差向量量化(RVQ)压缩动作序列 [10] - 渐进式训练策略:嵌入增强(时间嵌入和动作类型嵌入)使"翻正锅具"任务成功率提升5% [11][12] 关键实验发现 - 仿真环境(LIBERO):卷积残差VQ-VAE在LIBERO-10任务成功率60.0%,显著高于MLP版的53.4% [17] - 真实机器人(Franka Research 3):纯合成数据训练的VQ在真实任务表现接近混合数据版本,证实合成-真实域差距极小 [17] - 长时域任务:玩具放入抽屉任务成功率30.0% vs 基线5.0%,所有杯子放入篮子任务成功率50.0% vs 基线15.0% [17] 消融研究与未来方向 - 动作分块机制:VQ分块在LIBERO-90成功率86.61%,显著高于自回归分块的66.53% [19] - 嵌入层贡献:加入时空嵌入使LIBERO-90成功率提升0.99% [19] - 未来方向:整合更大规模合成数据集(如RLBench),结合蒸馏与量化技术进一步加速推理 [19]
机器人导航的2个模块:视觉语言导航和目标导航有什么区别?
具身智能之心· 2025-07-02 18:18
机器人导航技术演变 - 技术路线从传统建图定位导航向基于大模型方案演变 分为视觉语言导航(VLN)和目标导航两类 [1] - VLN核心是"听懂指令走对路" 目标导航核心是"看懂世界自己找路" [1][6] 视觉语言导航(VLN)技术架构 - 任务包含语言指令理解、环境感知、运动策略规划三方面 系统由视觉语言编码器、环境历史表征、动作策略模块构成 [2] - 编码器采用预训练视觉语言模型 LLM用于指令拆解和任务拆分是主流范式 [2] - 序列决策采用隐式端到端(隐变量表示)或显式端到端(拓扑图/BEV语义地图/神经辐射场建模)方法 [2] - 策略网络学习从标注数据提取模式转向LLM先验知识蒸馏 [3] 目标导航技术特征 - 需在陌生3D环境中仅凭目标描述自主完成探索与路径规划 [4] - 实现语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)、动态决策(避开障碍物)的交叉突破 [6] 商业落地应用 - 终端配送场景:美团无人车动态路径重规划 Starship园区配送机器人欧美落地 [8] - 医疗/酒店/餐饮场景:嘉楠科技、云迹科技、擎朗智能商用机器人实现药品/文件/餐食自主配送 美国Aethon公司TUG系列应用 [8] - 人形机器人领域:宇树科技Unitree通过Habitat预训练 智元工业场景集成导航模块 特斯拉Optimus展示端到端操作能力 [8][9] - 导航技术岗位需求旺盛 部分公司开出七位数年薪 [9] 技术学习挑战 - 需掌握自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识 知识碎片化导致入门困难 [10] 相关培训课程内容 - VLN课程涵盖仿真环境、基准测试、端到端方法、数据增强策略等 目标导航课程包含语义框架、Habitat仿真、LLM/VLM驱动系统等 [13][16] - 学习成果包括掌握技术框架、3D仿真环境开发、零样本导航实现、Sim2Real部署等能力 [15][17]
极智嘉 全栈技术筑壁垒掘金仓储自动化黄金赛道
搜狐财经· 2025-07-02 17:30
公司上市与募资 - 极智嘉计划于2025年7月9日在港交所主板挂牌上市,发行140,353,000股H股,其中香港公开发售14,035,400股,国际发售126,317,600股 [2] - 发行价为每股16.80港元,预计募集资金23.58亿港元 [2] - 引入4名基石投资者,累计认购9130万美元(约7.167亿港元),包括雄安机器人、Arc Avenue、保诚旗下Eastspring Investments和纵腾集团持有的亿格 [2] 核心技术 - 公司构建了覆盖硬件、软件、算法的全栈技术体系,形成显著技术护城河 [3] - 激光视觉融合SLAM技术定位精度平均低于±10mm(±1°),处于行业领先地位 [4] - Hyper+核心算法平台支持25种仓储任务算法,单仓可协调超5000台机器人协同作业,拣选效率达每工位每小时400件(货架到人)和300件(货箱到人) [5] - 全球首个机器人通用技术平台Robot Matrix支持全品类机器人开发,研发效率提升30%以上 [6][7] - 全栈软件系统包括仓库执行系统(WES)、机器人管理系统(RMS)和智能运营平台(IOP),系统可用率99.99%,故障恢复时间<10分钟 [8] 专利与技术积累 - 截至2024年累计申请专利超2000项,覆盖路径规划、多机调度、传感器融合等关键领域 [8] - PopPick货箱到人拣选方案可降低客户50%仓储成本,分拣准确率达99.9987% [8] 行业前景 - 全球AMR市场规模预计从2024年的387亿元增至2029年的1621亿元,年复合增长率33.1% [10] - AMR在仓储自动化中的渗透率将从2020年的4.4%提升至2029年的20.2% [10] - 电商、3PL及制造业升级是主要增长动力 [13] - 中国"十四五"规划明确提出"智能制造"战略,地方政府对自动化仓储项目提供补贴 [15] 竞争优势 - 连续6年全球仓储履约AMR市占率第一(2024年:9.0%),收入超国内最大竞品海柔创新(2023年极智嘉营收21.4亿元vs海柔约10亿元) [23] - 2021-2024年营收从7.9亿元增至24.1亿元,复合增长率45% [23] - 2024年订单金额31.4亿元,同比增长16.6% [23] - 毛利率提升至34.8%(仓储履约AMR毛利率39.2%,海外业务毛利率46.5%) [23] - 全球48个服务站点+13个备件中心,7×24小时响应,客户复购率74.6%(关键客户84.3%) [24] - 覆盖63家财富500强企业,包括沃尔玛、西门子、顺丰等 [24]
奥普特(688686)每日收评(07-02)
和讯财经· 2025-07-02 17:23
公司股价与主力成本 - 综合得分60.30分,趋势方向较强 [1] - 当日主力成本94.93元,5日主力成本91.43元,20日主力成本86.36元,60日主力成本86.36元 [1] - 过去一年内涨停0次,跌停0次 [1] 北向资金动态 - 北向资金持股量549.26万股,占流通股4.49% [1] - 昨日净买入4.52万股,增仓比0.037%;5日增仓比0.096%,20日增仓比0.136% [1] 技术面分析 - 短期压力位97.28元,短期支撑位94.62元;中期压力位97.28元,中期支撑位87.08元 [2] - 股价跌破短期支撑位,短线观望为宜;中期趋势不明朗,需静待主力资金选择方向 [2] - K线形态呈现“多方炮”,底部出现可能上涨,中间出现可能是上涨中继,顶部出现可能是复合见顶信号 [2] 资金流向 - 主力资金净流出60.70万元,占总成交额-1% [2] - 超大单净流出101.93万元,大单净流入41.23万元,散户资金净流入48.79万元 [2] 关联行业表现 - 仪器仪表板块下跌0.45%,机器视觉板块下跌1.11%,苹果概念板块下跌1.52%,科创板做市股板块下跌0.95% [2]
3000多颗元件十几秒检完 解码“屏”实力背后的智造密码
央视新闻· 2025-07-02 14:29
行业概况 - 超高清视频显示产业是广东十大战略性支柱产业之一,广州作为核心试验区2024年产值超2000亿元,同比增长近8% [1] - 广东超高清视频产业集群2023年营业收入突破9000亿元,正向万亿级规模迈进 [11] - 广州超高清面板、显示模组、偏光片、超高清电视板卡产能居全国前列 [1] 产品应用 - 智能屏幕应用场景广泛,涵盖教育(智能黑板)、家电、健身器械及AR眼镜等 [1][3] - 教育用智能交互屏幕可实现三维几何体展开等高级功能,提升教学效率 [1] 制造能力 - 智能制造工厂年产能超1000万片显示主板,全球每3台电视机有1台使用其主板 [3] - 单块主板含1700多颗微型元件,复杂产品可达2000多颗,需微米级精度装配 [5] - AI视觉检测系统使元件检测效率提升2倍多,15秒内完成3000颗元件瑕疵筛查 [7] 技术创新 - 建设中试线加速新技术/材料的生产验证,推动智造升级 [9] - AI模型结合机器视觉实现微米级元件比对,替代传统人眼检测 [7] 产业链布局 - 新型显示产业已集聚130多家规模以上企业,覆盖上中下游全链条 [9] - 海外业务在智造升级驱动下实现显著增长 [9]