Workflow
视觉
icon
搜索文档
麦浪里的科技范:看智能农机如何实现“颗粒归仓”
央视网· 2025-06-20 11:22
智慧农机应用 - 山东省小麦收获接近尾声 智慧农机大规模使用使三夏作业更高效高质 [1] - 潍坊高密智慧农场采用搭载北斗导航和AI视觉系统的智能农机 可自主规划收割路径并实时监测作物数据以调整作业参数 降低机损率 [3] - 当地应用作物、养分、灌溉、灾害4个AI大模型 整合土壤墒情、卫星遥感、气象数据 为小麦机收提供最优方案 并为夏玉米播种制定差异化水肥方案 [5] 智能农机推广 - 河北省廊坊市组织调度农业机械投入小麦收割 确保夏粮颗粒归仓 [7] - 大城县蓦门村千亩麦田使用北斗导航智能联合收割机 实现收割、脱粒、除杂一体化作业 降低机收损失率 [9] - 廊坊市提前检修农机具并引进新型智能收割机 依托北斗导航大数据规划收割路径 同时提供技术指导确保夏粮应收尽收 [9] 作业进度与规模 - 廊坊市129.87万亩小麦已收获62.62万亩 预计6月22日完成全部收割 [11] - 玉米机播同步启动 4100多台玉米播种机投入作业 适时抢种秋粮作物 [11]
智能辅助驾驶下半场,“第一性原理”失灵了吗?
36氪· 2025-06-20 10:57
智能辅助驾驶技术路线 - 特斯拉坚持纯视觉方案的理论基础是全球道路交通体系本质围绕视觉感知能力构建 人工智能结合数字神经网络和摄像头是与现有道路系统最匹配的解决方案 [1] - 马斯克批评激光雷达技术 认为道路系统并非为从眼睛发射激光而设计 摄像头与激光雷达同时工作可能导致信息冲突和交通事故 [3] - 纯视觉方案最大优点是成本较低且贴近人眼逻辑 通过对摄像头持续优化可无限接近人类眼睛 [20] 第一性原理 - 第一性原理是系统中最基本的命题或假设 不能被违背或删除 核心思想是回归事物本质 剖析最基本原理构建新认知框架 [3] - 智能辅助驾驶的第一性原理应聚焦本质需求 以标准化能力推动普惠价值 实现从A点到B点的安全 舒适 高效 [4] - 手机行业演进史为汽车智能化提供启示 基带芯片以"稳定传输"为第一性原理 智能辅助驾驶应成为像基带一样可靠的基础设施 [4] 特斯拉技术发展历程 - 2014-2016年外部合作期 采用Mobileye EyeQ3芯片 算力0.25 TOPS 支持1个前视摄像头 1个毫米波雷达和12个超声波雷达 [6] - 2016-2019年自研过渡期 转向英伟达方案 算力10 TOPS 配备8个摄像头 1个毫米波雷达 12个超声波雷达 同时开始自研FSD芯片 [7] - 2019年进入全面自研期 推出HW3.0 配备两颗自研FSD芯片 算力144 TOPS 相比前代增长7倍多 [7][9] 特斯拉技术方案演进 - 引入BEV+Transformer算法栈 让视觉感知网络获得测速 测距能力 将2D画面拼接成360度全景俯视图 [13] - 升级占用网络 将车辆周围空间划分成小方格标记是否被物体占据 实现高分辨率三维感知与重建 [14] - 推出端到端方案 完全采用一张神经网络链接感知 规控和执行 2023年测试中运行速度比原方案更快 删除30万行人工代码 [16][17] 技术方案对比 - 纯视觉方案在信息丰富度 三维深度 测距精度 相对场景可靠性等方面弱于多传感器融合方案 但成本更低 [19] - 激光雷达在探测距离 精度和实时性方面有明显优势 但易受天气影响 可能发生多次反射导致信号失真 [20][21] - 多传感器融合方案需承担更高硬件成本 开发能融合多传感器数据的算法 并采用高算力芯片处理数据 [23]
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 19:54
以下是知识星球里面一位同学的提问: 请问VLA和VLM的区别是什么?现在推荐学哪个呢? 这两者互为表里: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型已经席卷各个领域,在智能驾驶领域,VLM也正在逐渐铺开落地量产。 不少入门的小伙伴也表示,现在大模型太重要了,想要入门学习,但有点拿不准方向。 1、VLM可以理解基础的能力,可以是通用的检测、问答、空间理解、思维链等等能力 2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预 测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行 为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置 等等) 这两者没办法完全独立的学习,我认为的方式应该是先学VLM,再去扩展到VLA VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模 的能力有限,多模的上限是更高的 最后欢迎大家加入知识星球,硬核资料在星球置 ...
奥比中光20250618
2025-06-19 17:46
纪要涉及的公司 奥比中光 纪要提到的核心观点和论据 - **财务表现优异**:2025 年 1 - 5 月总收入 3.6 亿元,同比增长 117%,经营规模扭亏为盈至 5500 万元,一季度净利率 12.7%,四五月份提升至 17.6%;预计 2025 年收入达 10 亿元,对应市值 200 亿元,2026 年收入超 15 亿元,对应市值 300 亿元;今年前五月利润约 5500 万元,全年预估利润接近 1.5 亿元,明年预期收入 15 亿以上,利润接近 3 亿元[2][3][13][15][16][17] - **产品结构与毛利率**:产品分高、低毛利两类,3D 视觉为高毛利产品,占营收 55%左右,毛利率超 60%;生物识别和 NFC 模组为低毛利产品,占营收 45%,生物识别模块预计 2025 年收入 2.4 - 2.5 亿元,毛利率约 30%,NFC 模组预计收入约 2 亿元,毛利率约 25%,低毛利产品综合毛利率 26% - 27%[4][5] - **3D 视觉技术优势**:与 2D 相机技术有显著区别,利用光折射原理,通过激光扫描物体形状和距离,识别精度在 20 米内达亚毫秒级,比激光雷达更精确[6] - **市场供应商格局**:消费级市场主要供应商有苹果、英特尔 RealSense 和奥比中光,苹果用于自身产品,英特尔 RealSense 和奥比中光服务非苹果客户市场[7] - **技术壁垒**:3D 视觉模组生产有技术闭环和商业化闭环两大核心壁垒,技术闭环确保设备准确发射、接收、处理信号,商业化闭环需根据不同环境适配;技术面临“温漂”挑战,核心壁垒在于算法层面的场景适配,测试周期长[2][8][9] - **产业发展情况**:2024 年产业模式差,下游需求有限、缺爆款产品且研发成本高;自 2020 年起,AGV 机器人转向自动避障机器人,人形机器人等领域对 3D 视觉需求增加;2025 年下游市场逐步爬坡,各子分类渗透率低但在提升[2][10][11][12] - **盈利模式与估值**:当前盈利模式优质、格局良好,关注收入增长速度和净利率;3D 视觉行业处于低渗透率、高成长阶段,估值相对合理[14][15] 其他重要但是可能被忽略的内容 - 2025 年第二季度收入保守估计可达 2.4 亿元,同比翻倍;第一季度总收入 1.9 亿元,净利润 2500 万元[13] - 公司相机模组售价 2000 多元,硬件成本仅几百元,研发投入已到位,两三年内不会增加边际成本[13] - 2025 年 AMR 机器人海外自动搬运量增加,人形机器人预计出货量达几千台至万台,3D 打印设备全球出货量从去年几百万台增长至约 700 万台,智能割草机采用 3D 视觉方案[12]
单应计算加速数十倍、计算量减少95%!基于几何的SKS和ACA矩阵分解被提出
机器之心· 2025-06-19 11:50
论文简介 - 东华大学、上海交通大学、中科院自动化所研究团队提出两种基于几何的单应矩阵分解方法,相比传统稀疏线性方程组方法减少95%以上计算量,显著提升二维码扫描等视觉应用效率[3] - 该方法适用于射影几何、计算机视觉和图形学领域,论文已被IEEE T-PAMI期刊接收[4] - 论文标题为《Fast and Interpretable 2D Homography Decomposition: Similarity-Kernel-Similarity and Affine-Core-Affine Transformations》,提供代码、视频介绍及奖金激励[5] 问题背景 - 平面单应是8自由度的3×3矩阵,传统DLT方法通过构建稀疏线性方程组求解,OpenCV实现需约2000次浮点运算[6] - 改进方法包括3×3矩阵SVD分解(1800次运算)和定制化高斯消元法(220次运算),二维码场景可进一步简化但缺乏研究[7] 核心方法 - SKS变换利用两组对应点分解单应为相似-射影核-相似变换,通过标准点转换和双曲相似变换实现几何层次化求解[9][10][11] - ACA变换通过三组对应点实现仿射-射影核-仿射分解,仅需85次浮点运算,正方形模板场景可优化至29次运算[15][16][18] 性能对比 - ACA分解单次计算仅需17纳秒,相比DLT+LU方法实现43倍实际加速(理论FLOPs提升20倍)[21][22] - SKS方法在O2优化下实现29倍加速,超越理论11倍FLOPs改进,因避免了条件判断等额外开销[22] 应用前景 - 日均百亿次二维码扫描场景中,新方法可减少浮点运算量,相比传统DLT+LU节省显著[24] - 技术可集成于相机标定、图像拼接、AR等视觉任务,并延伸至深度学习单应估计、P3P姿态估计等研究方向[24][25]
库萨科技完成数千万元Pre-A轮融资:已实现L4级机器人量产及全国20城部署
IPO早知道· 2025-06-19 10:22
融资与资金用途 - 公司完成数千万元Pre-A轮融资 由金水湖创投领投 融玺创投和无锡元启投资跟投 资金将用于现有产品升级迭代 新一代环卫机器人研发及市场拓展 [2] - 此前曾获得伏泰科技种子轮投资以及思得创投天使轮投资 [3] 产品与技术优势 - 首款无人清扫机器人库萨星筠®S1于2023年Q4研发完成并投入运营 次年推出第二款产品库萨星洁® 作业效率达行业平均值2倍 已在20余个区域完成部署 [3] - 核心技术为完整具身机器人技术架构 融合AI视觉多模态感知系统 基于自研封闭式操作系统实现厘米级贴边作业精度 [4] - 智能云控平台集成Multi-Agent数据闭环系统 通过大模型技术模拟人类团队协作 实际运营数据显示可降低50%运营成本 [5] - 产品采用车规级开发流程及供应链体系 具备高稳定性和可靠性 [5] 团队背景 - 核心成员来自清华、上海交大、北大、浙大等顶尖高校 在机器人、自动驾驶、芯片等领域有深厚积累 [5] - CEO杨希拥有世界五百强企业技术及运营管理经验 CTO陶圣曾任百度无人驾驶资深技术总工 主导第一代量产robotaxi研发 [5] 市场规划与行业前景 - 2024年计划推出新款环卫机器人产品 覆盖更多环卫场景 [6] - 投资方认为公司技术闭环与商业化模式协同演进 将加速无人环卫成为智慧城市新基建核心节点 已实现L4级机器人量产及全国20城部署 运营成本降低40%以上 [8] - 行业层面 无人驾驶环卫机器人可减轻人力强度 提升作业安全性与精准度 国家和地方政府近年加大政策支持力度 商业化落地进程加快 [8][9] 投资方评价 - 金水湖创投认可公司"轻图+视觉"融合架构的技术价值 及在开放场景的厘米级贴边清扫能力 [8] - 融玺创投看好公司产品线拓展与技术创新 已验证多城落地商业化能力 [8] - 无锡元启投资指出公司产品能实时监测城市环卫状况 为管理者提供决策支持 助力精细化管理 [9]
研判2025!中国三维视觉数字化产品行业发展历程、产业链及市场规模分析:行业爆发式增长,技术革新与产业变革共筑黄金发展期[图]
产业信息网· 2025-06-19 09:44
行业概述 - 三维视觉数字化产品利用光学原理、计算机视觉、传感器技术及人工智能算法获取物体空间几何形状、纹理、颜色等属性并转化为数字化三维模型或数据 [2] - 产品分为工业级、专业级和商业级三类 [2] 行业发展历程 - 1980-2000年为萌芽期,三维扫描技术诞生但精度与效率受限,主要应用于科研及高端制造领域 [4] - 2001-2010年为市场培育期,激光扫描与结构光技术实现商业化突破,推动行业向工业检测领域渗透 [4] - 2011-2020年为多元化应用期,AI与3D视觉技术融合推动应用场景向非工业领域拓展 [5] - 2021年至今为生态构建期,多技术融合与便携式设备普及推动行业向智能化、自动化方向发展 [6] 行业产业链 - 上游包括原材料及零部件、软件服务、生产设备等 [8] - 中游为三维视觉数字化产品研发环节 [9] - 下游应用领域包括汽车交通、工业机械、航空航天、能源电力、医疗健康等 [9] 市场规模 - 2024年中国三维视觉数字化产品行业市场规模约为29亿元,同比增长34.72% [13] - 增长驱动因素包括新能源汽车产业链爆发式增长、清洁能源领域国家战略推动以及AI+3D视觉技术融合催生新场景 [13] 重点企业经营情况 - 思看科技2025年一季度营业收入为0.87亿元,同比增长26.38%,归母净利润为0.27亿元,同比增长21.23% [16] - 先临三维2024年营业收入为12.02亿元,同比增长18.07%,毛利率为69.10%,同比增加2.24个百分点 [18] 行业发展趋势 - 技术融合驱动场景深化,非工业领域成为新增长极 [20] - 国产替代进入深水区,核心器件自主化 [21] - 全球化布局加速,中国方案重塑国际产业秩序 [23]
何小鹏的AI帝国里,没有激光雷达
21世纪经济报道· 2025-06-18 23:56
小鹏汽车技术路线 - 小鹏汽车自主研发的图灵芯片首次上车,搭载在中型SUV G7上,一颗图灵芯片的有效算力等同于三颗英伟达Orin X,整台G7的有效算力超过2200Tops [2] - 小鹏Mona M03顶配版配备两颗Orin-X芯片,算力达508TOPS [2] - 小鹏宣布将采取纯视觉方案,认为激光雷达"看不远、干扰多、帧率低、穿透性差" [2] 纯视觉技术方案 - 小鹏通过定制AI编译器、协同设计模型架构等方法,实现VLA和VLM大模型与图灵芯片的耦合 [3] - 小鹏训练了超过40万小时的视频数据,相当于AI看了3万部《流浪地球》,视频数据量将在今年增加到2亿clips [10] - 小鹏智能算力集群正向两万卡水平前进,云端集群运行效率常年保持在90%以上 [13] - 去掉激光雷达后节约了20%的感知算力,模型反应更快,视觉信息处理帧率达到业界主流激光雷达处理帧率的12倍 [13] 激光雷达技术发展 - 激光雷达成本12年间下降了400倍,禾赛已将激光雷达价格压到200美元 [3] - 激光雷达供应商通过自研关键器件并压缩成芯片实现降本,部分主机厂称禾赛激光雷达报价已降至人民币三位数 [25] - 激光雷达存在"多径效应"问题,但已有方法通过训练神经网络模型和多源数据对比来解决 [26][28] 技术路线对比 - 纯视觉方案优势:算力要求低、响应速度快、数据获取成本低 [13][22] - 激光雷达优势:测距精度高、不受光线条件限制、能识别视觉欺骗性场景 [30][31] - 视觉方案在极端天气下仍需依赖毫米波雷达 [25] 行业竞争格局 - 小鹏将纯视觉高阶智驾能力下放到13万元起的Mona Max,同时激光雷达也下探到同价位区间 [4] - 小鹏试图重新定义辅助驾驶标准,认为"算力"才是检验辅助驾驶的第一标准 [6] - 特斯拉和小鹏代表纯视觉派,而更多品牌转向激光雷达方案 [4][6] 技术争议 - 专家质疑去掉激光雷达是否能真正提升反应速度,认为占用算力的主要是大模型而非激光雷达 [18][19] - LOFIC技术最早由荣耀手机提出,工艺复杂且商用效果未达预期 [19] - 360°安全取决于传感器布置,视觉和激光雷达都可以实现 [21] 未来发展趋势 - 小鹏计划在2027年前结束纯视觉与激光雷达之争 [35] - L3及以上自动驾驶阶段,车企需证明纯视觉方案更安全 [34] - 最终衡量标准是哪种方案能更大概率防止事故发生 [36]
自动驾驶中常提的VLA是个啥?
自动驾驶之心· 2025-06-18 21:37
以下文章来源于智驾最前沿 ,作者陈云培 智驾最前沿 . 自动驾驶领域专业的技术、资讯分享全媒体平台。我们的slogan是:聚焦智能驾驶 ,紧盯行业前沿。 VLA 全称为" Vision-Language-Action ",即视觉 - 语言 - 动作模型,其核心思想是将视觉感知、语 言理解与动作决策端到端融合,在一个统一的大模型中完成从环境观察到控制指令输出的全过程。与传统 自动驾驶系统中感知、规划、控制模块化分工的思路不同, VLA 模型通过大规模数据驱动,实现了"图像 输入、指令输出"的闭环映射,有望大幅提高系统的泛化能力与场景适应性。 VLA 最早由 GoogleDeepMind 于 2023 年在机器人领域提出,旨在解决"视觉 - 语言 - 动作"三者协同 的智能体控制问题。 DeepMind 的首个 VLA 模型通过将视觉编码器与语言编码器与动作解码器结合,实 现了从摄像头图像和文本指令到物理动作的直接映射。这一技术不仅在机器人操作上取得了突破,也为智 能驾驶场景引入了全新的端到端思路。 在自动驾驶领域, 感知技术 通常由雷达、激光雷达、摄像头等多种传感器负责感知,感知结果经过目标 检测、语义分割、轨 ...
ForceVLA:通过力感知MoE增强接触丰富操作的VLA模型
具身智能之心· 2025-06-18 18:41
研究背景与问题提出 - 视觉-语言-动作(VLA)模型在机器人操作领域推动通用机器人发展,但处理接触丰富任务时存在局限性,尤其在视觉遮挡或动态不确定性情况下表现不佳[4] - 现有VLA模型依赖视觉和语言线索,忽略力传感模态,导致在插入、工具使用或装配等任务中行为脆弱或失败[4] - 不同任务阶段需要不同形式的力调制,如精细抓取、受控插入和顺应性表面接触,现有方法缺乏感知和适应动态变化的机制[4] 核心创新点 - ForceVLA框架将外部力传感作为VLA系统中的一等模态,引入FVLMoE融合模块动态集成视觉-语言嵌入与实时6轴力反馈[6] - FVLMoE模块通过门控机制计算专家子网络的动态路由权重,专门处理不同模态,实现力、视觉和语言特征的动态处理和深度集成[7][8] - ForceVLA-Data数据集包含五个接触丰富操作任务的同步视觉、本体感受和力-扭矩信号,共244条轨迹和14万个同步时间步[9][15] 方法细节 - ForceVLA基于π₀框架构建,集成视觉、语言、本体感受和6轴力反馈,通过条件流匹配模型生成动作[11] - FVLMoE模块将6轴力-扭矩数据转换为力token embedding,与视觉-语言特征连接后输入模块,通过稀疏混合专家层动态路由[12] - 数据采集使用Flexiv Rizon 7-DOF机械臂,配备Dahuan自适应夹具和两个RGB-D摄像头,通过Quest3 VR界面进行人类遥操作[15] 实验与结果 - ForceVLA在五个接触丰富操作任务上的平均成功率为60.5%,显著优于不使用力反馈的π₀-base模型(37.3%)[25] - 在黄瓜削皮任务中,ForceVLA平均削皮长度达14.12厘米,仅需7次strokes即可完成,优于To-base w/F的13.17厘米和10次strokes[19] - 在视觉遮挡场景下ForceVLA成功率高达90%,在五种挑战性实验条件下平均成功率达63.78%[20][22][25] - 消融研究显示ForceVLA通过FVLMoE模块实现的自适应融合成功率达80%,显著高于晚期融合(60%)和早期融合(55%)[23][26] - 多任务联合训练中ForceVLA平均成功率达67.5%,在插头插入任务中成功率100%,瓶子按压和白板擦拭任务达80%[27]