Workflow
视觉
icon
搜索文档
今年大火的目标导航到底是什么?从目标搜索到触达有哪些路线?
具身智能之心· 2025-06-26 22:19
目标驱动导航,赋予机器人自主完成导航目标 具身导航作为具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱。目标驱动导航(Goal-Oriented Navigation)通过赋予机器人自主决策能 力,是具身导航中最具代表性的方向。 目标驱动导航要求智能体在陌生的三维环境中,仅凭目标描述(如坐标、图片、自然语言)等,即可自主完成环境探索与 路径规划。 与传统视觉语言导航(VLN)依赖显式指令不同,目标驱动导航系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁:当人类下达"去厨房拿可乐"的指 令时,机器人需自主完成语义解析(识别厨房空间特征与可乐视觉属性)、环境建模(构建家居场景的空间拓扑)以及动态决策(避开移动的人类或宠物),这 背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破。 目标驱动导航技术已在多个垂直领域实现产业化落地。在终端配送场景中,该技术与社交导航算法结合,使机器人具备应对动态环境和人际交互的能力:美团无 人配送车通过动态路径重规划在复杂城市环境中执行递送任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署。在医疗、酒店及餐饮场景,嘉 ...
奥普特(688686)每日收评(06-26)
和讯财经· 2025-06-26 17:58
公司股价与主力成本 - 综合得分65 55分,趋势方向较强 [1] - 当日主力成本95 30元,5日主力成本94 42元,20日主力成本89 97元,60日主力成本85 65元 [1] - 过去一年内涨停0次,跌停0次 [1] 北向资金动态 - 北向资金持股量549 26万股,占流通股4 49% [1] - 昨日净买入4 52万股,增仓比0 037%,5日增仓比0 096%,20日增仓比0 136% [1] 技术面分析 - 短期压力位97 28元,支撑位91 30元;中期压力位97 28元,支撑位85 75元 [2] - 短线及中期趋势均不明朗,静待主力资金选择方向 [2] - 主力资金净流出1990 03万元,占总成交额-18%,其中超大单净流出551 93万元,大单净流出1438 10万元 [2] - 散户资金净流出168 60万元 [2] 行业与概念板块表现 - 关联板块:仪器仪表(-0 27%)、机器视觉(-0 49%)、苹果概念(-0 63%)、科创板做市股(-1 01%) [2]
中科通达(688038)每日收评(06-26)
和讯财经· 2025-06-26 17:54
公司股价及技术分析 - 综合得分48 59分 偏弱 [1] - 当日主力成本15 27元 5日主力成本15 56元 20日主力成本15 20元 60日主力成本15 20元 [1] - 短期压力位15 41元 短期支撑位14 84元 中期压力位16 58元 中期支撑位14 84元 [2] - 股价突破短期压力位 短线有望走强 中期趋势不明朗 静待主力资金选择方向 [2] - K线形态呈现红三兵 每日收盘价上移 可能见底回升 [2] 资金流向数据 - 主力资金净流出96 84万元 占总成交额-2% [2] - 超大单净流入0 00元 大单净流出96 84万元 散户资金净流入190 41万元 [2] - 北向资金数据暂无 [3] 财务数据 - 每股收益0 04元 营业利润0 04亿元 [2] - 销售毛利率21 418% 净利润4 377 834 58元 [2] - 市盈率数据未披露 [2] 行业及概念板块 - 关联行业包括软件开发(涨幅1 14%) 机器视觉(跌幅0 49%) 生物识别(涨幅0 47%) 数字孪生(涨幅0 45%) [2]
ICCV 2025放榜!录取率24%,夏威夷门票你抢到了吗?
机器之心· 2025-06-26 14:10
ICCV 2025会议概况 - ICCV 2025将于10月19日至25日在美国夏威夷举行,是计算机视觉领域三大顶级会议之一,与CVPR和ECCV并列 [2][27] - 本届会议共收到11239份有效投稿,录用2699篇论文,录用率为24% [3] - 投稿量较2019年增长近三倍(2019年4323篇),反映计算机视觉领域研究活跃度显著提升 [4][8] 录用数据与历史对比 - 近年录用率保持稳定:2023年26.15%(8260投稿/2160录用),2021年26.20%(6152投稿/1612录用),2019年25%(4323投稿/1075录用) [5][8] - 新政策导致29篇关联审稿人的论文被拒,其中12篇原本符合录用标准 [6][7] 代表性录取论文 - 高保真3D几何生成:通过法线桥接技术从图像生成三维模型 [9] - 医学影像分割:发布十亿级MRI标注数据集UKBOB [15] - 自动驾驶安全:本体驱动的风险评估框架OD-RASE [23] - 生成式AI:通用扩散模型UniVG实现图像生成与编辑一体化 [24] 行业趋势与挑战 - 深度学习革命推动研究爆发:自2012年AlexNet突破后,LLM和生成式AI等技术进一步刺激论文产量 [30][32] - 顶级会议投稿量激增:NIPS 2025投稿或超30000篇,同行评审系统面临质量与公平性挑战 [35][36] - 改革建议:建立双向评审系统(作者评估审稿质量+审稿人奖励机制)以提升问责制 [38][40][42] 会议形式与特点 - 会议周期4-5天,包含专题教程、技术议程、海报展示及商业展览 [28] - 近年新增强化问责政策,直接处理不负责任审稿行为 [6]
让机器人“看”世界:最好时代与最硬骨头
21世纪经济报道· 2025-06-26 10:43
公司概况 - 公司成立于2013年并于2022年7月在科创板上市,被称为"3D视觉第一股" [1] - 基于自研芯片和全栈式系统技术,提供3D视觉传感器及机器人与AI视觉方案 [1] - 研发投入巨大,2022年至2024年5月三年多时间研发投入接近10亿元人民币 [2] 业绩表现 - 2024年营收实现56%增长,2024年1-5月营收同比增长117% [2] - 2023年全年收入突破5亿元,2024年有望突破10亿元营收大关 [2] - 2024年可能成为上市以来首个实现盈利的年度 [2] 市场地位 - 市场上少数能提供全套自主知识产权3D视觉感知产品的企业 [3] - 全球少数全面布局六大3D视觉感知技术路线的公司之一 [3] - 在中国服务机器人3D视觉传感器领域市占率超过70% [3] 技术发展 - 机器人视觉技术至少还需发展20年才能成熟 [3] - 未来机器人视觉将向高度集成化发展,追求小巧、低功耗、高算力 [3] - 需要从芯片流片到系统集成全环节重新设计 [3] 行业前景 - 当前被认为是人工智能时代带来的最好发展机遇 [2] - 机器人视觉能力未来将超越人类,能收集更多视觉信息并做出更强决策 [2] - 公司专注于开拓性工作,这形成了其技术护城河 [2] 业务布局 - 2016年起开始面向服务机器人提供3D视觉传感器 [3] - 2022年专门为机器人业务设置产品线,加大布局力度 [3] - 业务主要聚焦机器人、3D扫描、生物识别等行业 [1]
MIT终身教授何恺明,入职谷歌了
量子位· 2025-06-26 10:11
何恺明职业动向 - AI大牛何恺明在获得MIT终身教职后,宣布以兼职形式加盟谷歌DeepMind担任杰出科学家[1][5] - MIT官网显示其成为2025年工程学院11位新晋终身教职人员之一,距离正式入职MIT仅一年左右[2][3] - 在DeepMind的职位隶属基础研究组,直属领导职级为L8,距离CEO哈萨比斯相差三级管理层级[6] 学术成就与行业影响 - 何恺明是计算机视觉领域标杆人物,其2009年雾霾去除论文获CVPR最佳论文(亚洲学者首次)[9][10] - 2015年提出的ResNet获ILSVRC 2015分类任务冠军,论文引用量超28万次,成为其最高引研究[11][12] - ResNet框架被Transformer、AlphaGo Zero、AlphaFold及多数GenAI模型采用[13] - 在FAIR期间主导的Mask R-CNN获ICCV 2017最佳论文,解决实例级对象分割问题[15] - 谷歌学术总引用量达71万次,近期聚焦模型性能优化(如表示正则化、高压缩Tokenizer)[19][20] 与谷歌DeepMind的合作基础 - 2024年2月与DeepMind全华人团队合作提出分形生成模型,实现逐像素高分辨率图像生成并开源代码[23][24] - 2023年联合开发Fluid模型,突破视觉自回归模型扩展瓶颈,提升连续token生成质量[25][26][29] - 历史合作表明双方在生成模型领域有深度技术协同,此次加盟属强强联合[28]
天准科技(688003)每日收评(06-25)
和讯财经· 2025-06-25 17:15
公司股价表现 - 综合得分42 17分 偏弱 [1] - 当日主力成本45 97元 5日主力成本45 20元 20日主力成本47 37元 60日主力成本47 80元 [1] - 过去一年内涨停1次 跌停0次 [1] 资金流向 - 主力资金净流入246 23万元 占总成交额2% [2] - 超大单净流入611 55万元 大单净流出365 32万元 [2] - 散户资金净流入282 17万元 [2] - 北向资金持股量31 83万股 占流通比0 16% 昨日净买入0 17万股 增仓比0 001% [1] 技术面分析 - 短期压力位47 11元 短期支撑位43 62元 [2] - 中期压力位52 72元 中期支撑位43 62元 [2] - 短线趋势不明朗 静待主力资金选择方向 [2][3] - 中期趋势不明朗 静待主力资金选择方向 [2][3] 财务数据 - 每股收益-0 168元 营业利润-0 43亿元 [2][3] - 销售毛利率30 439% [2][3] - 净利润-32 392 849 41元 [2][3] 行业关联 - 所属概念板块:通用设备(0 96%) 机器视觉(1 62%) 边缘计算(1 59%) 人工智能(1 57%) [2][3]
虹软科技(688088)每日收评(06-25)
和讯财经· 2025-06-25 17:10
公司股价表现 - 综合得分56 97分 趋势方向较强 [1] - 当日主力成本47 83元 5日主力成本45 57元 20日主力成本44 69元 60日主力成本44 07元 [1] - 过去一年内涨停1次 跌停1次 [1] 资金流向 - 主力资金净流入3368 74万元 占总成交额11% 其中超大单净流入1720 26万元 大单净流入1648 48万元 [2] - 散户资金净流入166 81万元 [2] - 北向资金持股量343 85万股 占流通比0 85% 昨日净买入-0 77万股 5日增仓比0 101% 20日增仓比0 081% [1] 技术面分析 - 短期压力位46 65元 短期支撑位44 00元 中期压力位46 65元 中期支撑位42 45元 [2] - 股价突破短期和中期压力位 短线和中线有望走强 [2] - MACD金叉信号形成 [3] 行业关联 - 关联行业/概念板块包括互联网服务(2 22%) 机器视觉(1 62%) 生物识别(1 87%) 边缘计算(1 59%)等 [2]
人形机器人首次打通视觉感知与运动断层,UC伯克利华人博士让宇树G1现场演示
量子位· 2025-06-25 13:00
核心观点 - LeVERB框架首次打通视觉语义理解与物理运动之间的断层,实现人形机器人通过感知新环境和理解语言指令直接完成全身动作 [3][15] - 该框架基于模拟数据训练实现零样本部署,在宇树G1机器人测试中简单视觉导航任务零样本成功率达80%,整体任务成功率58.5%,比传统方案强7.8倍 [1][10][36] - 采用分层双系统设计,高层专注任务理解(10Hz),底层专注动作执行(50Hz),通过潜在动作词汇实现高效协同 [17][18][23][24] 技术架构 系统设计 - 高层LeVERB-VL:102.6M参数的视觉语言主干,将指令和视觉转换为潜在动词,包含VLA先验模块、运动学编码器等组件 [23] - 底层LeVERB-A:1.1M参数的全身动作专家,通过强化学习将潜在指令解码为动力学级动作,采用Transformer架构输出关节位置指令 [23][24] - 潜在动作词汇作为接口实现两层协同,训练时通过轨迹重建、分布对齐等优化模型 [15][16][18] 性能优势 - 解决传统VLA模型只能处理准静态任务的问题,支持高频控制(50Hz)与低频规划(10Hz)结合 [12][14] - 消除人工预设动作库依赖,直接根据环境语义生成动作,如"坐下"动作通过相机感知+语言指令完成 [3][4] 基准测试 LeVERB-Bench - 首个面向人形机器人全身控制的仿真到真实基准,包含10类154个视觉语言任务和460个仅语言任务 [6][7][30] - 采用IsaacSim光线追踪渲染,程序化生成17.1小时运动轨迹和2.7小时仅语言数据,覆盖500条不同轨迹 [26][27][31] - 在20个随机环境中评估,场景纹理和物体属性完全随机化以检验泛化能力 [33] 测试结果 - 视觉导航任务:简单场景成功率80%,中级场景75%,困难场景50% [36][37] - 仅语言任务(坐/站/移动)成功率高达97% [37] - 消融实验显示判别器和运动学编码器对性能有关键影响,移除后性能显著下降 [38] 应用验证 - 成功部署于宇树G1机器人,完成"走向椅子坐下"等真实场景任务 [34] - 验证仿真到真实的迁移能力,最高实现7.8倍性能提升 [10][36] 团队背景 - 半数成员为UC伯克利、卡内基梅隆大学的华人学者 [39] - 负责人薛浩儒曾领导价值数百万美元的AI Racing Tech自动驾驶赛车项目,最高时速160英里 [43][44] - 另一位负责人廖启源在波士顿动力公司实习,研究方向为机器驱动与学习控制结合 [47][48][49]
工程师来信|“我也一度认为激光雷达只是情绪价值”
36氪· 2025-06-25 09:03
特斯拉自动驾驶技术进展 - 特斯拉首批Robotaxi车队在得州奥斯汀上路,采用2025款Model Y,基于纯视觉方案(摄像头+自研AI芯片),实现"端到端"模型学习驾驶技能 [1] - 纯视觉方案被视为技术突破,国内车企小鹏也跟随该路线,将激光雷达移出核心感知架构 [1] 激光雷达市场现状 - 2023年全球车载激光雷达销量约160万台,其中中国市场占比90% [1] - 激光雷达价格从30万元以上高端车型下沉至15万元级大众市场,成本已降至1000多元 [9] - 行业主流产品线束为64线/128线/192线,测距能力达150米有效检测 [2][6] 技术路线争议 - 视觉方案存在物理局限:夜间信噪比衰减、异形障碍物识别歧义等问题持续存在 [1][4] - 激光雷达优势在于"检测即所得",是确切的物理量,能提升AEB功能成熟度 [3][7] - 视觉方案开发代价高昂,需海量数据驱动,而激光雷达可减少开发工程量 [7] 激光雷达技术演进 - SPAD(单光子雪崩二极管)将成为未来主流技术,索尼芯片方案将被华为/速腾/禾赛采用 [8] - 半导体技术进步将推动激光雷达性能提升,2025-2026年可能出现突破性产品 [8] - 线束数量持续增加,角分辨率优化,测距能力有望突破200米 [6][15] 车企应用现状 - 除特斯拉和小鹏外,多数车企仍依赖激光雷达作为辅助驾驶核心组件 [5] - 激光雷达使用呈现"强者恒强"态势,需结合视觉方案才能发挥最大效用 [7][13] - 蔚来/理想/小米等车企已配备激光雷达,形成市场竞争驱动力 [12] 成本与供应链 - 激光雷达成本持续下探,性价比优势显现,能帮助车企减少技术弯路 [9] - 供应链体系已建立,可保证产品批量一致性,售后更换成本约几千元 [10][11] 性能边界与挑战 - 量产环节实际有效测距多为80-120米,少数能达到150米 [15] - 雨雾雪天气和玻璃/水面等高反射物体会影响检测精度,算法可部分缓解但无法根除 [16] - 参数标称的200米测距需结合线束数量和角分辨率综合评估 [6]