视觉

搜索文档
特斯拉与新势力6月销量跟踪报告:2Q25特斯拉交付环比修复,小米YU7订单火爆引发新势力购车权益加码
光大证券· 2025-07-06 17:38
报告行业投资评级 - 汽车和汽车零部件行业投资评级为买入(维持) [3] 报告的核心观点 - 2Q25特斯拉全球交付量环比修复,6月理想交付同环比下滑,小鹏/蔚来环比企稳,小米YU7订单火爆引发国内新势力权益加码,小鹏G7上市差异化策略清晰 [1] - 特斯拉Robotaxi上线,美国电动车税收抵免提前终止或导致特斯拉需求承压,国内外Robotaxi商业化规模上量或迎拐点突破,国内新势力购车优惠放大或加剧消费者观望情绪,关注2H25E以旧换新政策进展 [2] - 推荐L4纯视觉Robotaxi有望商业化上量的特斯拉、线控转向供应商耐世特,推荐小鹏汽车,建议关注理想汽车、蔚来、小马智行 [2] 根据相关目录分别进行总结 交付情况 - 2Q25特斯拉全球交付量同比-13.5%/环比+14.1%至38.4万辆,Model 3+Y同比-11.5%/环比+15.4%至37.4万辆 [1] - 6月理想交付量同比-24.1%/环比-11.2%至36,279辆,小鹏交付量同比+224.4%/环比+3.2%至34,611辆,蔚来交付量同比+17.5%/环比+7.3%至24,925辆,乐道L60交付环比+1.9%至6,400辆、萤火虫交付环比+6.8%至3,932辆 [1] - 鸿蒙智行6月交付量同比+14.3%/环比+18.7%至5.3万辆,小米6月交付量超2.5万辆 [1] 产品政策 - 特斯拉国产Model 3后驱版和长续航版交付周期维持1 - 3周、高性能版交付周期延长至8 - 10周,焕新版Model Y交付周期缩短至1 - 3周;7/1国产Model 3和Model Y长续航版产品升级,Model 3长续航版价格上调1万元、Model Y长续航版售价保持不变;7/31前Model 3全系享5年0息购车优惠+限时补贴8,000元、焕新版Model Y享全系5年0息金融政策 [1] - 理想除L6 Pro和Max交付周期为1 - 3周外,L系列交付周期缩短至2 - 4周,MEGA交付周期延长至9 - 13周;7月理想L6推出5年0息购车政策 [1] - 蔚来ET7和EC7交付周期分别维持2 - 3周和4 - 5周、ES6/EC6/ET5/ET5T交付周期缩短至2 - 3周、ET9交付周期延长至4 - 5周,乐道L60交付周期维持2 - 4周,萤火虫交付周期延长至4 - 5周;乐道7月推出3年0息金融优惠等权益、萤火虫维持7/31前下定可享价值超2万元限时购车礼 [1] - 小鹏Mona M03长续航版本交付周期延长至2 - 4周、超长续航版本交付周期维持1 - 3周,2025款X9/G9/G6交付周期维持在1 - 4周左右,P7+交付周期维持1 - 4周,7/3小鹏G7正式上市、9分钟大定突破1万台,当前交付周期为2 - 5周 [1] - 小米SU7交付周期调整至33 - 52周,SU7 Ultra交付周期缩短至18 - 21周,6/26 YU7正式上市、1小时大定突破28.9万台,当前交付周期为38 - 60周;7月小米SU7延续限时权益、YU7享至高6.6万元限时权益、SU7 Ultra享4.9万元限时权益 [1] - 华为6/27起智界全系享限时2万元现金优惠 [1] 行业动态 - 当地时间6/22特斯拉在美国奥斯汀正式推出Robotaxi服务、6/28 Model Y首次实现全自动驾驶交付;7/3美国众议院通过"大而美法案",规定从2025/9/30起全面取消购买新电动汽车的7,500美元税收抵免 [2]
当代艺术家:贾蔼力
经济观察报· 2025-07-06 17:04
(原标题:当代艺术家:贾蔼力) 蓝山 布面油画 210×270cm 2010年 贾蔼力的艺术基因深植于东北黑土地上的铁锈与尘埃。 少年时期目睹父母在经济转轨中下岗的困境,那些废弃厂房中静默的机器,成为他创作中挥之不去的意 象。沈阳鲁迅美术学院的学习经历赋予他扎实的绘画功底,而2007年北上黑石桥的"北漂"生涯,更让他 亲历社会边缘群体的生存挣扎。 这种双重体验熔铸成他独有的视觉语言——荒凉与不安在画布上共生。 在站台中国首个个展"疯景"中,戴防毒面具的人物在钢筋丛林中游荡,如同被时代放逐的幽灵。 面具隔绝了有毒的空气,却隔绝不了精神困境:画面中刚健而爆炸性的笔触如闪电撕裂空间,空置的病 床、悬垂的木椅、扭曲的钢筋,共同构筑了一个承载集体焦虑的视觉档案。正如策展人孙宁所言:"贾 蔼力关注的是现代人精神的匮乏,当社会被物欲笼罩时,我们忽视了内心最重要的精神性"。 贾蔼力的画布是一个象征符号激烈碰撞的战场。 疯景1号 布面油画 2009年 苍白的不只是你(三联作) 2007年 综合媒材 防毒面具作为最具辨识度的符号,在《疯景1号》《苍白的不只是你》等作品中反复出现。 旱冰场的喧嚣中,少年贾蔼力偶然抬眼,瞥见停工厂房 ...
从25年顶会论文方向看后期研究热点是怎么样的?
自动驾驶之心· 2025-07-06 16:44
如果您有任何科研辅导需求,欢迎联系我们! 自驾方向: 大模型、VLA、端到端自动驾驶、3DGS、BEV感知、目标跟踪、毫米波雷达视觉融合、激光视觉融合、 多传感器标定、多传感器融合、车道线检测、在线地图、轨迹预测、世界模型、3D目标检测、Occupancy、高性能计 算、NeRF、语义分割、决策规划等。 具身方向: VLA、视觉语言导航、端到端、强化学习、Diffusion Policy、sim2real、具身交互、抓取点预测与位姿估 计、机器人决策规划、运动规划、3DGS、SLAM、触觉感知、双足/四足机器人、遥控操作、零样本学习等; 3D视觉 相关: 点云处理、3DGS、SLAM等; 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今年的CVPR和ICCV工作陆续放出,从今年的2大顶会来看热点研究方向,主要集中在四个部分:通用cv、自动驾驶 相关、具身相关、3D视觉相关。下面是4个领域中细分的子方向。 计算机视觉与图像:diffusion、图像质量评估、半监督学习、零样本、开放世界检测等; 自动驾驶相关,集中在端到端、闭环仿真3DGS、多模态大模型、扩 ...
人形机器人“视觉”攻克战
机器人大讲堂· 2025-07-06 13:23
行业概述 - 2025RoBoLeague中国机器人足球联赛是国内首个机器人足球3V3 AI赛,参赛机器人完全依靠AI策略自主运行,无需遥控器控制 [1] - 视觉传感器是人形机器人实现环境感知、自主决策与交互的关键技术,其中3D视觉传感器(激光雷达、多目立体视觉、结构光、ToF等)是主流解决方案 [1] 奥比中光 - 主营业务为3D视觉感知产品的设计、研发、生产和销售,产品包括3D视觉传感器、消费级和工业级应用设备,已成为全球3D视觉传感器重要供应商之一 [2] - 构建了覆盖深度相机(单目/双目结构光、iToF)、激光雷达等全技术路线的3D视觉传感器体系,并推出机器人视觉感知产品矩阵 [4] - Femto系列iToF深度相机及Gemini 335/336系列结构光深度相机支持室内外复杂场景下的机器人视觉应用,已与部分人形机器人客户适配 [5] 速腾聚创 - 主营业务为激光雷达及感知解决方案的开发与销售,已与全球超2800家机器人客户合作,覆盖工业仓储、配送机器人等领域 [9] - 发布机器人视觉新品类Active Camera首款产品AC1,实现多传感器硬件级融合,并与全球超10家人形机器人企业建立战略合作 [9][11] - 入选摩根士丹利、高盛等投研机构的人形机器人核心产业图谱 [11] 奥普特 - 主营机器视觉核心软硬件产品,拥有完整的机器视觉核心硬件产品线,覆盖视觉算法库、智能视觉平台、3D传感器等领域 [12] - 正在研发适用于人形机器人的小型化散斑结构光系列和TOF相机系统 [13] 天准科技 - 全球视觉装备核心供应商,产品包括工业视觉装备(视觉测量、检测、制程装备等),服务于电子、半导体、新汽车等领域 [14] - 掌握3D视觉算法、3D点云处理、多传感器融合标定等技术,自主开发工业视觉软件平台ViSpec [15][17] - 发布人形机器人高性能具身智能控制器"星智001",支持实时运行端到端和大语言模型,并与数家主流机器人公司达成合作 [17] 水晶光电 - 国内知名光电元器件制造商,产品包括光学低通滤波器、相机手机滤光片等,应用于消费电子、车载光学及AR/VR领域 [19] - 已具备光学薄膜设计、微纳光学等八大技术能力,少量激光雷达视窗片产品应用于人形机器人 [22] 行业企业列表 - 工业机器人企业:埃斯顿自动化、埃夫特机器人、非夕科技等 [26] - 服务与特种机器人企业:亿嘉和、晶品特装、九号机器人等 [26] - 医疗机器人企业:元化智能、天智航、思哲睿智能医疗等 [26] - 人形机器人企业:优必选科技、宇树、云深处等 [26] - 具身智能企业:跨维智能、银河通用、千寻智能等 [27] - 核心零部件企业:绿的谐波、因时机器人、坤维科技等 [28][29]
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-07-05 17:12
具身智能与自动驾驶行业趋势 - 具身智能经历从沉寂到疯狂再到冷静的发展周期,目前尚未达到生产力阶段[2] - 行业技术栈向端到端、大模型、VLA、强化学习、3DGS等前沿方向迁移[3] - Tier 1供应商和主机厂正跟进无图向端到端技术转型,技术迭代滞后前沿1-2代[3] - 机器人初创公司融资活跃,未来几年发展资金充足[3] 人才需求与职业发展 - 算法岗对学历要求较高,双非背景建议转向SLAM、ROS等机器人集成优化类岗位[3] - 深圳、杭州成为机器人公司聚集地,传统机器人技术仍是产品主线[4] - 大公司招聘聚焦端到端技术,LV融合、无图、BEV感知等领域人才已趋饱和[3] 技术资源与社区 - 知识星球提供自动驾驶15个技术方向学习路线及硬件/代码资料[1] - 社区汇聚华为天才少年等专家,形成课程+硬件+问答的教研闭环[5] - 四大技术板块覆盖视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[8] 视觉语言模型(VLM)研究 - 预训练数据集规模从1M(COCO)到12B(WebLI)不等,LAION5B支持100+语言[16] - CVPR 2024重点论文涉及RLHF-V行为对齐、ViTamin可扩展架构设计等方向[12] - 评估体系涵盖图像分类(ImageNet-1k)、目标检测(COCO mAP)、语义分割(ADE20k mIoU)等17项任务[17][20][21] 自动驾驶数据集应用 - 经典数据集包括KITTI(2012)、Cityscapes(2016)、nuScenes(2020)等7类场景数据[22] - 语言增强数据集如Talk2Car(2020)支持单目标引用,NuScenes-QA(2023)专注视觉问答[23] - 智能交通领域出现多粒度检索系统等3种语言引导车辆检索方法[24] 世界模型前沿进展 - 2024年涌现DriveWorld(4D场景理解)、InfinityDrive(突破时间限制)等16项突破[31][33] - HERMES实现3D场景理解与生成的统一,DrivingGPT整合世界建模与规划[31] - 扩散模型在DriveDreamer-2中实现定制化驾驶视频生成[33] 端到端自动驾驶技术 - 2023年里程碑包括VADv2概率规划模型、GenAD新范式等9大进展[49] - 行业报告指出大模型时代下需重新思考开环端到端技术路径[46] - 特斯拉FSD验证端到端模型价值,ThinkTwice框架提升决策可靠性[46] 多模态技术融合 - DriveGPT4通过大语言模型实现可解释端到端驾驶,DRIVEVLM融合视觉语言模型[26] - 多任务学习框架如TransFuser采用Transformer传感器融合[53] - 安全验证依赖KING生成动力学梯度场景、AdvSim生成对抗性测试用例[57]
“3D视觉第一股”奥比中光董事长黄源浩:机器人视觉将超越人眼,未来还有很长的路要走 | 走进上市公司·高见2025
每日经济新闻· 2025-07-04 18:56
公司概况 - 奥比中光成立于2013年,专注于3D视觉感知技术研发,2022年科创板上市,被称为"3D视觉第一股"[4] - 公司定位为机器人与AI视觉产业中台,致力于打造机器人的"眼睛"[4] - 全球少数全面布局六大3D视觉感知技术路线的企业,包括结构光、iToF、dToF、双目、Lidar和工业三维测量[6] 技术实力 - 2024年研发人员322人占比47%,研发投入2.04亿元占营收36%[6] - 核心技术底层在芯片,2014年投入超1000万元研发40纳米级芯片[6] - 在中国服务机器人3D视觉传感器领域市占率超70%[23] - 为"天工Ultra"人形机器人提供Gemini330系列深度相机作为核心视觉组件[24] 财务表现 - 净利润亏损持续收窄:2020年亏损6.15亿元,2024年缩减至6291万元[8] - 2025年1-5月预计营收3.63亿元(同比+117.18%),归母净利润5500万元(同比增加8643.86万元)[17] - 2025年有望成为上市后首个盈利年度,全年营收或突破10亿元,净利润超1亿元[17] 行业前景 - 全球3D视觉感知市场规模预计2028年达172亿美元[18] - 机器人IoT及行业智能化升级将是未来增长最快领域[2][23] - 机器人视觉技术未来20年将显著进步,从单一技术路线向多技术融合方向发展[23][24] 应用场景 - 已应用于支付宝刷脸支付、智慧医保等消费场景[7] - 年实施项目近100个,通过项目积累场景理解能力[8] - 全球客户超6000家,目标3-5年内突破1万家[17] 技术特点 - 六大技术路线覆盖不同距离和精度需求:结构光(<5m/高精度)、iToF(<3.5m/中)、dToF(<5m/低)、双目(<15m/高)、Lidar(<200m/低)、工业三维测量(20mm-30m/极高)[6] - 3D视觉相比2D能提供深度、形貌、位姿等三维信息,支撑AI算法需求[7]
ArtGS:3DGS实现关节目标精准操控,仿真/实物双验证性能SOTA!
具身智能之心· 2025-07-04 17:48
研究背景与出发点 - 关节目标操作是机器人领域的关键挑战,核心难点在于复杂的运动学约束和现有方法有限的物理推理能力 [3] - 传统方法如端到端强化学习或模仿学习需要大量数据但常因缺乏物理知识导致动作违反约束 [3] - 3D视觉方法如GAMMA、RPMArt存在点云稀疏性、无序性和时间一致性不足的问题 [3] - 提出ArtGS框架通过扩展3D高斯溅射整合视觉-物理建模,优化关节骨骼参数保证物理一致性 [3] 核心框架与技术细节 - ArtGS包含三个关键模块:静态高斯重建、VLM基于骨骼推理、动态3D高斯关节建模 [4] 静态3D高斯重建 - 通过3D高斯溅射从多视图RGB-D图像重建高保真3D场景,场景表示为3D高斯球集合 [5] - 利用URDF文件和改进的Denavit-Hartenberg正运动学构建变换矩阵控制高斯点运动 [5] VLM基于骨骼推理 - 借助微调的视觉-语言模型InternVL-2.5-4B初始化关节参数估计 [6] - 通过3DGS新视图合成能力生成目标正视图辅助VLM输出视觉问答结果 [6] - 对旋转关节和移动关节分别采用PCA和边界框叉积方法估计初始关节参数 [8][9] 动态3D高斯关节建模 - 通过阻抗控制实现机械臂与环境的交互,结合微分渲染优化关节参数 [10] - 高斯点的均值和旋转因子通过线性混合蒙皮变换到关节空间 [10] - 通过最小化包含L1损失、结构相似性损失和正则化项的损失函数优化关节参数 [10] 实验验证与结果分析 关节参数估计 - ArtGS在关节轴误差和关节原点误差上显著低于ANCSH、GAMMA、Ditto等方法 [12] - 例如在洗碗机上ArtGS的AE为3.01°、OE为2.17cm,远低于ANCSH的15.32°和9.26cm [13] 关节目标操作 - 模拟环境中ArtGS操作成功率达62.4%-90.3%,显著高于TD3的3.1%-6.6%和Where2Act的8.4%-11.2% [14][15] - 真实世界实验中ArtGS对抽屉操作成功率达10/10,对柜子达9/10 [17] 关键能力验证 - ArtGS能通过3DGS可微分渲染优化参数,即使VLM初始轴估计误差超过20°仍能提升操作成功率 [19] - 具备跨机械臂适应性,能精确重建Franka、xArm7等不同机械臂 [19] 总结与展望 - ArtGS将3D高斯溅射转化为关节目标的视觉-物理模型,提升优化效率并解决遮挡问题 [20] - 未来方向将扩展至更复杂场景,提升对多关节、高动态目标的建模与操作能力 [21]
港大强化学习驱动连续环境具身导航方法:VLN-R1
具身智能之心· 2025-07-04 17:48
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 研究背景 作者:Zhangyang Qi , Zhixiong Zhang , Yizhou Yu , Jiaqi Wang , Hengshuang Zhao 单位: 香港大学, 上海AI实验室 论文标题:VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning 论文链接:https://arxiv.org/abs/2506.17221 项目主页:https://vlnr1.github.io/ 代码链接:https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1 提出VLN-R1框架 :利用大型视觉语言模型(LVLM)处理第一视角视频流,从而实现连续环境中的视觉语 言导航。与以往基于离散导航图的方法不同,VLN-R1能够生成连续的 ...
传统导航和具身目标导航到底有啥区别?
具身智能之心· 2025-07-04 17:48
机器人导航技术演变 - 技术路线从传统建图定位导航向基于大模型方案演变,分为视觉语言导航(VLN)和目标导航两类 [1] - VLN核心是"听懂指令走对路",目标导航核心是"看懂世界自己找路" [1][6] 视觉语言导航(VLN)技术架构 - 任务包含理解语言指令、感知环境、规划运动策略三方面,系统由视觉语言编码器、环境历史表征、动作策略模块构成 [2] - 主流采用预训练视觉语言模型和LLM进行指令拆解,编码器设计需解决多模态表征空间投影问题 [2] - 序列决策通过隐式端到端(隐变量)或显式端到端(拓扑图/BEV语义地图)方法实现环境建模 [2] - 策略学习从标注数据转向LLM知识蒸馏,数据增强是关键 [3] 目标导航技术突破 - 需在陌生环境中仅凭目标描述自主完成探索与路径规划,涉及语义解析、环境建模、动态决策 [4][6] - 需整合计算机视觉、强化学习与3D语义理解技术,实现从被动执行到主动决策的跃迁 [6] 商业应用现状 - 美团无人配送车、Starship Technologies园区机器人实现动态环境配送 [8] - 嘉楠科技、云迹科技、擎朗智能的医疗/酒店机器人完成药品/餐食自主配送 [8] - 人形机器人领域:宇树科技Unitree系列、智元工业机器人、特斯拉Optimus集成目标导航模块 [8][9] - 导航技术岗位需求旺盛,部分公司开出七位数年薪 [9] 技术学习挑战 - 需掌握自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识 [10] - 知识碎片化且论文数量庞大,跨领域学习路径困难 [10] 专业课程内容 - VLN课程覆盖仿真环境、端到端方法、数据增强策略及实战,培养1年从业经验 [13][15][16] - 目标导航课程包含Habitat仿真、LLM/VLM驱动系统、Sim2Real部署等,实现零样本导航能力 [16][17]
以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理
机器之心· 2025-07-04 16:59
核心观点 - 游戏代码可自动合成视觉推理数据,提升AI几何与图表推理能力 [1][4] - 游戏具备三大优势:规则明确、因果推理链完整、LLM生成成本低 [12] - Code2Logic方法通过LLM三步骤转化游戏代码为多模态推理数据 [13][14][15] - GameQA数据集含14万问答对,覆盖4类认知能力与30种游戏 [18][21] - 游戏数据训练使模型在域外任务和通用基准上均获显著提升 [24][25][26] 研究方法 - 游戏代码构建:LLM自动生成完整游戏逻辑(如推箱子) [13] - QA模板设计:从代码提取推理模式并设计任务模板 [14] - 数据引擎构建:自动化生成问答实例且保证正确性 [15] - 数据集特点:细粒度难度控制(Easy/Medium/Hard三级) [20] - 对比实验:5K GameQA样本效果优于8K几何数据集 [28][29] 数据集表现 - 人类在域内游戏测试准确率达84.75%,Claude-3.5仅47.69% [22] - Gemini-2.5-Pro表现最佳达58.95%,仍显著低于人类 [22] - 开源模型Qwen2.5-VL-7B训练后平均提升2.33% [25][26] - InternVL3-8B在MathVista达73%,超几何数据集67.63% [26][29] - 游戏多样性提升域外泛化效果1.80% [37] 模型能力分析 - 3D空间感知是最大短板,易混淆物体高度关系 [42] - 非网格化场景(如祖玛)中模式识别困难 [43] - 多次识图易受文本干扰导致图文不符 [44] - 策略规划能力不足,缺乏直觉剪枝能力 [45] - GRPO训练后视觉感知提升10.94%,文本推理提升14.95% [32] 行业意义 - 首次验证游戏作为可验证环境提升通用智能的潜力 [48] - 低成本可扩展数据合成方法突破多模态数据稀缺瓶颈 [4][19] - 游戏认知多样性能迁移至数学等非对口领域 [29] - 揭示当前VLMs在3D感知和策略规划的根本缺陷 [42][45] - 为多模态大模型训练评估提供理想数据源 [48]