Workflow
自动驾驶之心
icon
搜索文档
2000人了,这个具身领域的黄埔军校有哪些料?
自动驾驶之心· 2025-08-09 16:21
昨天下午有个同学找峰哥吐槽,公司让调试机器人,不知道怎么做数据采集和调试,自由度太多了。如何 分析问题也是一头雾水,在校跑跑demo还可以,真的上手真机了,坑还是很多。 这类问题前面在咱们的具身社区里面已经碰到过多次了,如何使用设备?如何有效采集数据?如何部署 VA、VLA模型等。是采集背景太复杂还是数据比较dirty? 后面我们也很快给他相关答复,快速用到项目里 面了。 一个社区能在大家最需要帮助的时候解决问题,无疑是非常有价值的。具身智能之心知识星球(国内首个 具身全栈技术社区),目前已经完成了产业、学术、求职、问答交流等多个领域的闭环。遇到什么问题就 分享什么解决方案,哪块研究最前沿,就给大家源源不断提供解决思路,还有求职岗位第一时间对接给大 家!除了上面的问题,我们还为大家梳理了很多其它的内容: 机器人仿真和数据采集有哪些平台? 人形机器人怎么做模仿学习?VLA为什么难做? VLA在机器人抓取与规划任务中是怎么用的? VLA+RL是怎么做的?为什么work? sim2real效果不好怎么办?real2sim2real是怎么work的? 分层决策一般是怎么做的?和端到端比优势劣势有哪些? 具身机器人的研 ...
给自动驾驶感知工程师的规划速成课
自动驾驶之心· 2025-08-09 00:04
>> 点击进入→ 自动驾驶之心 『 规划控制 』 技术交流群 本文只做学术分享,如有侵权,联系删文 在我们熟知的模块化自动驾驶系统中,通常包含感知、预测、规划和控制等几个部分。截至2023年,机器学习带来的巨大影响主要发生在感知部分,但对下游组 件尚没有产生太大的变革。有趣的是,虽然规划栈中AI的渗透率较低,但端到端的感知系统(比如鸟瞰图BEV感知)已经大规模在量产车上得到应用。 作者 | Patrick Liu 编辑 | 自动驾驶之心 原文链接:https://zhuanlan.zhihu.com/p/706193528 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 为什么会这样呢?因为传统的基于人工设计的系统更加容易解释,而且一旦在现场测试中发现问题,可以在几个小时内快速调整。而机器学习驱动的功能可能需 要几天甚至几周的时间才能解决问题。尽管面临这些挑战,让大量现成的人类驾驶数据闲置不用,显然是不可取的。此外,增加计算能力比扩充工程团队要更具 可扩展性。因此,机器学习在下游模块的使用是非常必要的。 幸运的是,无论是学术界还是工业界,都在积极推动这一状 ...
自动驾驶中常提的VLM是个啥?与VLA有什么区别?
自动驾驶之心· 2025-08-09 00:04
以下文章来源于智驾最前沿 ,作者陈云培 智驾最前沿 . 自动驾驶领域专业的技术、资讯分享全媒体平台。我们的slogan是:聚焦智能驾驶 ,紧盯行业前沿。 作者 | 陈云培 来源 | 智驾最前沿 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 自动驾驶车辆要在复杂多变的道路环境中安全行驶,不仅需要 "看见"前方的车辆、行人和路面标志,还需要"读懂"交通标识上的文字提示、施工告示牌和乘客 的语言指令。 之前 和大家讨论过 VLA , 了解到 视觉 -语言-动作模型 ,但在很多场景中,大家还会提到 VLM,看起来与VLA非常类似,那VLM又是个啥? 与VLA ( Vision-Language-Action,视觉-语言-动作) 又有什么区别? 什么是VLM? 如何让VLM高效工作? VLM可以将一帧原始的道路图像转换为计算机能处理的特征表示。这一过程通常由视觉编码器完成,主流方案包括卷积神经网络(CNN)和近年来兴起的视觉 Transformer(ViT)。它们会对图像进行 ...
从自动驾驶到具身智能,这几个社区撑起了半边天!
自动驾驶之心· 2025-08-09 00:04
行业动态 - 各家具身与自驾公司开始规模化量产相关产品,融资和招聘情况大幅增长 [1] - 可落地的技术成为行业争先占领的重点,具备相关能力的人才成为争夺目标 [1] - 行业对从业者能力要求较高,岗位竞争激烈 [1] 技术社区资源 - 智驾最前沿:自动驾驶领域专业的技术、资讯全媒体平台,提供超多份自动驾驶领域专业资料 [1][3] - 计算机视觉研究院:涉及AI研究和落地实践,致力于目标检测、目标跟踪、图像分割等方向,每日分享最新论文算法新框架 [3] - 视觉语言导航:专注于视觉语言导航、目标导航、无人机导航等前沿领域的成果分享 [5] - 具身智能研究室:聚焦强化学习、多智能体协同、运动控制等具身智能核心领域,汇聚2000+开发者形成活跃社区 [6][7] - 具身智能之心:国内首个具身智能全栈技术交流社区,聚焦数据采集、多模态大模型、VLA等方向 [7] - arXiv每日学术速递:每日全量更新arXiv学术论文速递,覆盖人工智能、计算机、金融等多个方向 [8] - 自动驾驶专栏:聚焦自动驾驶最新资讯,分享行业内相关技术研究 [8] - 北京市高级别自动驾驶示范区:全国首个高级别自动驾驶示范区,提供政策创新、技术突破与商业化落地的前沿信息 [9] - 自动驾驶之心:国内最大的自动驾驶开发者社区,关注VLA/VLM、端到端、BEV感知等方向,吸引了近300+自动驾驶与AI类公司/机构关注 [10]
基于开源Qwen2.5-VL实现自动驾驶VLM微调
自动驾驶之心· 2025-08-09 00:04
作者 | 海洋 编辑 | 自动驾驶之心 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 Qwen2.5-VL Technical Report 在本项目中, 模型底座使用Qwen2.5-VL , 以下是对它的详细介绍:Qwen2.5-VL 是 Qwen 视觉 - 语言系列的旗舰模型。它在视觉识别、物体定位、文档解析和长视频 理解等方面实现了重大突破,能够使用边界框或点准确地定位物体,还能从发票、表单等中提取结构化数据。该模型引入了动态分辨率处理和绝对时间编码,可 处理不同大小的图像和长达数小时的视频。Qwen2.5-VL 提供三种不同大小的模型,旗舰型号 Qwen2.5-VL-72B 的性能与 GPT-4o 和 Claude 3.5 Sonnet 等最先进模型 相当,较小的 Qwen2.5-VL-7B 和 Qwen2.5-VL-3B 在资源受限环境中表现出色。 CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving >>自动驾驶前沿信息获取 → 自动驾驶之心知识星 ...
准备扩大自驾团队了,欢迎加入我们~
自动驾驶之心· 2025-08-08 11:20
目前自动驾驶和具身智能两个方向我们已经和业内主流的公司及相关高校建立起深度的合作,大模型方向 也正在快速搭建。我们不止聚焦在技术本身,更愿意和大家一起共创整个AI领域,分享认知成长的喜悦。 对于热门事件,我同样希望我们提供全网独一份的内容价值。 不积跬步无以至千里,我们深知一个人的力量是有限的,所以我们期待更多优秀的小伙伴与我们一起同行~ 内容运营 - 实习生 工作内容: 岗位要求: 1. 自驾、大模型、具身相关研究方向,本科及以上学历,硕士优先; 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 大家好,我们是自动驾驶之心/具身智能/大模型之心Tech团队。非常高兴在这里和你相遇,如果你也认同技 术内容可以改变世界,那你可能就是我们在找的人! 我们在做什么? 我们希望通过技术内容连接学术界和工业界,成为企业和学校沟通的桥梁,更乃至数十万的AI开发者和创 业者。我们致力于为大家带来全网最新最权威的技术信息,团队聚焦在自动驾驶、具身智能、大模型等AI 最前沿的技术领域,涵盖学术论文解读、业内量产方案分析、大模型评测、商业动态、行业招聘、开源项 目等,并通过公众 ...
死磕技术的自动驾驶黄埔军校,4000人了!
自动驾驶之心· 2025-08-08 11:20
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 自动驾驶之心的星友已经正式突破四千人了,三年了不容易。知识星球截止到目前已经完成了产业、学术、求职、问答交流等多个领域的闭环。几个运营的小伙 伴每天都在复盘,什么样的社区才是大家需要的?我们有没有什么地方没有考虑到?花拳绣腿的不行、没人交流的也不行、找不到工作的更不行。 未来我们计划继续优化星球内容,今天也和大家汇报一下。打算开展一个星友面对面的模块,争取每个月线上和大家一起聊聊,针对共性的问题一起探讨下。未 来还将持续邀请邀请学术界和工业界的大佬做一些有深度的圆桌访谈! 我们是一个认真做内容的社区,一个培养未来领袖的地方。自动驾驶之心一直致力在推动行业发展,成为企业和高校沟通的桥梁。我们的愿景是让AI与自动驾驶 走进每个有需要的同学! 目前星球内部为大家梳理了近40+技术路线,无论你是咨询行业应用、还是要找最新的VLA benchmark、综述和学习入门路线,都能极大缩短检索时间。星球还 为大家邀请了数十位自动驾驶领域嘉宾,都是活跃在一线产业界和工业界的大佬(经常出现的顶会和各类访谈中哦)。欢迎随时提问,他 ...
手持激光雷达即可在线实时重建点云!超高性价比3D扫描仪来了~
自动驾驶之心· 2025-08-08 07:32
产品概述 - GeoScan S1是当前国内性价比最高的手持三维激光扫描仪,具备轻量化设计和一键启动功能,适用于校园、室内等场景重建需求[1] - 设备采用多模态传感器融合算法,实现厘米级精度(相对精度优于3cm,绝对精度优于5cm)的三维场景实时重构[1][20] - 支持每秒20万点云生成、70米测量距离、360°水平视角覆盖,适用于20万平米以上的大场景扫描[1][27][28] 核心技术 - 搭载微秒级同步模块,通过硬件IO同步触发实现多传感器(激光雷达/相机/RTK/IMU)数据融合,同步精度达微秒级[32][33] - 采用25°倾斜角设计的激光雷达安装方案,兼顾多方位采集效率,避免重复扫描[13] - 内置Intel N5095处理器(4核2.9GHz)、16GB内存/256GB存储,支持ROS系统和Ubuntu 20.04环境[20] 硬件配置 - 集成Livox Mid-360激光雷达、Intel D435i深度相机、T-RTK UM982 Mobile定位模块及9DOF IMU[11][21] - 配备5.5寸触控屏(1280x720)、双USB 3.0接口、千兆网口,支持WiFi/蓝牙双频连接[20][21] - 机身尺寸14.2×9.5×45cm,含电池重量1.9kg,采用航空铝外壳,续航3-4小时(88.8Wh电池)[20][24] 应用场景 - 适用于写字楼、停车场、工业园区、隧道、森林、矿场等复杂室内外环境的三维建模[36][45] - 支持跨平台集成无人机/无人车/机械狗等设备,实现无人化作业[42] - 选配3D高斯模块可进行高保真实景还原,支持离线/在线渲染[6][49] 产品版本与定价 - 基础版售价19800元,深度相机版23800元,3DGS在线版39800元[56] - 提供1年售后服务,购买可通过优惠码DSAA-5T9R-K2M8获取折扣[58] 性能参数 - 点云输出支持PCD/LAS/PLV等通用格式,彩色点云融合功能[20] - 工业摄像头采用180°鱼眼镜头,分辨率1280×1024@201fps,全局曝光[21] - 扫描建图实时解算,支持动态场景下的三维点云地图构建[20][25]
DriveBench:VLM在自动驾驶中真的可靠吗?(ICCV'25)
自动驾驶之心· 2025-08-08 07:32
戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>直播和内容获取转到 → 自动驾驶之心知识星球 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 点击按钮预约直播 视觉语言模型(VLM)的最新进展激发了人们将其应用于自动驾驶的兴趣,尤其是通过自然语言生成可解释的驾驶决策。然而关于VLM是否能为驾驶 提供基于视觉的、可靠的且可解释的解释,这一假设在很大程度上尚未得到验证。为填补这一空白,我们推出了DriveBench,这是一个基准数据集, 旨在评估VLM在17种设置下的可靠性,包含19,200帧、20,498个问答对、三种问题类型、四种主流驾驶任务以及总共12个流行的VLM。 自动驾驶之心很荣幸邀请到加州大学尔湾分校在读博士生 - 谢少远,为大家分享介绍这篇ICCV 2025中稿的DriveBench。 一个专为自动驾驶设计的视 觉语言模型(VLMS)基准测试框架,旨在评估VLMs在不同环境和任务下的可靠性。DriveBench涵盖感知、预测、规划和行为四大核心任务,并引入 15 种OoD类型,以系统性测试VLMs 在复杂驾驶场景中的可靠性。 今天上午十一点,锁定自动驾驶之心直播间,我们不见不散~ 论文标 ...
快慢双系统评测!Bench2ADVLM:专为自动驾驶VLM设计(南洋理工)
自动驾驶之心· 2025-08-08 07:32
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 今天自动驾驶之心为大家分享XX最新的工作!如果您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与 技术交流群加入 ,也欢迎添加小助理微信AIDriver005 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Tianyuan Zhang等 编辑 | 自动驾驶之心 写在前面 & 笔者的个人理解 视觉-语言模型(VLMs)最近已成为自动驾驶(AD)中一个有前景的范式。然而当前对基于VLM的自动驾驶系统(ADVLMs)的性能评估协议主要局限于具有静 态输入的开环设置,忽略了更具现实性和信息性的闭环设置,后者能够捕捉交互行为、反馈弹性和真实世界的安全性。为了解决这一问题,我们引入了 BENCH2ADVLM,这是一个统一的分层闭环评估框架,用于在仿真和物理平台上对ADVLMs进行实时、交互式评估。受认知的双过程理论启发,我们首先通过双 系统适应架构将多种ADVLMs适配到仿真环境中。在此设计中,由目标ADVLMs(快速系统)生成的异构高级驾驶命令被通用VLM(慢速系统)解释为适合在仿 真中执 ...