Workflow
自动驾驶之心
icon
搜索文档
从感知能力提升到轻量化落地,具身这条路还要走很长一段时间~
自动驾驶之心· 2025-07-02 10:05
具身智能技术发展趋势 - 感知能力升级与多模态融合成为技术发展重点,触觉感知在灵巧手领域发力,力控技术提升操作精细度及反馈能力 [1] - 大模型驱动机器人认知能力提升,基于多模态数据增强感知、自主学习与决策规划能力,轻量化模型设计成为行业落地关键需求 [1] - 仿真环境与数据生态建设加速技术突破,通过物理世界模拟构建机器人认知,sim2real技术推动仿真与现实对齐 [1] 行业生态与资源整合 - 国内外200+具身公司与研究机构形成技术社区,覆盖斯坦福、清华等高校及智元机器人、优必选等头部企业 [6] - 社区整合40+开源项目、60+数据集及主流仿真平台,提供感知、交互、强化学习等全栈技术路线 [6][20][24][26] - 行业数据生态建设聚焦本体多样化,双足、轮式等形态数据需抽象共同特征以促进技术通用性 [2] 技术应用与研究方向 - 多模态大模型在理解与生成领域快速发展,覆盖图像、视频、音频等多模态数据交互 [38][40] - 机械臂抓取、双足/四足机器人等硬件方案技术成熟,开源项目助力系统快速搭建 [51][53][55] - 视觉-语言-动作(VLA)模型与Diffusion Policy成为前沿研究方向,推动机器人任务泛化能力 [43][45][47] 行业服务与支持体系 - 提供研报、书籍、零部件品牌等资源汇总,覆盖工业、医疗、物流等应用场景 [14][16][18] - 建立技术交流与人才对接平台,包含岗位推荐、直播分享及研究方向选择指导 [7][11][57][59]
同样的idea别人中了CVPR,你的却被秒拒?
自动驾驶之心· 2025-07-02 10:05
论文辅导服务核心观点 - 顶会论文需具备广泛适用性而非单一场景解决方案 强调方法论的系统性和可扩展性 [1] - 论文实现难度与创新性需平衡 从实验设计到写作各环节均影响投稿区位 [2] - 提供全流程深度辅导 覆盖计算机全领域及AI4S领域 目标直指顶会录用 [2][5][10] 服务内容与优势 辅导模式 - 采用1对1保姆式服务 从idea生成到最终发表全程跟进 [3][5] - 导师团队协助解决数据问题 针对性指导实验设计与模型优化 [4][5] - 搭建论文写作框架 提供增删改查支持 强化薄弱环节 [5] 师资力量 - 拥有300+专职AI方向导师 均来自QS前100高校 具备顶会/子刊发表经验 [7][8] - 覆盖自动驾驶 具身智能 机器人等交叉学科 近3年辅导学员400+ 中稿率96% [7][8] 领域覆盖 - 计算机全领域支持 包括大模型 VLA 端到端自动驾驶等25+细分方向 [9][10] - 可辅导CCF-A/B/C类会议及TPAMI CVPR等顶刊 含SCI1-4区期刊 [10] 目标用户群体 - 缺乏中稿经验的研究生/本科生 需突破科研瓶颈的硕博生 [5] - 计划转自动驾驶方向或申博评职的CS领域研究者 [5] - 需快速掌握前沿技术方法论 提升论文国际认可度的学者 [5][11] 行业竞争力 - 背靠国内最大AI技术自媒体平台 拥有顶尖学术资源网络 [7] - 专注自动驾驶等前沿交叉学科 深度理解领域痛点与机遇 [7][8] - 强调时效性服务 帮助用户快速应对热门研究方向迭代 [11][12]
时序融合等价梯度下降?GDFusion刷新OCC SOTA !显存大降七成~
自动驾驶之心· 2025-07-01 20:58
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 澳门大学X 武汉大学 最新的工作! 时序融合等价于 梯度下降?GDFusion 刷新 OCC 性能 SOTA,显存还大降72%! 如果您有相关工 作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Dubing Chen等 编辑 | 自动驾驶之心 一句话总结:来自澳门大学等机构的研究者提出了一种全新的时序融合框架GDFusion。它通过一个极其巧 妙的视角——将传统RNN更新过程重新诠释为"特征空间上的梯度下降",成功统一了多种异构时序信息的 融合。GDFusion不仅在3D占用栅格预测任务上取得了1.4%-4.8%的mIoU提升,更惊人地将推理显存消耗 降低了27%-72%,实现了性能和效率的双赢。 论文标题 :Rethinking Temporal Fusion with a Unified Gradient Descent View for ...
黑武士!科研&教学级自动驾驶全栈小车来啦~
自动驾驶之心· 2025-07-01 20:58
产品发布与定价 - 黑武士系列001正式开售 原价34999元 支付定金1000元可抵扣2000元 优先锁定订单安排组装发货 [1] 产品定位与功能 - 面向科研与教学场景的自动驾驶全栈解决方案 支持感知、定位、融合、导航、规划等功能平台 [2] - 适用场景包括本科生学习比赛、研究生科研论文、高校实验室教具、职业院校培训等 [5] 硬件配置 - 主要传感器包括Mid 360 3D激光雷达、镭神智能2D激光雷达、奥比中光深度相机 [17] - 主控芯片采用Nvidia Orin NX 16G 配备1080p显示器 [17] - 采用阿克曼底盘系统 车体尺寸620x400x320mm 自车重量30kg [17][21] - 电池功率50w 供电电压24V 续航时间超过4小时 [21] 软件系统 - 基于ROS框架 支持C++和Python开发 [23] - 提供一键启动功能 包含完整的开发环境 [23] - 支持多种SLAM算法 包括2D/3D激光SLAM、视觉惯性SLAM等 [24] 性能参数 - 最大运动速度2m/s 轮毂外径130mm 载荷能力30kg [21] - 深度相机测量范围0.15-5m 相对精度≤2% [27] - 3D激光雷达FOV 360°×59° 测距范围0.1-40m [27] 售后支持 - 提供1年非人为损坏保修 人为损坏提供有偿维修 [46] - 支持硬件采购咨询和技术支持 [46]
小米社招&校招 | 自动驾驶与具身智能算法研究员 (VLA/具身方向)
自动驾驶之心· 2025-07-01 20:58
职位描述 - 公司正在招聘研究员/科学家加入前沿探索团队,共同定义和构建下一代自动驾驶与机器人的"大脑",致力于突破性的具身基座模型研究,深度融合视觉-语言-行动能力,并具备卓越的空间感知与空间推理能力 [2] 核心职责 - 前沿算法研究与构建:设计和实现领先的具身多模态大模型,探索构建能够理解复杂三维世界并进行长时序、多步骤任务规划的世界模型 [3] - 核心模型能力攻关:主导模型在多模态场景理解、复杂语义推理与决策、学习与适应机制等方面的突破 [4] - 技术愿景与路线图:构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,探索其在自动驾驶和通用机器人领域的统一应用潜力 [4] - 学术影响力与合作:与全球顶尖高校及研究机构合作,探索表征学习、因果推理、世界模型等长期议题,在顶级会议上发表高水平论文 [4] 职位要求 - 教育与研究背景:计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位或同等深度的研究经验 [5] - 核心研究经验:在多模态大模型、自动驾驶与具身智能、强化学习、三维视觉与空间智能等领域有深入研究和实践经验 [6][7] - 理论与编程能力:在顶级会议上作为主要作者发表过高质量论文,具备将大模型、自然语言处理、计算机视觉、强化学习与机器人学知识融会贯通的能力 [8] 加分项 - 世界模型研究经验:对World Model理论有深入理解并有相关研究或项目实践经验 [11] - 大规模预训练:有从零开始训练亿级参数以上大模型的实际经验,熟悉分布式训练技术 [11] - 机器人平台经验:具有在真实机器人或高仿真平台上部署和验证算法的经验 [11] - 开源社区贡献:活跃于相关开源项目并有广受认可的贡献 [11] 工作地点与投递方式 - 工作地点以北京为主,少量上海职位 [10] - 简历投递至指定邮箱,需备注社招/校招+姓名+岗位+自动驾驶之心推荐 [10]
重磅直播!清华&博世开源SOTA性能纯血VLA:Impromptu-VLA告别双系统~
自动驾驶之心· 2025-07-01 20:58
自动驾驶技术进展 - 当前自动驾驶系统在结构化环境(如城市和高速公路)中取得显著进展,但在非结构化场景(如乡村小路、临时施工区、恶劣路况)中仍面临鲁棒性和安全性挑战 [1] - 现有大规模自动驾驶数据集主要关注常规交通状况,缺乏针对非结构化环境的专门、大规模且精细标注的数据 [1] Impromptu VLA框架 - 清华AIR联合博世中央研究院提出Impromptu VLA框架,旨在提供开放权重和开放数据的驾驶视觉-语言-动作模型 [1] - 该框架是完全端到端、无中间感知表征的"纯血VLA"系统,直接从驾驶视频片段提取多模态特征并生成自然语言格式的驾驶命令 [1] - 系统无需手工设计感知模块、行为先验或中间BEV表达 [1] - 在NeuroNCAP闭环安全评测中表现优异,得分2.15,显著超越CVPR 2025最新提出的BridgeAD系统(1.60) [1] 技术资源与分享 - 论文已发布于arXiv(编号2505.23757v1) [2] - 项目主页在GitHub(ahydchh/Impromptu-VLA) [2] - 清华大学计算机系本科生迟浩瀚将分享该VLA框架 [2] 学习建议 - 建议入门者扎实深度学习和计算机视觉基础,逐步了解自动驾驶各模块 [2] - 推荐通过阅读前沿论文和参与开源项目实践来熟悉数据处理和模型训练流程 [2]
目标导航到底是什么?自驾有没有落地的点?
自动驾驶之心· 2025-07-01 20:24
目标驱动导航技术概述 - 具身导航涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向,要求智能体在陌生环境中仅凭目标描述自主完成探索与路径规划 [2] - 与传统视觉语言导航依赖显式指令不同,目标驱动导航需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁,涉及语义解析、环境建模与动态决策能力 [2] 技术应用场景 - 终端配送场景:美团无人配送车通过动态路径重规划在复杂城市环境执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署 [3] - 医疗/酒店/餐饮场景:嘉楠科技、云迹科技、擎朗智能的商用服务机器人及美国Aethon公司的TUG系列实现药品、文件、餐食自主配送 [3] - 人形机器人领域:宇树科技Unitree系列通过Habitat预训练完成基础导航,智元机器人集成目标导航模块,特斯拉Optimus展示端到端操作能力 [3] 技术发展历程 - 第一代端到端方法:基于强化学习与模仿学习,在PointNav与闭集图片导航任务中SPL指标逼近人类表现 [5] - 第二代模块化方法:通过显式构建语义地图分解任务,利用CLIP等视觉语言模型提升零样本目标导航成功率 [5] - 第三代LLM/VLM融合方法:引入大语言模型生成语义指导策略,通过跨模态对齐解决开放词汇目标匹配问题 [7] 技术生态与挑战 - Habitat仿真生态形成覆盖空间认知到任务执行的闭环评测体系,融合视觉预训练模型、分布式强化学习与大语言模型技术 [4] - 当前技术梯度:PointNav和闭集ObjectNav接近人类水平,但开放词汇物体导航与动态障碍物场景仍存挑战 [4] - Sim2Real迁移框架为仿真到真实部署提供方法论,动态环境下的语义地图更新技术持续发展 [4] 课程核心内容 - 语义导航框架:系统剖析三代技术演进路径(端到端/模块化/LLM融合)及评测基准体系 [14] - Habitat仿真生态:解析Habitat-Sim/Lab/Baselines技术架构及NavMesh路径规划算法 [15][21] - 实战模块:涵盖端到端导航(ZSON/PIRLNav)、模块化架构(SemExp/VLFM)、LLM/VLM系统(InstructNav/3Dmem)的算法复现与改进 [15][16][17] - 大作业设计:聚焦VLFM算法复现,包括占据地图构建、边缘探索点生成、值地图生成及实机部署迁移 [18][22] 技术学习痛点与解决方案 - 跨领域知识整合困难:需同时掌握自然语言处理、计算机视觉、强化学习等多领域碎片化知识 [9] - 实践闭环缺失:Habitat生态文档不足导致从理论到实践的过渡障碍 [9] - 课程解决方案:采用Just-in-Time Learning理念构建领域框架,结合实战环节完成闭环学习 [10][11][12]
上岸小厂,心满意足了。。。
自动驾驶之心· 2025-07-01 12:04
行业趋势与人才需求 - 自动驾驶和具身智能技术突破撑起近一半技术路线和融资金额 但行业趋于饱和 部分应届生去年校招面临offer难问题[2] - L2~L4自动驾驶功能加速量产 人形机器人/四足机械狗等具身智能产品实现复杂动作 行业对技术和人才需求明确[2] - 行业技术方向覆盖自动驾驶、具身智能、3D视觉、机器人等领域 头部企业包括地平线、理想汽车、华为、小米汽车等[2] 求职服务平台内容 - AutoRobo知识星球已聚集近1000名成员 涵盖社招(地平线/华为等)和校招(2024-2025届)群体[2] - 提供面试题库:包含毫米波视觉融合、BEV感知、多传感器标定等自动驾驶领域100问 以及VLA、Diffusion Policy等具身智能领域100问[6][7][8][11] - 共享行业研报:包括世界机器人报告、中国人形机器人蓝皮书、具身智能创投报告等15+细分领域深度分析[12][15] 职业发展资源 - 面经库覆盖滴滴/NV/美团等20+企业 涉及算法/产品/C++等岗位 包含成功与失败案例的完整复盘[13][16] - 提供谈薪技巧、HR面应答策略、跨行转型经验等实战指南 汇总机器人/AI类专业书籍[17][19] - 实时更新校招/社招/实习岗位信息 与企业直接合作获取第一手招聘需求[4] 服务模式 - 会员制社区 日均成本约0.3元 提供简历优化、内推渠道等全流程求职服务[20] - 内容体系涵盖技术题库(15+方向)、行业认知、面试实战三大模块 形成完整学习路径[3][12][16]
WorldVLA:世界模型实现视觉-动作双向增强,抓取精度显著提升
自动驾驶之心· 2025-07-01 12:04
WorldVLA功能与定义 - WorldVLA是一种将视觉-语言-动作(VLA)模型与世界模型结合的自回归动作世界模型,通过集成动作生成与图像理解预测未来状态,学习环境物理规律以优化动作生成[4] - 模型采用注意力掩码策略解决自回归动作生成中的误差传播问题,在动作块生成任务中抓取成功率提升4%-23%[4][8] - 实验显示WorldVLA抓取成功率比独立动作模型高4%,视频生成能力优于普通世界模型,Fréchet视频距离降低10%[8] VLA模型与行业技术瓶颈 - 当前VLA模型依赖多模态大语言模型(MLLM)生成动作,但动作仅作为输出未被深度集成分析,缺乏对动作动态的理解[6] - 世界模型虽能预测未来视觉状态,但无法直接生成动作输出,限制其在需显式动作规划场景的应用[6] - 行业需解决动作泛化能力不足问题,基础MLLM在动作领域表现弱于图像文本领域[19] 模型架构与技术方案 - 采用三模态tokenizer(图像/文本/动作)共享词汇表,图像tokenizer压缩比16,codebook大小8192,256×256图像生成256个token[15] - 动作表示为7个token(3位置+3角度+1抓取器状态),文本tokenizer词汇量65,536含8192图像token和256动作token[15] - 训练策略混合动作模型数据(交叉熵损失)与世界模型数据(α=0.04平衡损失),实现双向增强[16][22] 实验验证与性能表现 - 在LIBERO基准测试中,512×512分辨率模型平均抓取成功率87.8%,超越离散对比模型(79.1%)[27][28] - 世界模型组件使动作模型成功率从62.8%提升至78.1%,动作模型帮助世界模型降低长视频生成FVD指标[29][30][36] - 两帧历史图像输入为最优配置,平衡计算效率与任务成功率(76.6% vs 单帧54.0%)[33] 创新方法与行业价值 - 首创自回归动作世界模型统一框架,实现动作预测与世界状态预测的联合优化[9][12] - 注意力掩码机制突破传统自回归限制,使动作生成独立依赖视觉输入而非历史动作,缓解误差累积[19][20] - 技术方案为机器人灵巧操作提供新范式,预训练世界模型可增强特定任务性能[34][36]
暑假打打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛正式启动~
自动驾驶之心· 2025-06-30 20:51
竞赛概述 - 竞赛聚焦空间智能与具身智能的视觉感知技术,旨在推动高效、高质量的技术研究,探索强化学习、计算机视觉等前沿方法的创新,并促进神经渲染、场景优化等方向的应用 [2][4] - 竞赛由北京科技大学、清华大学、中国科学院自动化研究所等机构联合组织,北京九章云极科技有限公司提供赞助和技术支持 [5] 参赛要求与流程 - 参赛者包括高校教师、研究生、博士生及企事业单位研究团体,以个人或团队形式报名,每队不超过5人 [8][9] - 报名需通过邮件提交团队信息,截止日期为7月31日,比赛分为训练集发布、结果提交、评测和颁奖四个阶段 [5][6][10] 竞赛资源与任务 - 提供大规模无人机航拍图(500-1000张1k分辨率)和具身智能仿真场景数据,九章云极免费提供8卡H800 GPU算力用于验证 [11][12] - 赛道1要求构建多视角航拍图像的三维重建模型,评估渲染质量(PSNR)和几何精度(F1-Score) [17][19][20] - 赛道2要求完成动态遮挡场景的抓取任务,评估任务完成度(成功率、位姿误差)和执行效率(耗时、路径效率) [21][23] 奖项设置 - 每个赛道设一等奖(6000元+500度算力券)、二等奖(3000元+200度算力券)、三等奖(1000元+100度算力券)及优胜奖(500元+50度算力券) [25] 相关会议 - 竞赛结果将在PRCV2025大会(10月15-18日)公布,该会议是CCF分区顶级学术会议,涵盖模式识别与计算机视觉领域前沿成果 [27][28]