Workflow
自动驾驶之心
icon
搜索文档
中国具身智能的技术一号位们
自动驾驶之心· 2025-09-16 11:34
文章核心观点 - 具身智能行业正从实验室走向商业化落地 硬件与算法突破推动场景拓展 国内外团队在该赛道展开激烈竞争[4] - 通用具身智能体与场景自适应学习成为全球下一代技术突破关键领域 技术架构革新将重塑研发资源分配和市场竞争格局[4] - 技术领袖的战略决策直接决定团队能否在行业转型期抢占先机 领军人物正通过不同技术路径推动行业发展[4][54][55] 宇树科技 - 王兴兴创立宇树科技并担任CEO/CTO 主导研发Laikago、AlienGo、A1等多款四足机器人及Z1机械臂[8] - 公司拥有机器人相关专利100余项 获国家高新技术认证和国家级专精特新"小巨人"企业认定[8] - 2025年2月参与共建上海宝山上大通用智能机器人研究院 具备从0到100的研发与商业化落地能力[8] 星海图团队 - 赵行提出全球首个量产自动驾驶大模型DriveVLM-Dual 应用于理想汽车 其双系统方案成为Figure机器人Helix控制架构参考框架[12][13] - 许华哲系统性研究视觉深度强化学习与模仿学习 解决数据效率低和泛化能力弱问题 发表顶级期刊/会议论文60余篇[15] - 团队聚焦具身智能空间感知 通过自研三维建模与实时交互算法实现复杂场景精准定位[54] 银河通用 - 王鹤创立公司并开发VLA大模型 推动具身智能与大模型融合 积累亿级真实场景数据及百亿级合成仿真数据[18] - 首代产品Galbot为轮式双臂通用具身机器人 公司同时运营北大-银河通用具身智能联合实验室[17][18] 智元机器人 - 罗剑岚主导开发SERL/HIL系统 实现机器人真机强化学习任务成功率100% 仅需20分钟学会精密装配[23] - 联合斯坦福、谷歌等机构构建全球最大跨场景机器人开源数据集Open X-Embodiment 加速技术资源共享[23] 自变量机器人 - 王昊主导研发端到端具身大模型WALL-A 为2024年10月全球最大参数规模具身智能通用操作模型[27] - 开源具身智能大模型Wall-OSS并公开训练代码 支持开发者自有机器人微调应用[27] 逐际动力 - 张巍聚焦全尺寸通用人形机器人 首款四轮足商用机器人W1已上市 人形机器人将于2025年下半年公开销售[29][30] - 推动具身大模型技术研发及IDS生态平台建设 通过仿真数据和互联网视频数据降低数据成本[30] 星尘智能 - 来杰团队采用"绳驱"传动方案 第一代AI机器人Astribot S1实现AI智能与操作能力深度耦合[32] - 在具身智能数据获取上取得关键突破 致力于打造家用AI机器人[32] 云深处 - 朱秋国团队坚持全栈自研 从核心零部件到运动控制算法 拥有授权专利100多项[35] - 承担国家重点项目10余项 发表学术论文40余篇 参与研制"赤兔""绝影"等四足机器人[35] 千寻智能 - 韩峰涛主导研发国内首款高性能全身力控人形机器人Moz1 负载自重比达1:1[38] - 公司成立1年4个月累计融资超10亿元 通过大模型与机器人控制深度融合解决"大脑难造"痛点[38] Physical Intelligence - Sergey Levine团队开发代表VLA落地最高水平的模型 公司成立一个月获7000万美元融资[40] - 2024年11月完成4亿美元新一轮融资 投后估值约24亿美元 致力于创建通用机器人系统AI模型[40] Figure AI - Brett Adcock推出Figure 01和Figure 02人形机器人 后者部署至宝马斯帕坦堡工厂测试[44] - 2025年2月发布Helix模型 可同时操控两台机器人共脑合作 并实现自然人形行走[44] - 认为人形机器人是AGI终极形态 预计5年内创造价值数十亿美元产业[45] 学术研究机构 - 李飞飞发明ImageNet数据集 对深度学习和AI发展做出重要贡献 现任斯坦福大学HAI研究院联合主任[47][48] - Deepak Pathak开发"人工好奇心"技术 论文获超4000次引用 其团队构建可适应不同硬件的机器人基础模型Skild Brain[52]
蚂蚁集团大模型数据智能算法工程师招聘(可内推)
自动驾驶之心· 2025-09-16 07:33
职位描述 大模型数据认知方向,负责设计和开发先进的算法,解决大模型数据生产中的关键问题,包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集 建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下一个或多个方向: 1、数据知识体系生成:研究基于LLM的自动知识图谱生成技术,设计并实现自动化算法,构建高效、可扩展的大模型数据知识体系; 2、语料自动分类:基于数据知识体系,研究和开发语料分类算法,指导大模型数据的拓展方向; 3、权威评测集建设:研究业界现有评测集的缺陷,构建标准化、多样化的权威评测集,用于评估大模型的性能;与跨职能团队合作,确保评测集覆盖全面且具有代表 性; 4、语料质量评估与合成:建立大模型训练的数据驱动体系,开发语料质量评估算法,识别低质量或噪声数据。研究数据驱动的语料合成技术,基于模型的评测效果,针 对性合成能够改进模型效果的训练语料,提升模型迭代效率; 5、智能标注链路研发:基于大模型数据的标注需求,研发辅助打标算法;设计构建 AI辅助的标注质量检验与标注提效的算法链路,提升人工标注的质检效率与标注质 量; 6、技术创新与优化 ...
VLA空间理解的能力还远未被挖掘!OccVLA的新尝试(上海期智&清华&上交等)
自动驾驶之心· 2025-09-16 07:33
核心观点 - 多模态大语言模型在自动驾驶领域缺乏鲁棒的3D空间理解能力,主要受限于3D表示构建难度和细粒度空间细节丢失问题 [3][5] - OccVLA框架通过将3D占用率表示整合为预测输出和监督信号,使模型直接从2D视觉输入学习细粒度空间结构,无需额外计算开销 [3][9] - 该模型在nuScenes基准的轨迹规划任务中取得SOTA结果(平均L2距离0.28米),在3D视觉问答任务中准确率达59.5%,为自动驾驶提供可扩展的纯视觉解决方案 [3][38][42] 技术框架创新 - 采用隐式3D占用监督机制,将占用率令牌作为隐式推理过程,通过交叉注意力从VLM中间层接收视觉特征 [9][21] - 设计潜在空间占用率预测(下采样率r=16)解决原始占用网格内存占用高问题,使用VQ-VAE解码器还原高分辨率3D占用预测 [23] - 引入元动作预测机制(速度动作3类+方向动作6类),通过思维链监督实现自然语言推理与运动语义保留 [26][30] - 规划头采用轻量级MLP架构,输入元动作嵌入/速度/视觉token,输出未来3秒轨迹坐标(MSE损失监督) [29][33] 性能表现 - 运动规划任务平均L2距离0.28米,超越依赖激光雷达的OmniDrive(0.33米)和需要3D标注的EMMA(0.32米) [38] - 3D视觉问答任务整体准确率59.5%,超越7B参数的LLaVA(47.4%)和LiDAR-LLM(48.6%),接近8B参数OccLLaMA3.1(54.5%) [42] - 占用预测任务mIoU达10%,虽受限单帧输入但在关键元素(车道/车辆/行人)预测表现突出 [43] - 模型参数量仅3B,性能超越7B参数模型,显示更高计算效率 [38][42] 训练方法论 - 三阶段训练流程:自动驾驶场景预训练(使用OmniDrive数据)、占用率-语言联合训练(损失函数含λ因子平衡文本与占用任务)、规划头专项训练 [31][32][33] - 采用适配器微调Transformer块,保持原有VLM能力同时注入3D感知能力 [22][32] - 全自动数据构建流程生成元动作标签,20%数据经人工优化确保标注一致性 [27] 行业应用价值 - 突破2D感知与3D感知间差距,使纯视觉方案具备高精度3D理解能力(仅需相机输入) [4][10] - 支持占用率表示灵活解码,生成可解释且可定量评估的输出,增强自动驾驶系统透明度 [10][11] - 推理阶段可跳过占用预测,无额外计算开销,解决现有3D VLM因参数庞大导致的延迟问题 [3][48]
论文解读之港科PLUTO:首次超越Rule-Based的规划器!
自动驾驶之心· 2025-09-16 07:33
在端到端自动驾驶领域,这篇文章是一个典型的"两段式网络架构"中的Planner模型,而且它不是基于BEV feature map进行下游控制任务的,而是直接对于感知输出 的结构化的信息(bbox,lanes等等)进行编码,并作为sequence token输入到decoder中,今天就为大家分享一下。二段式端到端非常适合新人练手: 为了帮助大家理解,网络架构图上我们做了详细的模块注释: 我们先整体上看一下PLUTO有哪些关键点: PLUTO主要有三个损失,主任务的损失包含回归损失和分类损失,共同组成模仿学习的损失。而Agent轨迹预测的损失如下图所示: 同时,PLUTO也添加了几个辅助的损失帮助模型收敛: 1)直击痛点,快速入门 本课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例,帮助学员短时间内掌握核心技术栈。理解关键概念后,拓展特定领域知识将变得更加轻松。 2)构建领域框架,提升研究能力 本文均出自平台最新推出的 『端到端与VLA自动驾驶小班课』 ,我们联合国内TOP主机厂算法专家共同打造! 技术专家带你深入端到端与VLA算法原理与技术开 发,目前已经正式开课! 技术栈多? ...
关于大模型和自动驾驶的一切
自动驾驶之心· 2025-09-16 07:33
大模型技术社区定位 - 平台专注于大模型RAG、大模型AI Agent、多模态大模型(预训练、微调、强化学习)和大模型部署推理优化等技术方向 [1] - 社区致力于构建国内最大的大模型技术社区 持续为行业和个人输送人才及产业学术信息 [1] - 社区定位为培养未来领袖的地方 强调内容质量和人才培养 [2] 社区发展目标 - 快速搭建相关技术模块 吸引对大模型技术感兴趣的人群加入 [1] - 通过知识星球形式深化学习 提供进一步技术交流平台 [1] - 借助自动驾驶VLA等热点技术趋势推动大模型技术普及 [1]
作为研究,VLA至少提供了一种摆脱无尽corner case的可能性!
自动驾驶之心· 2025-09-15 11:56
VLA技术演进 - VLA成为自动驾驶主流关键词 新势力企业下半年集中抢占VLA技术高地[1] - 传统模块化架构存在错误累积效应和信息损失问题 依赖人工规则难以应对复杂交通场景[4] - 纯视觉端到端方案存在黑箱问题和因果混淆缺陷 泛化能力受限于训练数据覆盖范围[4][5] - VLA范式通过语言中间表征连接感知与行动 赋予模型推理解释和交互能力[5] - VLA模型利用LLM预训练的世界知识理解交通场景 实现更符合逻辑的决策[5] 学术研究课程 - 课程提供12周在线小组科研加2周论文指导和10周论文维护期[7][14] - 覆盖语言模型解释器 模块化VLA模型 统一端到端VLA模型 推理增强VLA模型四大研究方向[7] - 学员将获得经典论文与前沿论文分析能力 掌握创新点baseline和数据集使用方法[12] - 课程提供baseline代码和可用数据集 包括nuScenes Waymo Argoverse等自动驾驶数据集[23] - 配备2+1多师制教学团队 包括主导师副导师和科研论文班主任[23] 技术资源支持 - 提供基于模仿学习的端到端自动驾驶开源代码库包括VAD和UniAD项目[24] - 提供基于扩散模型的端到端自动驾驶项目DiffusionDrive和OccNet[24] - 开放VLA端到端自动驾驶项目OpenDriveVLA SimLingo和Senna[24] - 课程必读论文包括Senna SimLingo OpenDriveVLA和ORION等最新研究成果[25] - 硬件要求最低配置为4张4090显卡 推荐配置为8张4090显卡或更高性能设备[20] 课程体系设计 - 14周课程包含传统端到端自动驾驶介绍 VLA架构详解和模块化模型研究[26][27] - 每周安排1-1.5小时课程 包含课题概览 选题讨论 算法详解和论文写作方法论[26] - 学员需具备深度学习基础 熟悉Python和PyTorch 最好掌握Linux开发环境[16][20] - 课程要求每周课前阅读资料并完成作业 课后自学时间至少1-2小时[20] - 最终产出包括论文初稿 项目结业证书和优秀学员推荐信[23]
SimpleVLA-RL:突破 VLA 模型训练瓶颈,RL实现端到端在线训练
自动驾驶之心· 2025-09-15 11:56
以下文章来源于具身智能之心 ,作者Haozhan Li等 具身智能之心 . 与世界交互,更进一步 作者丨 Haozhan Li等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 想让机器人灵活干活,视觉-语言-动作(VLA)模型是关键,但现在的训练方法太 "娇气" 了!靠监督微调(SFT)训练,不仅要海量人类操控轨迹数据(采集贵 到离谱还难扩规模),遇到没见过的任务或环境,性能直接 "翻车"。 好在大推理模型领域给了新灵感——强化学习(RL)光靠任务结果就能提升推理能力,那能不能用在 VLA 模型上?可难题也不少:传统机器人 RL 要手工调奖 励,没法大规模用;VLA 还得和环境反复交互,比 LLM 生成文本麻烦多了。 别慌,SimpleVLA-RL 框架来救场了!它基于 veRL 优化,专门适配 VLA 的轨迹采样、并行训练,效果直接拉满:在 LIBERO、RoboTwin 等基准测试里拿了 ...
过来人经验!研一进组后一定要着手准备小论文!
自动驾驶之心· 2025-09-15 07:33
科研开头找节奏是最难的,且至关重要,真所谓 一步领先步步领先,一步落后步步落后。 真正拉开差距的往往就是开学这段时间, 谁能适应科研节奏?谁跑得快能做出成果?谁就能抢占课题 组优质资源,就能得到导师更多资源投入, 有了资源加持自然跑得更快,又能争取更多资源,成果出 的更多,雪球越滚越大。 等到研二研三才考虑发小论文出成果,导师的注意力和课题组资源早被瓜分光了! 此外,尽早发小论文还有这些好处: 无论你是刚进组想要尽早产出成果但是没有头绪,还是临近求职毕业要求还没达到,迟迟无法产出满意 的论文 , 不妨考虑寻求专业助力,自动驾驶之心服务大家的论文辅导正式推出了。 有位研二学员找到了我们指导,一年发了3SCI论文,申博、国奖统统拿下! 带方向扫码免费咨询 更容易拿奖学金; 为毕业论文做准备; 培养科研能力; 求职升学更有优势。 第1周:确定研究方向,筛选出 3 个备选课题。 第2-3周:完成文献综述,搭建论文框架。 第4-6周:进行实验设计与数据收集。 第7-8周:完成初稿。 第9-10周:初稿完成,修改润色。 第11-12周:开始选刊投稿,等待accept! 为什么选我们? 我们300+专职于自动驾驶/具身智能 ...
自动驾驶世界模型技术交流群成立了
自动驾驶之心· 2025-09-15 07:33
自动驾驶之心世界模型技术交流群成立了,欢迎大家加入一起世界模型相关的内容。感兴趣的同学欢迎添 加小助理微信进群:AIDriver005, 备注:昵称+世界模型加群。 ...
具身大脑风云榜!盘一盘国内外具身大脑的灵魂人物们...
自动驾驶之心· 2025-09-15 07:33
文章核心观点 - 具身智能已成为全球焦点 国内外公司正积极开发机器人"大脑"系统 包括具身大模型和多模态感知决策系统 [2][3] 国内公司技术布局 - 自变量机器人聚焦通用具身大模型研发 以真实世界数据构建具备精细操作能力的通用机器人 [4] - 星海图成立于2023年 坚持端到端的具身通用大模型路线 成立不到两年完成8轮融资 [5] - 星海图推出WALL-A模型 为全球最大参数规模的具身智能通用操作大模型 能整合视觉 语言与运动控制信号 [5] - 星海图开源具身智能基础模型Wall-OSS 具备强大泛化性和推理能力 [5] - 优必选为全球人形机器人商业化领导者 拥有全栈自研能力包括运动控制和AI-Embodied系统 [6][9] - 优必选Thinker大模型在三大国际权威基准测试中斩获四项全球第一 显著提升机器人感知与规划能力 [9] - 智元机器人聚焦AI与机器人深度融合 推出启元大模型Genie Operator-1 任务成功率较市面模型提升32% [7][9] - 智元机器人建立"具身智脑"分层系统 包括云端超脑 大脑 小脑和脑干 形成完整控制体系 [9] - 银河通用构建三大技术壁垒 自主研发全球首个"通用具身大模型" 采用大脑+小脑协同框架 [8][9] - 银河通用推出GraspVLA模型 全球首个端到端具身抓取基础大模型 仅通过合成数据达到预训练能力 [9][13] - 千寻智能Spirit V1 VLA模型攻克柔性物体长程操作难题 实现自然语言指令驱动的复杂任务 [10][13] - 星动纪元研发端到端原生机器人大模型ERA-42 支持机器人完成超过100种动态任务 [11][13] - 逐际动力聚焦具身智能机器人研发 构建具身Agent开发工具链 推动多领域应用 [12][13] - 穹彻智能聚焦以力为中心的具身智能大模型 其Noematrix Brain 2.0新增实体概念学习能力 [14][16] - 智源研究院推出RoboBrain 2.0 以70亿和320亿参数实现感知 推理与规划能力统一 [15][16] 国外公司技术进展 - Figure AI致力于开发具备AI能力的人形机器人 解决劳动力短缺等问题 [17] - Figure AI推出Helix模型 采用独特双系统AI架构模仿人类直觉和思考的认知模式 [17] - Physical Intelligence专注于为机器添加高级智能 发布机器人基础模型π0和π0.5 [18][21] - 谷歌DeepMind推出Gemini Robotics模型 可直接控制机器人执行复杂任务 [19][21] - 谷歌DeepMind开发Gemini Robotics-ER 增强机器人对空间和物理世界的理解能力 [21] - 英伟达Eureka系统基于GPT-4打造 支持机器人实现30余种复杂动作 [20][25] - 英伟达GR00T N1开源模型采用双系统架构 实现接近人类的运动控制能力 [25] - Skild AI研发通用机器人操作系统Skild Brain 通过摄像头图像直接控制机器人动作 [22][25] - Covariant构建RFM-1模型 为世界上首个基于真实任务数据训练的80亿参数机器人大模型 [23][25] 知名研究团队成果 - Meta和CMU联合打造RoboAgent 采用多任务动作分块Transformer架构 [24][25] - 斯坦福李飞飞团队开发VoxPoser 利用VLM和LLM常识知识实现零样本机器人操纵 [24][25]