Workflow
VLA
icon
搜索文档
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-11 14:01
具身智能技术交流群 - 社群聚焦研究方向包括视觉语言动作(VLA)、视觉语言导航(VLN)、遥操作、扩散策略(Diffusion Policy)、强化学习(RL)、VLA与强化学习结合(VLA+RL)、仿真到现实迁移(sim2real)、多模态大模型、运动控制、目标导航、建图定位等前沿技术领域 [1] - 入群需通过微信添加助理账号AIDriver005并提交机构/学校名称、个人姓名及研究方向信息以加速审核流程 [2][3]
对话千寻智能高阳:科学家创业不太「靠谱」,但创业就像一场游戏
36氪· 2025-08-08 17:28
具身智能行业趋势 - 具身智能领域正经历技术范式转变,ChatGPT的出现推动了学习范式的革新,使得具身智能成为必然发展方向[13] - 行业现阶段普遍采用Transformer做预训练,但工程化后期效果将出现显著分化[34] - 预计四年后将进入Robot GPT3.5阶段,机器人能完成70%的家庭场景任务[41] 千寻智能商业模式 - 坚持软硬一体化路径,定位为"具身智能领域的苹果"而非安卓[10][11] - 成立19个月累计融资超10亿人民币,资方包括华为哈勃、京东、宁德时代等[7] - 技术路线强调VLA(视觉语言动作)模型创新,独创快慢系统提升动作流畅度[37][46] 技术研发重点 - VLA模型采用95%互联网人类视频数据预训练,显著提升泛化能力[58][61] - 算法创新包括任务分解能力(one two VLA)和动作tokenizer优化[40][45] - 现阶段世界模型仅小规模应用,分层技术路径将被端到端方案淘汰[49][50] 行业竞争格局 - 头部机器人公司仍聚焦硬件和教育市场,忽视"大脑"开发[14] - 同质化Demo现象普遍,叠衣服等复杂任务成为技术能力试金石[56] - "伯克利四子"分别专注不同技术方向:运动控制、操作交互、3D感知等[63][65] 数据策略差异 - 反对现阶段大规模建设数采工厂,认为跨本体数据迁移效率低[53] - 互联网数据价值在于提供多样性,遥操作数据确保物理世界精确性[59] - 数据清洗和配比直接影响模型性能,当前泛化能力提升率达60-80%[61] 人才战略 - 偏好年轻科研人才(硕士/博士),要求具备前沿技术敏感度[71][72] - 算法岗更看重近期学术成果而非工作经验,因技术迭代速度过快[72] - 团队构建强调"少而精",需同时具备研究能力和工程化思维[70]
对话千寻智能高阳:科学家创业不太“靠谱”,但创业就像一场游戏
36氪· 2025-08-08 09:49
公司战略与定位 - 千寻智能采用软硬一体模式,定位为具身智能领域的"苹果"而非"安卓",强调技术初期必须整合硬件与软件能力[5][6] - 公司成立19个月累计融资超10亿人民币,资方包括华为哈勃、京东、宁德时代等头部机构[4] - 创始团队为学术与产业组合:高阳为AI科学家,韩峰涛为硬件专家,曾操盘数万台机器人量产[3][7] 技术路径与创新 - 核心VLA模型采用快慢系统技术,实现动作流畅性(如叠衣服甩动动作),4个月前完成开发[35][36] - 独创one two VLA架构,支持复杂任务自主分解(如"手机放抽屉"需3步骤)[31] - 95%训练数据来自互联网人类视频,提升跨品类泛化能力(如折叠机识别无需额外训练)[46][47] - 现阶段暂未大规模投入世界模型研发,认为强化学习环节成本过高[37] 行业竞争格局 - 判断市场难以容纳第二家软硬一体公司,头部企业倾向固守教育细分市场[9][11] - 反对大规模数采工厂模式,认为机器人形态未定型导致数据迁移价值打折[41][42] - 叠衣服成为行业标准测试场景,因其需应对千变万化的物体形态[44] 技术发展阶段 - 预测4年后进入Robot GPT3.5阶段,任务完成率达70%(如家庭场景取水)[32] - 当前VLA存在语言模块过载问题,需优化数据利用(人类视频预训练)与架构设计[33][34] - 泛化能力仍处初级阶段,但互联网数据可使新物体识别提升60%-80%[48] 人才与研发管理 - 招聘偏好顶尖院校硕士/博士,需发表过机器人领域论文但无需工作经验,因技术迭代过快[52] - 自动驾驶与机器人技术本质相似,差异在于本体成熟度与安全容错标准[53] 产品验证标准 - 提出机器人性能评估方法论:观察跨品类操作(衣物品类切换)、动作流畅度(卡顿检测)、抗干扰能力(衣物团扔测试)[3][25][29]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-07 10:38
具身智能技术交流群成立 - 交流群聚焦VLA、VLN、遥操作、Diffusion Policy、强化学习、VLA+RL、sim2real、多模态大模型、仿真、运动控制、目标导航、建图定位、导航等技术方向 [1] - 社群通过微信小助理AIDriver005邀请加入 [2] - 入群需备注机构/学校+姓名+研究方向以加速审核 [3]
新势力提前批,跪了。。。
自动驾驶之心· 2025-08-06 19:25
自动驾驶行业研究 - 自动驾驶行业正处于快速发展阶段,涉及多个技术方向如BEV感知、VLA、端到端自动驾驶等[23][30][41] - 行业技术热点包括3DGS与NeRF场景重建、世界模型、视觉语言模型(VLM)等前沿领域[43][45][47] - 主流技术路线涵盖感知融合、规划控制、仿真测试等多个环节[23][30] 自动驾驶技术方向 - BEV感知已成为量产方案基石,包含纯视觉和多模态方案[54] - 端到端自动驾驶包含一段式、二段式及量产方案[41] - 3D目标检测技术路线包括激光点云、单目/双目及多模态方法[56] - 多传感器融合技术包含强融合、弱融合和后融合方案[58] 行业资源与生态 - 自动驾驶领域拥有近60+数据集,涵盖感知、预测、强化学习等方向[39] - 行业主流仿真平台包括Carla、Apollo、Autoware等[23][82] - 开源项目覆盖3D检测、BEV感知、大模型应用等40+方向[37] 企业布局与人才需求 - 头部企业包括蔚小理、地平线、华为、大疆等[23][33] - 企业面试注重候选人技术深度及非技术能力如沟通、学习能力等[4][5][6][7] - 行业建立内推机制,提供岗位对接服务[13][21] 技术发展趋势 - VLA(视觉语言动作)成为2025年重点方向[49] - 扩散模型应用于数据生成、场景重建等领域[52] - 在线高精地图是无图NOA方案核心[60] - 强化学习是VLM必备组件[63]
自动驾驶秋招&社招求职群成立了!
自动驾驶之心· 2025-08-05 07:33
自动驾驶技术趋势 - 自动驾驶技术栈呈现趋同态势,从过去分散的几十个方向逐渐向统一方案演进 [1] - 当前技术发展重点集中在one model、VLM(视觉语言模型)、VLA(视觉语言行动模型)等统一架构 [1] - 技术方案统一化背后反映出行业技术壁垒的显著提升 [1] 行业社群发展 - 行业社群定位为综合型平台,旨在汇集自动驾驶全产业链人才 [1] - 社群主要功能包括产业动态讨论、公司分析、产品研发交流、求职与职业发展等内容 [1] - 社群运营目标是通过资源共享帮助从业者成长,并建立行业人脉网络 [1]
开课倒计时!国内首个自动驾驶端到端项目级教程来啦~
自动驾驶之心· 2025-08-02 14:00
端到端自动驾驶行业现状 - 端到端自动驾驶已成为国内主流新能源主机厂技术竞争的核心领域 自去年E2E+VLM双系统架构成功以来 行业加速迭代 今年上半年VLA概念进一步推动量产方案升级 [2] - 行业人才需求旺盛 3-5年经验的VLM/VLA岗位年薪达百万 月薪高达80K 校招/社招转岗需求激增 [2] - 技术流派分化明显 包括以PLUTO为代表的二段式端到端 以UniAD为代表的一段式端到端 以及基于世界模型/扩散模型/VLA的新兴流派 [4] 技术流派分类与特点 - **二段式端到端**:通过模型实现自车规划 代表工作包括港科技PLUTO 浙大CarPlanner(CVPR'25) 中科院Plan-R1 相比一段式具有明确规划模块优势 [4][20] - **一段式端到端**: - 基于感知的方法:UniAD持续迭代 地平线VAD和CVPR'24的PARA-Drive推动性能提升 [21] - 基于世界模型的方法:AAAI'25的Drive-OccWorld和复旦OccLLaMA拓展场景生成与闭环仿真应用 [21] - 基于扩散模型的方法:DiffusionDrive/Diffusion Planner/吉大DiffE2E实现多模轨迹预测 适应环境不确定性 [21] - 基于VLA的方法:小米ORION 慕尼黑工大OpenDriveVLA 最新ReCogDrive代表大模型时代技术前沿 [21] 核心技术栈与学习路径 - 必备技术包括大语言模型 BEV感知 扩散模型理论 强化学习与RLHF DEEPSEEK优化技术等 构成未来两年求职高频考点 [6][22] - 学习难点在于多领域知识融合(多模态大模型/BEV/强化学习/视觉Transformer/扩散模型) 论文碎片化 缺乏实战闭环指导 [12][13] - 行业推出《端到端与VLA自动驾驶小班课》 采用Just-in-Time Learning理念 覆盖技术框架构建(第二章) 二段式(第三章) 一段式与VLA(第四章) 及RLHF微调实战(第五章) [14][15][16][21][23] 职业发展前景 - VLA/VLM大模型算法专家岗位3-5年经验硕士薪资达40-70K·15薪 博士应届生可达90-120K·16薪 实习生日薪220-400元 [11] - 职业路径包括算法岗技能深化 或转型自动驾驶大模型工程师 需掌握VLM/VLA多模态 模型量化部署等核心技术 [9][10] - 课程目标使学员达到1年经验算法工程师水平 可复现扩散模型/VLA框架 应用于实习/校招/社招场景 [28] 课程体系设计 - 第一章梳理端到端发展历史 对比模块化/一段式/二段式/VLA范式优缺点 分析学术与工业界动态 [19] - 第二章重点突破背景知识 包括Transformer扩展至视觉Transformer CLIP/LLAVA多模态基础 BEV感知实现3D检测/车道线/OCC等核心功能 [22] - 实战环节配置Diffusion Planner和小米ORION开源项目 结合RLHF微调大作业强化工程能力 [21][23] - 课程周期3个月 8月15日开课 分阶段解锁章节 需自备4090及以上GPU算力 要求具备Transformer/BEV/强化学习基础概念 [28]
自动驾驶之心技术交流群来啦!
自动驾驶之心· 2025-07-29 15:53
自动驾驶技术交流平台 - 公司是国内领先的自动驾驶技术交流平台 专注于自动驾驶产业 学术与职场成长等领域 [1] - 平台提供技术交流群 涵盖大模型 端到端 VLA BEV感知 多模态感知等前沿技术方向 [1] - 交流范围包括感知 规划控制 仿真测试 硬件配置等自动驾驶全产业链环节 [1] - 平台面向企业 高校研究人员开放 需提供公司/学校 昵称和研究方向信息加入 [1]
秋招正当时!自动驾驶之心求职交流群来啦~
自动驾驶之心· 2025-07-28 11:15
行业趋势与人才需求 - 自动驾驶技术栈呈现趋同态势 传统分散的算法工程师需求正被统一技术方案取代 如one model、VLM、VLA等方向 [1] - 行业技术壁垒显著提升 统一方案推动对高阶技术人才的需求 [1] - 从业者普遍存在转型需求 包括传统规控转向大模型、具身智能等新兴领域 [1] 社群运营与行业资源 - 社群定位为综合型行业平台 聚焦自动驾驶产业讨论 涵盖公司动态、产品研发及求职跳槽等核心议题 [1] - 社群目标为整合全行业人才资源 通过交流促进成员职业发展 [1] - 提供产业信息第一手渠道 强化行业人脉网络建设 [1] 人才流动特征 - 校招群体面临实习限制与算力资源短缺等结构性困境 [1] - 资深从业者主动寻求技术方向转型 反映行业技术迭代加速 [1]
传统感知和规控,打算转端到端VLA了...
自动驾驶之心· 2025-07-28 11:15
端到端VLA技术发展现状 - 端到端自动驾驶技术分为一段式与二段式两大方向 一段式包括基于感知(UniAD)、世界模型(OccWorld)、扩散模型(DiffusionDrive)等子领域 二段式以PLUTO为代表 [2] - 基于VLM的方法推动自动驾驶进入大模型时代 形成VLA(Vision-Language-Action)新方向 传统BEV感知、多传感器融合等技术已相对成熟 学术界研究热点明显转移 [2] - 工业界仍在优化传统感知规划方案 但学术界研究资源已集中投向大模型与VLA领域 该领域存在大量待探索的子方向 [2] VLA科研辅导课程设计 - 课程采用"2+1"多师制 主导师由名校教授/行业专家担任 配备科研班主任全程督导 包含12周在线科研+2周论文指导+10周维护期 [11][14] - 提供完整科研闭环支持:从经典/前沿论文分析(PLUTO/UniAD等)、baseline代码(VAD/DiffusionDrive等开源项目)、数据集(nuScenes/Waymo)到论文写作投稿全流程 [8][18] - 硬件要求最低配置4张NVIDIA 4090显卡 推荐8张 支持云服务器租赁方案 [12] 目标学员与课程产出 - 面向本硕博学生 需掌握Python/PyTorch基础 通过1v1面试考核 课程包含先修课强化深度学习与自动驾驶算法基础 [6][12] - 学员将获得:论文初稿(含导师定制idea)、结业证书、推荐信(优秀者) 以及系统的科研方法论与coding能力提升 [11][15] - 解决三大核心痛点:知识碎片化问题(建立VLA体系)、动手能力差问题(复现SOTA模型)、论文写作障碍(提供写作模板与投稿策略) [7] 技术资源支持 - 开源框架覆盖主流技术路线:基于模仿学习(UniAD/VAD)、扩散模型(DiffusionDrive/OccNet)、VLA(OpenDriveVLA/SimLingo)等 [18] - 必读论文包括Senna(视觉语言模型与自动驾驶桥接)、ORION(语言指令生成行动框架)等5篇顶会前沿研究 [18] - 采用腾讯会议直播+小鹅通回放形式 提供6个月答疑周期 严格学术诚信要求(剽窃零容忍) [14][20][21]