Workflow
VLA
icon
搜索文档
VLA还是VTLA?这家企业用“超人类触觉”技术颠覆机器人未来!
具身智能之心· 2025-08-13 08:04
行业现状与技术瓶颈 - 具身机器人硬件和技术相比去年有较大提升,但感知大脑落后于硬件 [1] - 端到端VLA模型是行业关注重点,但视觉在物理交互中存在材质、硬度、摩擦力感知不足的问题 [1] - 触觉感知可弥补视觉缺陷,VTLA(视觉-触觉-语言-动作)被认为是下一代端到端模型范式 [1] - 触觉传感器行业存在分辨率低、实时性差、耐用性不足等技术瓶颈 [2][3] 公司技术与产品突破 - 戴盟机器人研发出基于单色光的高分辨率视触觉感知技术,通过光学变化生成触觉"图像" [4] - 核心产品DM-Tac W是全球首款多维高分辨率高频率视触觉传感器,每平方厘米覆盖4万个感知单元,远超人类手指的240个和传统传感器的数百倍 [4] - 推出多维触觉灵巧手DM-Hand1,集成毫米级超薄视触觉传感器,提升灵活性和感知能力 [6] - 产品通过500万次按压测试,获欧盟CE和美国FCC双认证,实现千片级规模量产 [9] 融资与商业化进展 - 完成亿元级天使++轮融资,三轮融资总额达数亿元,刷新全球触觉感知领域天使轮融资纪录 [3] - 融资资金将用于推动高分辨率视触觉感知技术和灵巧操作技术的产业化落地 [3] - 在世界机器人大会(WRC)展示核心产品,与京东联合展示真实应用场景 [8] 应用场景与行业影响 - 技术可应用于工业装配、医疗手术、家庭服务等需要高精度任务的场景 [1] - DM-Hand1能为工业制造、医疗康复等领域提供全新解决方案 [6] - 产品已从"样机时代"迈向"规模部署时代",推动触觉传感技术商业化应用 [9] - 公司致力于构建覆盖感知、操作、学习的完整产品生态,助力行业进入触觉智能新纪元 [10]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-11 14:01
具身智能技术交流群 - 社群聚焦研究方向包括视觉语言动作(VLA)、视觉语言导航(VLN)、遥操作、扩散策略(Diffusion Policy)、强化学习(RL)、VLA与强化学习结合(VLA+RL)、仿真到现实迁移(sim2real)、多模态大模型、运动控制、目标导航、建图定位等前沿技术领域 [1] - 入群需通过微信添加助理账号AIDriver005并提交机构/学校名称、个人姓名及研究方向信息以加速审核流程 [2][3]
对话千寻智能高阳:科学家创业不太「靠谱」,但创业就像一场游戏
36氪· 2025-08-08 17:28
具身智能行业趋势 - 具身智能领域正经历技术范式转变,ChatGPT的出现推动了学习范式的革新,使得具身智能成为必然发展方向[13] - 行业现阶段普遍采用Transformer做预训练,但工程化后期效果将出现显著分化[34] - 预计四年后将进入Robot GPT3.5阶段,机器人能完成70%的家庭场景任务[41] 千寻智能商业模式 - 坚持软硬一体化路径,定位为"具身智能领域的苹果"而非安卓[10][11] - 成立19个月累计融资超10亿人民币,资方包括华为哈勃、京东、宁德时代等[7] - 技术路线强调VLA(视觉语言动作)模型创新,独创快慢系统提升动作流畅度[37][46] 技术研发重点 - VLA模型采用95%互联网人类视频数据预训练,显著提升泛化能力[58][61] - 算法创新包括任务分解能力(one two VLA)和动作tokenizer优化[40][45] - 现阶段世界模型仅小规模应用,分层技术路径将被端到端方案淘汰[49][50] 行业竞争格局 - 头部机器人公司仍聚焦硬件和教育市场,忽视"大脑"开发[14] - 同质化Demo现象普遍,叠衣服等复杂任务成为技术能力试金石[56] - "伯克利四子"分别专注不同技术方向:运动控制、操作交互、3D感知等[63][65] 数据策略差异 - 反对现阶段大规模建设数采工厂,认为跨本体数据迁移效率低[53] - 互联网数据价值在于提供多样性,遥操作数据确保物理世界精确性[59] - 数据清洗和配比直接影响模型性能,当前泛化能力提升率达60-80%[61] 人才战略 - 偏好年轻科研人才(硕士/博士),要求具备前沿技术敏感度[71][72] - 算法岗更看重近期学术成果而非工作经验,因技术迭代速度过快[72] - 团队构建强调"少而精",需同时具备研究能力和工程化思维[70]
对话千寻智能高阳:科学家创业不太“靠谱”,但创业就像一场游戏
36氪· 2025-08-08 09:49
公司战略与定位 - 千寻智能采用软硬一体模式,定位为具身智能领域的"苹果"而非"安卓",强调技术初期必须整合硬件与软件能力[5][6] - 公司成立19个月累计融资超10亿人民币,资方包括华为哈勃、京东、宁德时代等头部机构[4] - 创始团队为学术与产业组合:高阳为AI科学家,韩峰涛为硬件专家,曾操盘数万台机器人量产[3][7] 技术路径与创新 - 核心VLA模型采用快慢系统技术,实现动作流畅性(如叠衣服甩动动作),4个月前完成开发[35][36] - 独创one two VLA架构,支持复杂任务自主分解(如"手机放抽屉"需3步骤)[31] - 95%训练数据来自互联网人类视频,提升跨品类泛化能力(如折叠机识别无需额外训练)[46][47] - 现阶段暂未大规模投入世界模型研发,认为强化学习环节成本过高[37] 行业竞争格局 - 判断市场难以容纳第二家软硬一体公司,头部企业倾向固守教育细分市场[9][11] - 反对大规模数采工厂模式,认为机器人形态未定型导致数据迁移价值打折[41][42] - 叠衣服成为行业标准测试场景,因其需应对千变万化的物体形态[44] 技术发展阶段 - 预测4年后进入Robot GPT3.5阶段,任务完成率达70%(如家庭场景取水)[32] - 当前VLA存在语言模块过载问题,需优化数据利用(人类视频预训练)与架构设计[33][34] - 泛化能力仍处初级阶段,但互联网数据可使新物体识别提升60%-80%[48] 人才与研发管理 - 招聘偏好顶尖院校硕士/博士,需发表过机器人领域论文但无需工作经验,因技术迭代过快[52] - 自动驾驶与机器人技术本质相似,差异在于本体成熟度与安全容错标准[53] 产品验证标准 - 提出机器人性能评估方法论:观察跨品类操作(衣物品类切换)、动作流畅度(卡顿检测)、抗干扰能力(衣物团扔测试)[3][25][29]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-07 10:38
具身智能技术交流群成立 - 交流群聚焦VLA、VLN、遥操作、Diffusion Policy、强化学习、VLA+RL、sim2real、多模态大模型、仿真、运动控制、目标导航、建图定位、导航等技术方向 [1] - 社群通过微信小助理AIDriver005邀请加入 [2] - 入群需备注机构/学校+姓名+研究方向以加速审核 [3]
新势力提前批,跪了。。。
自动驾驶之心· 2025-08-06 19:25
自动驾驶行业研究 - 自动驾驶行业正处于快速发展阶段,涉及多个技术方向如BEV感知、VLA、端到端自动驾驶等[23][30][41] - 行业技术热点包括3DGS与NeRF场景重建、世界模型、视觉语言模型(VLM)等前沿领域[43][45][47] - 主流技术路线涵盖感知融合、规划控制、仿真测试等多个环节[23][30] 自动驾驶技术方向 - BEV感知已成为量产方案基石,包含纯视觉和多模态方案[54] - 端到端自动驾驶包含一段式、二段式及量产方案[41] - 3D目标检测技术路线包括激光点云、单目/双目及多模态方法[56] - 多传感器融合技术包含强融合、弱融合和后融合方案[58] 行业资源与生态 - 自动驾驶领域拥有近60+数据集,涵盖感知、预测、强化学习等方向[39] - 行业主流仿真平台包括Carla、Apollo、Autoware等[23][82] - 开源项目覆盖3D检测、BEV感知、大模型应用等40+方向[37] 企业布局与人才需求 - 头部企业包括蔚小理、地平线、华为、大疆等[23][33] - 企业面试注重候选人技术深度及非技术能力如沟通、学习能力等[4][5][6][7] - 行业建立内推机制,提供岗位对接服务[13][21] 技术发展趋势 - VLA(视觉语言动作)成为2025年重点方向[49] - 扩散模型应用于数据生成、场景重建等领域[52] - 在线高精地图是无图NOA方案核心[60] - 强化学习是VLM必备组件[63]
自动驾驶秋招&社招求职群成立了!
自动驾驶之心· 2025-08-05 07:33
自动驾驶技术趋势 - 自动驾驶技术栈呈现趋同态势,从过去分散的几十个方向逐渐向统一方案演进 [1] - 当前技术发展重点集中在one model、VLM(视觉语言模型)、VLA(视觉语言行动模型)等统一架构 [1] - 技术方案统一化背后反映出行业技术壁垒的显著提升 [1] 行业社群发展 - 行业社群定位为综合型平台,旨在汇集自动驾驶全产业链人才 [1] - 社群主要功能包括产业动态讨论、公司分析、产品研发交流、求职与职业发展等内容 [1] - 社群运营目标是通过资源共享帮助从业者成长,并建立行业人脉网络 [1]
开课倒计时!国内首个自动驾驶端到端项目级教程来啦~
自动驾驶之心· 2025-08-02 14:00
端到端自动驾驶行业现状 - 端到端自动驾驶已成为国内主流新能源主机厂技术竞争的核心领域 自去年E2E+VLM双系统架构成功以来 行业加速迭代 今年上半年VLA概念进一步推动量产方案升级 [2] - 行业人才需求旺盛 3-5年经验的VLM/VLA岗位年薪达百万 月薪高达80K 校招/社招转岗需求激增 [2] - 技术流派分化明显 包括以PLUTO为代表的二段式端到端 以UniAD为代表的一段式端到端 以及基于世界模型/扩散模型/VLA的新兴流派 [4] 技术流派分类与特点 - **二段式端到端**:通过模型实现自车规划 代表工作包括港科技PLUTO 浙大CarPlanner(CVPR'25) 中科院Plan-R1 相比一段式具有明确规划模块优势 [4][20] - **一段式端到端**: - 基于感知的方法:UniAD持续迭代 地平线VAD和CVPR'24的PARA-Drive推动性能提升 [21] - 基于世界模型的方法:AAAI'25的Drive-OccWorld和复旦OccLLaMA拓展场景生成与闭环仿真应用 [21] - 基于扩散模型的方法:DiffusionDrive/Diffusion Planner/吉大DiffE2E实现多模轨迹预测 适应环境不确定性 [21] - 基于VLA的方法:小米ORION 慕尼黑工大OpenDriveVLA 最新ReCogDrive代表大模型时代技术前沿 [21] 核心技术栈与学习路径 - 必备技术包括大语言模型 BEV感知 扩散模型理论 强化学习与RLHF DEEPSEEK优化技术等 构成未来两年求职高频考点 [6][22] - 学习难点在于多领域知识融合(多模态大模型/BEV/强化学习/视觉Transformer/扩散模型) 论文碎片化 缺乏实战闭环指导 [12][13] - 行业推出《端到端与VLA自动驾驶小班课》 采用Just-in-Time Learning理念 覆盖技术框架构建(第二章) 二段式(第三章) 一段式与VLA(第四章) 及RLHF微调实战(第五章) [14][15][16][21][23] 职业发展前景 - VLA/VLM大模型算法专家岗位3-5年经验硕士薪资达40-70K·15薪 博士应届生可达90-120K·16薪 实习生日薪220-400元 [11] - 职业路径包括算法岗技能深化 或转型自动驾驶大模型工程师 需掌握VLM/VLA多模态 模型量化部署等核心技术 [9][10] - 课程目标使学员达到1年经验算法工程师水平 可复现扩散模型/VLA框架 应用于实习/校招/社招场景 [28] 课程体系设计 - 第一章梳理端到端发展历史 对比模块化/一段式/二段式/VLA范式优缺点 分析学术与工业界动态 [19] - 第二章重点突破背景知识 包括Transformer扩展至视觉Transformer CLIP/LLAVA多模态基础 BEV感知实现3D检测/车道线/OCC等核心功能 [22] - 实战环节配置Diffusion Planner和小米ORION开源项目 结合RLHF微调大作业强化工程能力 [21][23] - 课程周期3个月 8月15日开课 分阶段解锁章节 需自备4090及以上GPU算力 要求具备Transformer/BEV/强化学习基础概念 [28]
自动驾驶之心技术交流群来啦!
自动驾驶之心· 2025-07-29 15:53
自动驾驶技术交流平台 - 公司是国内领先的自动驾驶技术交流平台 专注于自动驾驶产业 学术与职场成长等领域 [1] - 平台提供技术交流群 涵盖大模型 端到端 VLA BEV感知 多模态感知等前沿技术方向 [1] - 交流范围包括感知 规划控制 仿真测试 硬件配置等自动驾驶全产业链环节 [1] - 平台面向企业 高校研究人员开放 需提供公司/学校 昵称和研究方向信息加入 [1]
秋招正当时!自动驾驶之心求职交流群来啦~
自动驾驶之心· 2025-07-28 11:15
行业趋势与人才需求 - 自动驾驶技术栈呈现趋同态势 传统分散的算法工程师需求正被统一技术方案取代 如one model、VLM、VLA等方向 [1] - 行业技术壁垒显著提升 统一方案推动对高阶技术人才的需求 [1] - 从业者普遍存在转型需求 包括传统规控转向大模型、具身智能等新兴领域 [1] 社群运营与行业资源 - 社群定位为综合型行业平台 聚焦自动驾驶产业讨论 涵盖公司动态、产品研发及求职跳槽等核心议题 [1] - 社群目标为整合全行业人才资源 通过交流促进成员职业发展 [1] - 提供产业信息第一手渠道 强化行业人脉网络建设 [1] 人才流动特征 - 校招群体面临实习限制与算力资源短缺等结构性困境 [1] - 资深从业者主动寻求技术方向转型 反映行业技术迭代加速 [1]