VLA - 财报，业绩电话会，研报，新闻 - Reportify

VLA

搜索文档

具身智能之心技术交流群成立了！

具身智能之心· 2025-08-11 14:01

具身智能技术交流群 - 社群聚焦研究方向包括视觉语言动作(VLA)、视觉语言导航(VLN)、遥操作、扩散策略(Diffusion Policy)、强化学习(RL)、VLA与强化学习结合(VLA+RL)、仿真到现实迁移(sim2real)、多模态大模型、运动控制、目标导航、建图定位等前沿技术领域 [1] - 入群需通过微信添加助理账号AIDriver005并提交机构/学校名称、个人姓名及研究方向信息以加速审核流程 [2][3]

Diffusion Policy

多模态大模型

Diffusion Policy

多模态大模型

对话千寻智能高阳：科学家创业不太「靠谱」，但创业就像一场游戏

36氪· 2025-08-08 17:28

具身智能行业趋势 - 具身智能领域正经历技术范式转变，ChatGPT的出现推动了学习范式的革新，使得具身智能成为必然发展方向[13] - 行业现阶段普遍采用Transformer做预训练，但工程化后期效果将出现显著分化[34] - 预计四年后将进入Robot GPT3.5阶段，机器人能完成70%的家庭场景任务[41] 千寻智能商业模式 - 坚持软硬一体化路径，定位为"具身智能领域的苹果"而非安卓[10][11] - 成立19个月累计融资超10亿人民币，资方包括华为哈勃、京东、宁德时代等[7] - 技术路线强调VLA（视觉语言动作）模型创新，独创快慢系统提升动作流畅度[37][46] 技术研发重点 - VLA模型采用95%互联网人类视频数据预训练，显著提升泛化能力[58][61] - 算法创新包括任务分解能力（one two VLA）和动作tokenizer优化[40][45] - 现阶段世界模型仅小规模应用，分层技术路径将被端到端方案淘汰[49][50] 行业竞争格局 - 头部机器人公司仍聚焦硬件和教育市场，忽视"大脑"开发[14] - 同质化Demo现象普遍，叠衣服等复杂任务成为技术能力试金石[56] - "伯克利四子"分别专注不同技术方向：运动控制、操作交互、3D感知等[63][65] 数据策略差异 - 反对现阶段大规模建设数采工厂，认为跨本体数据迁移效率低[53] - 互联网数据价值在于提供多样性，遥操作数据确保物理世界精确性[59] - 数据清洗和配比直接影响模型性能，当前泛化能力提升率达60-80%[61] 人才战略 - 偏好年轻科研人才（硕士/博士），要求具备前沿技术敏感度[71][72] - 算法岗更看重近期学术成果而非工作经验，因技术迭代速度过快[72] - 团队构建强调"少而精"，需同时具备研究能力和工程化思维[70]

千寻的VLA模型

千寻的VLA模型

对话千寻智能高阳：科学家创业不太“靠谱”，但创业就像一场游戏

36氪· 2025-08-08 09:49

公司战略与定位 - 千寻智能采用软硬一体模式，定位为具身智能领域的"苹果"而非"安卓"，强调技术初期必须整合硬件与软件能力[5][6] - 公司成立19个月累计融资超10亿人民币，资方包括华为哈勃、京东、宁德时代等头部机构[4] - 创始团队为学术与产业组合：高阳为AI科学家，韩峰涛为硬件专家，曾操盘数万台机器人量产[3][7] 技术路径与创新 - 核心VLA模型采用快慢系统技术，实现动作流畅性（如叠衣服甩动动作），4个月前完成开发[35][36] - 独创one two VLA架构，支持复杂任务自主分解（如"手机放抽屉"需3步骤）[31] - 95%训练数据来自互联网人类视频，提升跨品类泛化能力（如折叠机识别无需额外训练）[46][47] - 现阶段暂未大规模投入世界模型研发，认为强化学习环节成本过高[37] 行业竞争格局 - 判断市场难以容纳第二家软硬一体公司，头部企业倾向固守教育细分市场[9][11] - 反对大规模数采工厂模式，认为机器人形态未定型导致数据迁移价值打折[41][42] - 叠衣服成为行业标准测试场景，因其需应对千变万化的物体形态[44] 技术发展阶段 - 预测4年后进入Robot GPT3.5阶段，任务完成率达70%（如家庭场景取水）[32] - 当前VLA存在语言模块过载问题，需优化数据利用（人类视频预训练）与架构设计[33][34] - 泛化能力仍处初级阶段，但互联网数据可使新物体识别提升60%-80%[48] 人才与研发管理 - 招聘偏好顶尖院校硕士/博士，需发表过机器人领域论文但无需工作经验，因技术迭代过快[52] - 自动驾驶与机器人技术本质相似，差异在于本体成熟度与安全容错标准[53] 产品验证标准 - 提出机器人性能评估方法论：观察跨品类操作（衣物品类切换）、动作流畅度（卡顿检测）、抗干扰能力（衣物团扔测试）[3][25][29]

创业(US:VEMLY)

千寻智能的VLA模型

千寻智能的VLA模型

具身智能之心技术交流群成立了！

具身智能之心· 2025-08-07 10:38

具身智能技术交流群成立 - 交流群聚焦VLA、VLN、遥操作、Diffusion Policy、强化学习、VLA+RL、sim2real、多模态大模型、仿真、运动控制、目标导航、建图定位、导航等技术方向 [1] - 社群通过微信小助理AIDriver005邀请加入 [2] - 入群需备注机构/学校+姓名+研究方向以加速审核 [3]

Diffusion Policy

多模态大模型

Diffusion Policy

多模态大模型

新势力提前批，跪了。。。

自动驾驶之心· 2025-08-06 19:25

自动驾驶行业研究 - 自动驾驶行业正处于快速发展阶段，涉及多个技术方向如BEV感知、VLA、端到端自动驾驶等[23][30][41] - 行业技术热点包括3DGS与NeRF场景重建、世界模型、视觉语言模型(VLM)等前沿领域[43][45][47] - 主流技术路线涵盖感知融合、规划控制、仿真测试等多个环节[23][30] 自动驾驶技术方向 - BEV感知已成为量产方案基石，包含纯视觉和多模态方案[54] - 端到端自动驾驶包含一段式、二段式及量产方案[41] - 3D目标检测技术路线包括激光点云、单目/双目及多模态方法[56] - 多传感器融合技术包含强融合、弱融合和后融合方案[58] 行业资源与生态 - 自动驾驶领域拥有近60+数据集，涵盖感知、预测、强化学习等方向[39] - 行业主流仿真平台包括Carla、Apollo、Autoware等[23][82] - 开源项目覆盖3D检测、BEV感知、大模型应用等40+方向[37] 企业布局与人才需求 - 头部企业包括蔚小理、地平线、华为、大疆等[23][33] - 企业面试注重候选人技术深度及非技术能力如沟通、学习能力等[4][5][6][7] - 行业建立内推机制，提供岗位对接服务[13][21] 技术发展趋势 - VLA(视觉语言动作)成为2025年重点方向[49] - 扩散模型应用于数据生成、场景重建等领域[52] - 在线高精地图是无图NOA方案核心[60] - 强化学习是VLM必备组件[63]

Autonomous Driving

自动驾驶仿真学习路线

Autonomous Driving

自动驾驶仿真学习路线

自动驾驶秋招&社招求职群成立了！

自动驾驶之心· 2025-08-05 07:33

自动驾驶技术趋势 - 自动驾驶技术栈呈现趋同态势，从过去分散的几十个方向逐渐向统一方案演进 [1] - 当前技术发展重点集中在one model、VLM（视觉语言模型）、VLA（视觉语言行动模型）等统一架构 [1] - 技术方案统一化背后反映出行业技术壁垒的显著提升 [1] 行业社群发展 - 行业社群定位为综合型平台，旨在汇集自动驾驶全产业链人才 [1] - 社群主要功能包括产业动态讨论、公司分析、产品研发交流、求职与职业发展等内容 [1] - 社群运营目标是通过资源共享帮助从业者成长，并建立行业人脉网络 [1]

Autonomous Driving Technology

Autonomous Driving

Autonomous Driving Technology

Autonomous Driving

开课倒计时！国内首个自动驾驶端到端项目级教程来啦~

自动驾驶之心· 2025-08-02 14:00

端到端自动驾驶行业现状 - 端到端自动驾驶已成为国内主流新能源主机厂技术竞争的核心领域自去年E2E+VLM双系统架构成功以来行业加速迭代今年上半年VLA概念进一步推动量产方案升级 [2] - 行业人才需求旺盛 3-5年经验的VLM/VLA岗位年薪达百万月薪高达80K 校招/社招转岗需求激增 [2] - 技术流派分化明显包括以PLUTO为代表的二段式端到端以UniAD为代表的一段式端到端以及基于世界模型/扩散模型/VLA的新兴流派 [4] 技术流派分类与特点 - **二段式端到端**：通过模型实现自车规划代表工作包括港科技PLUTO 浙大CarPlanner(CVPR'25) 中科院Plan-R1 相比一段式具有明确规划模块优势 [4][20] - **一段式端到端**： - 基于感知的方法：UniAD持续迭代地平线VAD和CVPR'24的PARA-Drive推动性能提升 [21] - 基于世界模型的方法：AAAI'25的Drive-OccWorld和复旦OccLLaMA拓展场景生成与闭环仿真应用 [21] - 基于扩散模型的方法：DiffusionDrive/Diffusion Planner/吉大DiffE2E实现多模轨迹预测适应环境不确定性 [21] - 基于VLA的方法：小米ORION 慕尼黑工大OpenDriveVLA 最新ReCogDrive代表大模型时代技术前沿 [21] 核心技术栈与学习路径 - 必备技术包括大语言模型 BEV感知扩散模型理论强化学习与RLHF DEEPSEEK优化技术等构成未来两年求职高频考点 [6][22] - 学习难点在于多领域知识融合(多模态大模型/BEV/强化学习/视觉Transformer/扩散模型) 论文碎片化缺乏实战闭环指导 [12][13] - 行业推出《端到端与VLA自动驾驶小班课》采用Just-in-Time Learning理念覆盖技术框架构建(第二章) 二段式(第三章) 一段式与VLA(第四章) 及RLHF微调实战(第五章) [14][15][16][21][23] 职业发展前景 - VLA/VLM大模型算法专家岗位3-5年经验硕士薪资达40-70K·15薪博士应届生可达90-120K·16薪实习生日薪220-400元 [11] - 职业路径包括算法岗技能深化或转型自动驾驶大模型工程师需掌握VLM/VLA多模态模型量化部署等核心技术 [9][10] - 课程目标使学员达到1年经验算法工程师水平可复现扩散模型/VLA框架应用于实习/校招/社招场景 [28] 课程体系设计 - 第一章梳理端到端发展历史对比模块化/一段式/二段式/VLA范式优缺点分析学术与工业界动态 [19] - 第二章重点突破背景知识包括Transformer扩展至视觉Transformer CLIP/LLAVA多模态基础 BEV感知实现3D检测/车道线/OCC等核心功能 [22] - 实战环节配置Diffusion Planner和小米ORION开源项目结合RLHF微调大作业强化工程能力 [21][23] - 课程周期3个月 8月15日开课分阶段解锁章节需自备4090及以上GPU算力要求具备Transformer/BEV/强化学习基础概念 [28]

端到端自动驾驶

端到端与VLA自动驾驶小班课

端到端自动驾驶

端到端与VLA自动驾驶小班课

自动驾驶之心技术交流群来啦！

自动驾驶之心· 2025-07-29 15:53

自动驾驶技术交流平台 - 公司是国内领先的自动驾驶技术交流平台专注于自动驾驶产业学术与职场成长等领域 [1] - 平台提供技术交流群涵盖大模型端到端 VLA BEV感知多模态感知等前沿技术方向 [1] - 交流范围包括感知规划控制仿真测试硬件配置等自动驾驶全产业链环节 [1] - 平台面向企业高校研究人员开放需提供公司/学校昵称和研究方向信息加入 [1]

Autonomous Driving

Multi-Sensor Fusion

Point Cloud Processing

Autonomous Driving

Multi-Sensor Fusion

Point Cloud Processing

秋招正当时！自动驾驶之心求职交流群来啦~

自动驾驶之心· 2025-07-28 11:15

行业趋势与人才需求 - 自动驾驶技术栈呈现趋同态势传统分散的算法工程师需求正被统一技术方案取代如one model、VLM、VLA等方向 [1] - 行业技术壁垒显著提升统一方案推动对高阶技术人才的需求 [1] - 从业者普遍存在转型需求包括传统规控转向大模型、具身智能等新兴领域 [1] 社群运营与行业资源 - 社群定位为综合型行业平台聚焦自动驾驶产业讨论涵盖公司动态、产品研发及求职跳槽等核心议题 [1] - 社群目标为整合全行业人才资源通过交流促进成员职业发展 [1] - 提供产业信息第一手渠道强化行业人脉网络建设 [1] 人才流动特征 - 校招群体面临实习限制与算力资源短缺等结构性困境 [1] - 资深从业者主动寻求技术方向转型反映行业技术迭代加速 [1]

Autonomous Driving Technology

Autonomous Driving

Autonomous Driving Technology

Autonomous Driving

传统感知和规控，打算转端到端VLA了...

自动驾驶之心· 2025-07-28 11:15

端到端VLA技术发展现状 - 端到端自动驾驶技术分为一段式与二段式两大方向一段式包括基于感知(UniAD)、世界模型(OccWorld)、扩散模型(DiffusionDrive)等子领域二段式以PLUTO为代表 [2] - 基于VLM的方法推动自动驾驶进入大模型时代形成VLA(Vision-Language-Action)新方向传统BEV感知、多传感器融合等技术已相对成熟学术界研究热点明显转移 [2] - 工业界仍在优化传统感知规划方案但学术界研究资源已集中投向大模型与VLA领域该领域存在大量待探索的子方向 [2] VLA科研辅导课程设计 - 课程采用"2+1"多师制主导师由名校教授/行业专家担任配备科研班主任全程督导包含12周在线科研+2周论文指导+10周维护期 [11][14] - 提供完整科研闭环支持：从经典/前沿论文分析(PLUTO/UniAD等)、baseline代码(VAD/DiffusionDrive等开源项目)、数据集(nuScenes/Waymo)到论文写作投稿全流程 [8][18] - 硬件要求最低配置4张NVIDIA 4090显卡推荐8张支持云服务器租赁方案 [12] 目标学员与课程产出 - 面向本硕博学生需掌握Python/PyTorch基础通过1v1面试考核课程包含先修课强化深度学习与自动驾驶算法基础 [6][12] - 学员将获得：论文初稿(含导师定制idea)、结业证书、推荐信(优秀者) 以及系统的科研方法论与coding能力提升 [11][15] - 解决三大核心痛点：知识碎片化问题(建立VLA体系)、动手能力差问题(复现SOTA模型)、论文写作障碍(提供写作模板与投稿策略) [7] 技术资源支持 - 开源框架覆盖主流技术路线：基于模仿学习(UniAD/VAD)、扩散模型(DiffusionDrive/OccNet)、VLA(OpenDriveVLA/SimLingo)等 [18] - 必读论文包括Senna(视觉语言模型与自动驾驶桥接)、ORION(语言指令生成行动框架)等5篇顶会前沿研究 [18] - 采用腾讯会议直播+小鹅通回放形式提供6个月答疑周期严格学术诚信要求(剽窃零容忍) [14][20][21]

Autonomous Driving

VLA科研论文辅导课程

端到端自动驾驶技术

Autonomous Driving

VLA科研论文辅导课程

端到端自动驾驶技术