VLA - 财报，业绩电话会，研报，新闻 - Reportify

VLA

搜索文档

具身智能之心技术交流群成立了！

具身智能之心· 2025-08-28 16:36

具身智能技术社群成立 - 行业成立具身智能之心技术交流群重点关注视觉语言导航视觉语言动作遥操作扩散策略强化学习仿真到现实迁移多模态大模型运动控制目标导航建图定位等技术方向[1] - 行业社群面向机构及学校研究人员开放需通过指定联系方式备注机构名称个人姓名及研究方向完成入群申请[2][3]

多模态大模型

Diffusion Policy

多模态大模型

Diffusion Policy

自动驾驶之心业务合伙人招募来啦！模型部署/VLA/端到端方向~

自动驾驶之心· 2025-08-28 16:17

业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM及3D目标检测领域专家[3] - 需要世界模型、闭环仿真3DGS、大模型部署与量化感知推理等专业人才[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 优先考虑拥有顶会论文发表记录的候选人[4] 合作激励机制 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设立丰厚的现金激励方案[5] - 开放创业项目合作与推荐机会[5]

闭环仿真3DGS

大模型部署与量化感知推理

多模态大模型

闭环仿真3DGS

大模型部署与量化感知推理

多模态大模型

华为靳玉志：我们不走VLA路线，WA才是自动驾驶终极方案

36氪· 2025-08-28 11:19

业务数据与市场表现 - 截至7月搭载乾崑智驾车辆达100万辆激光雷达发货量超100万台辅助驾驶累计里程达40亿公里[1] - 截至8月底共有28款合作车型上市涵盖五个界及阿维塔、深蓝、岚图、猛士、传祺、方程豹、奥迪等品牌[1] - 车BU从2014年开始投资历时超十年投入大量研发资源后实现当期盈利[1] 技术路线与产品战略 - 公司认为WA（世界行为模型）是自动驾驶终极方案而非行业头部企业押注的VLA（感知语言行为模型）[1][10] - WA通过vision等信息直接控车无需转换为语言token 输入源可包括视觉、声音或触觉[3][11] - 基于WA架构推出WEWA模型（云端世界引擎+世界行为模型）将于ADS 4.0部署[4] - 坚持全栈模式软硬件充分耦合应用于乾崑智驾与鸿蒙座舱反对解耦导致的体验下降与维护困难[7] - 鸿蒙座舱基于MoLA架构横向打通垂域纵向打通应用生态、硬件和设备[6][7] 商业化与收费模式 - 辅助驾驶收费具备合理性因需持续投入迭代、维护和OTA升级成本[5][15] - 指出免费辅助驾驶实质为支付方式转移可能通过车价内含、限时免费或体验折扣实现[4][15] - 采用全生命周期管理用户初期投入较高但长期体验更优硬件可持续升级[16] 安全与技术配置 - 增加激光雷达等传感器主要为提升安全性追求零伤亡事故[17] - 例如尊界S800增加侧向与后向固态激光雷达使泊车系统精度达厘米级[17][18] - 配置增加由用户场景驱动如识别坑洼、农田等复杂环境避免事故[18] 未来发展规划 - 2026年实现高速L3与城区L4试点 2027年开展无人物流试点与城区L4规模化商用 2028年目标无人物流规模化商用[9] - 智能座舱方向为打造"数字保姆"与AI Agent[9] - 认为最终实现L3/L4的企业数量有限因依赖数据驱动与公共智能化平台[12]

华为乾崑智驾

华为乾崑智驾

具身智能之心B端和C端培训老师招募来啦~

具身智能之心· 2025-08-28 09:20

业务模式 - 公司开展B端和C端培训业务 B端主要面向企业和高校及研究院所 C端面向学生和求职人群[1][3] - 业务内容包括制定课程大纲和制作课程材料[3] 技术方向 - 培训内容涵盖VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型仿真运动控制目标导航等前沿技术领域[2] 人才要求 - 要求博士及以上学历（包含在读）[3] - 需具备2篇A会或一区以上期刊/会议发表或2年及以上工业界经验[3] 合作方式 - 通过微信平台进行业务咨询（微信号：oooops-life）[4] - 提供高于行业水平的酬金待遇[1]

Diffusion Policy

多模态大模型

Diffusion Policy

多模态大模型

华为高管：世界上根本没有免费的东西

半导体芯闻· 2025-08-27 18:40

华为车BU合作模式 - 华为车BU与车企合作模式包括部件、单智（智舱或智驾）、双智（智舱和智驾兼具）、全栈等多种模式，合作深度依次递增[2] - 全栈合作模式下，华为从IPD到IPMS全过程"陪跑"车企，覆盖产品定义、设计、制造到营销全环节[2] - 奥迪是华为智驾合作的第一个外资品牌，但未来还会有第二家、第三家外资品牌加入合作[6] 乾崑智驾技术与发展规划 - 乾崑智驾品牌命名源于华为logo不能贴在车上，需独立品牌标识[5] - 匹配一款车型的智驾系统最快需6~9个月[6] - 搭载乾崑智驾的车辆已达100万辆，且ADS 4即将大规模上车[2] - 公司未设定明确商业化目标，坚持长期投入，不追求当期盈利[7] 智驾技术路线与行业观点 - 华为不认同VLA（视觉-语言-动作）技术路线，认为WA（世界-动作）模型才是终极方案，通过视觉、声音、触觉等信息直接控制车辆[3][9] - 自动驾驶行业未来将进一步汇聚，因技术依赖数据驱动，需大量数据、算力和算法支撑，公共智能化平台将更重要[10] - 智驾本质是提供"数字司机"，追求零事故零伤亡，差异化较低，溢价取决于用户感知价值[11] 辅助驾驶商业化观点 - 辅助驾驶功能不可能免费，研发投入需通过车价或未来收费覆盖，免费策略实为转移支付方式[3][12] - 功能包定价高可保障长期迭代和维护，提升用户体验周期；低价购买可能导致短期失效，实际成本更高[12]

华为乾崑智驾

华为乾崑智驾

华为高管：世界上根本没有免费的东西

第一财经资讯· 2025-08-27 16:51

华为车BU合作模式 - 华为车BU与车企合作模式包括部件、单智（智舱或智能辅助驾驶其一）、双智（智舱和智能辅助驾驶兼具）、全栈等多种模式，合作深度依次递增 [2] - 华为车BU从IPD到IPMS全过程"陪跑"车企，覆盖产品定义、设计、制造到最终营销的全流程 [2][9] - 华为车BU与车企深度全栈合作的原因在于部分车企（特别是央国企）制造能力强但前后端需加强，华为可提供IPD和终端经验赋能 [9] 乾崑智驾业务发展 - 乾崑智驾品牌命名因华为logo不能贴车，故独立命名便于车辆标识 [5] - 乾崑智驾匹配一款车型最快需6~9个月 [6] - 搭载乾崑智驾车辆已达100万辆，华为ADS 4即将大规模上车 [2] - 奥迪是华为智驾合作的首个外资品牌，未来将有更多外资品牌合作 [7] - 乾崑智驾无明确商业化目标，不追求当期盈利，坚持长期主义投入 [8] 智能驾驶技术路径 - 华为乾崑不采用VLA（视觉语言动作模型）技术路径，认为其通过语言转换控制车辆非终极方案 [3][10] - 华为更看重WA（World和Action）路径，通过视觉、声音、触觉等信息直接控制车辆，虽难度大但被视为终极方案 [3][10] - 自动驾驶行业玩家数量将持续减少，因技术路径依赖数据驱动（数据量、算力、算法），需公共智能化平台支撑 [11] 辅助驾驶商业化与竞争 - 辅助驾驶功能本质是提供"数字司机"，追求零事故零伤亡，差异化程度低 [12] - 功能溢价取决于用户价值认知，而非技术差异化 [12] - 辅助驾驶功能不可能免费，免费策略实为成本转嫁（如含在车价或未来收费） [13] - 功能包定价高可保障长期迭代和维护，提升用户体验周期；低价可能导致短期失效，实际成本更高 [13]

智能辅助驾驶

智能辅助驾驶

华为乾崑智驾

智能辅助驾驶

智能辅助驾驶

华为乾崑智驾

人形机器人，缺一个杀手级共识

创业邦· 2025-08-26 11:37

公司技术路径与观点分野 - 星动纪元采用软硬一体、端到端VLA+强化学习+世界模型融合的垂直整合路线[8][30] - 宇树科技坚持硬件先行策略通过自研关节电机和优化机械结构提升性能[10][31] - 双方对VLA可行性存在分歧：星动纪元认为端到端方法可行并投入研发ERA-42大模型[13][15] 宇树科技质疑其过度依赖数据且缺乏长期规划能力[16] 技术架构差异 - 星动纪元构建五层技术系统：硬件层（自研关节模组/灵巧手）[37] 实时控制层（混合传统控制与强化学习）[38] 感知与世界模型层（多模态融合）[38] VLA大模型决策层[39] 数据工程与训练平台层[40] - 宇树科技侧重硬件性能基础关注模型决定数据与分布式算力工程实现[18][22] - 端到端架构优势：实现感知-决策-执行闭环高频控制减少延迟[34][35] 商业化进展与策略 - 星动纪元已落地B端工业场景产品达到70%人工效率预计明年达90%[23] 累计交付超300台服务全球市值前十科技公司中的9家[45] - 宇树科技采取多元化策略现阶段聚焦表演与格斗比赛场景[26] 发布新品人形机器人R1及四足机器狗A2[27] - 星动纪元实现灵巧手量产与VLA控制整合实现细粒度操作[44] 行业共识与发展阶段 - 共同认可人形机器人是AI终极载体具身智能需感知-决策-执行闭环[50][52] - 短期（1-3年）：工业场景小批量落地[56] - 中期（3-5年）：迎来"ChatGPT时刻" 扩展至物流/医疗场景[56] - 长期（5-10年）：进入家庭场景但需解决安全性问题[56] - 技术路径可能融合：VLA吸收世界模型预测能力世界模型提升实时交互[56] 工程成果与行业影响 - 星动纪元L7以95.64cm成绩创人形机器人跳高世界纪录[4][43] - 开源Humanoid Gym框架与VPP大模型推动行业协作[21][45] - 行业需跨越软硬件协同瓶颈硬件性能决定模型发挥上限[53][54]

人形机器人R1

四足机器狗A2

人形机器人R1

四足机器狗A2

VLA方向的论文还不知怎么下手？有的同学已经CCF-A了......

自动驾驶之心· 2025-08-22 20:00

理想VLA司机大模型技术突破 - 多模态输入提升语义理解能力，结合动态目标、静态元素、导航地图和空间理解实现综合决策 [1] - 思维链推理技术增强模型逻辑能力，轨迹规划更接近人类驾驶直觉 [1][3] - 采用RAG技术强化记忆能力，整合视觉语言模型与端到端自动驾驶框架 [3][5] 自动驾驶技术发展趋势 - VLA成为学术界和工业界核心方向，涵盖端到端学习、轨迹预测和强化学习等技术栈 [5] - 传统BEV感知和Occupancy技术研究热度下降，顶会论文方向转向大模型应用 [5] - 工业界持续优化传统感知方案，学术界聚焦VLA子领域创新 [5] VLA科研培训课程体系 - 课程周期为14周，包含先导课、传统端到端自动驾驶介绍（4周）、VLA端到端自动驾驶介绍（4周）和论文写作指导 [9][11][30] - 提供模块化VLA模型（Week8-9）、统一端到端模型（Week10-11）和推理增强模型（Week12）三大研究方向 [30][35] - 每周课时1-1.5小时，覆盖算法原理、代码实践和论文写作方法论 [30][34] 课程资源与支持 - 提供公开数据集包括nuScenes、Waymo和Argoverse，支持感知任务和VLA任务开发 [27] - Baseline代码库涵盖模仿学习（VAD、UniAD）、扩散模型（DiffusionDrive、OccNet）和VLA模型（OpenDriveVLA、Senna） [26] - 必读论文包括Senna（2410.22313）、SimLingo（2503.09594）和OpenDriveVLA（2503.23463）等5篇核心文献 [28][29] 学员成果与培养目标 - 产出论文初稿、结业证书和推荐信（根据优秀程度） [24][34] - 获得定制化研究idea（每位学员1个）、baseline代码调试能力和数据集应用经验 [20][34] - 掌握创新点挖掘、实验方法设计和投稿策略等全流程科研能力 [6][20] 技术实施要求 - 硬件最低要求4张4090显卡，推荐8张4090或云服务器租赁方案 [21] - 需掌握Python编程、PyTorch框架和Linux开发环境，具备深度学习基础 [21] - 每周课后需投入1-2小时自学，完成作业和论文阅读任务 [19][23]

端到端自动驾驶

视觉语言模型

理想VLA司机大模型

端到端自动驾驶

视觉语言模型

理想VLA司机大模型

传统的感知被嫌弃，VLA逐渐成为新秀...

自动驾驶之心· 2025-08-20 17:15

理想VLA司机大模型技术 - 理想VLA司机大模型具备四大核心能力：空间理解能力、思维能力、沟通与记忆能力以及行为能力，其中思维能力和沟通与记忆能力由语言模型提供，记忆能力采用RAG技术 [2] - VLA结合动态目标、静态元素、导航地图和空间理解等元素进行思维链输出，代表自动驾驶领域最前沿方向 [2] - VLA技术整合端到端、轨迹预测、视觉语言模型和强化学习等多个前沿技术栈，正在成为学术界和工业界关注焦点 [4] 自动驾驶技术发展趋势 - 传统BEV感知、车道线和Occupancy等技术在顶会中占比下降，工业界仍在优化传统方案但学术界已转向大模型与VLA方向 [4] - VLA技术站在VLM和端到端技术基础上，具备更类人的思考推理能力，是当前最前沿研究方向 [2] - 模块化VLA自动驾驶模型和统一的端到端VLA模型成为重点研究方向，涉及OpenDriveVLA、CoVLA-Agent等算法 [30] 科研培训课程内容 - 课程为期14周，包含先导课、课题概览、选题讨论、传统/VLA端到端自动驾驶技术讲解等模块 [8][10] - 提供经典论文分析、创新点挖掘、baseline代码实现、数据集使用等全流程科研支持 [13][19] - 学员可获得论文初稿、结业证书及推荐信，课程采用"2+1"多师制教学团队，包含名校教授和行业导师 [23] 技术资源支持 - 提供多个开源代码库包括基于模仿学习的VAD、基于扩散模型的DiffusionDrive以及VLA方向的OpenDriveVLA等 [26] - 使用nuScenes、Waymo、Argoverse等公开自动驾驶数据集，VLA任务可结合大语言模型生成数据 [27] - 重点论文包括《A Survey on Vision-Language-Action Models for Autonomous Driving》等5篇核心文献 [28][29] 学员培养目标 - 帮助学员系统掌握VLA理论体系，解决知识碎片化问题，形成完整科研方法论 [5] - 通过baseline代码实践和论文写作指导，使学员具备独立完成科研论文能力 [5][19] - 针对不同基础学员提供先修课程，要求掌握Python和PyTorch，建议配备4-8张4090显卡 [20]

理想VLA司机大模型

理想VLA司机大模型

端到端VLA的起点：聊聊大语言模型和CLIP~

自动驾驶之心· 2025-08-19 15:20

大语言模型技术发展 - 大语言模型近五年发展迅速，Transformer架构是核心技术基础 [3][5][7] - Transformer核心模块包括注意力机制和多头注意力，通过8个head增强编解码能力 [11][12] - 位置编码采用正弦/余弦函数实现顺序表征，公式为PE(pos,2i)=sin(pos/10000^(2i/d_model)) [9][13] - BPE分词算法通过合并高频字符逐步构建词表，流程包括统计频次、迭代合并等步骤 [8][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的典型代表，实现跨模态特征匹配 [18] - 多模态技术栈涵盖BEV感知、扩散模型、强化学习等方向 [48] - VLA（Vision-Language-Action）成为自动驾驶前沿方向，整合VLM、BEV和强化学习技术 [50] 端到端自动驾驶课程体系课程结构 - 第一章概述端到端发展史，对比模块化与端到端范式差异 [40] - 第二章重点讲解大语言模型、BEV感知、扩散模型等关键技术 [41][48] - 第三章分析二段式端到端方案，涵盖PLUTO、CarPlanner等经典算法 [42] - 第四章深入一段式端到端，包括UniAD、DiffusionDrive等前沿工作 [43][47] - 第五章设置RLHF微调实战，强化VLA技术迁移能力 [52] 技术亮点 - 覆盖CVPR'25最新成果CarPlanner和AAAI'25世界模型Drive-OccWorld [42][45] - 实战项目包括Diffusion Planner和ORION开源框架复现 [47][50] - 课程目标使学员达到1年经验算法工程师水平，掌握40-70K岗位核心技术 [31][57] 行业应用与人才需求 - VLA算法专家岗位薪资达40-70K-15薪，需求集中在3-5年经验硕士 [31] - 技术栈要求涵盖多模态大模型、BEV感知、模型量化部署等方向 [34][48] - 主机厂加速布局端到端量产方案，推动世界模型、扩散模型等技术落地 [26][50]

大语言模型

端到端自动驾驶

大语言模型

端到端自动驾驶