Workflow
VLA
icon
搜索文档
车展季·大咖说丨VLA计划9月“上车” 何小鹏谈与特斯拉市值差距:智能化能力尚未完全体现
每日经济新闻· 2025-08-28 23:18
全新小鹏P7上市与定位 - 全新小鹏P7推出4款Ultra版本车型,售价区间21.98万~30.18万元,全系无低配配置 [1] - 公司定位P7为图腾车型,目标重回20万元以上纯电轿车市场销量前三,与小米SU7、特斯拉Model 3等竞争 [1][2][5] - 上市7分钟内获得超1万辆大定订单,产能爬产节奏为历史最快,已有上千辆车发往全国 [5] 市场竞争与销量目标 - 20万~25万元纯电轿车市场1~7月累计销售34.1万辆,同比增长60%,其中小米SU7和特斯拉Model 3占据79%份额 [2] - 进入细分市场前三需月销达4200辆左右 [5] - 公司预计第四季度实现首次季度盈利,P7有望提升整体毛利率 [5] 技术投入与智能化布局 - 全新P7搭载3颗图灵AI芯片,其中2颗用于VLA全场景智能辅助驾驶系统,计划9月通过OTA上线 [6] - 公司今年在VLA领域投入接近50亿元,预计未来年研发费用达500亿元,其中300多亿元投向AI领域 [10] - 年底VLA更新后辅助驾驶能力预计比现有第一阵营强10倍以上 [7] 战略方向与行业观点 - 公司强化车型颜值与智驾能力,目标覆盖10万~200万元市场,明年后年为新产
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-28 16:36
具身智能技术社群成立 - 行业成立具身智能之心技术交流群 重点关注视觉语言导航 视觉语言动作 遥操作 扩散策略 强化学习 仿真到现实迁移 多模态大模型 运动控制 目标导航 建图定位等技术方向[1] - 行业社群面向机构及学校研究人员开放 需通过指定联系方式备注机构名称 个人姓名及研究方向完成入群申请[2][3]
自动驾驶之心业务合伙人招募来啦!模型部署/VLA/端到端方向~
自动驾驶之心· 2025-08-28 16:17
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM及3D目标检测领域专家[3] - 需要世界模型、闭环仿真3DGS、大模型部署与量化感知推理等专业人才[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 优先考虑拥有顶会论文发表记录的候选人[4] 合作激励机制 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设立丰厚的现金激励方案[5] - 开放创业项目合作与推荐机会[5]
华为靳玉志:我们不走VLA路线,WA才是自动驾驶终极方案
36氪· 2025-08-28 11:19
业务数据与市场表现 - 截至7月搭载乾崑智驾车辆达100万辆 激光雷达发货量超100万台 辅助驾驶累计里程达40亿公里[1] - 截至8月底共有28款合作车型上市 涵盖五个界及阿维塔、深蓝、岚图、猛士、传祺、方程豹、奥迪等品牌[1] - 车BU从2014年开始投资 历时超十年投入大量研发资源后实现当期盈利[1] 技术路线与产品战略 - 公司认为WA(世界行为模型)是自动驾驶终极方案 而非行业头部企业押注的VLA(感知语言行为模型)[1][10] - WA通过vision等信息直接控车 无需转换为语言token 输入源可包括视觉、声音或触觉[3][11] - 基于WA架构推出WEWA模型(云端世界引擎+世界行为模型) 将于ADS 4.0部署[4] - 坚持全栈模式 软硬件充分耦合 应用于乾崑智驾与鸿蒙座舱 反对解耦导致的体验下降与维护困难[7] - 鸿蒙座舱基于MoLA架构横向打通垂域 纵向打通应用生态、硬件和设备[6][7] 商业化与收费模式 - 辅助驾驶收费具备合理性 因需持续投入迭代、维护和OTA升级成本[5][15] - 指出免费辅助驾驶实质为支付方式转移 可能通过车价内含、限时免费或体验折扣实现[4][15] - 采用全生命周期管理 用户初期投入较高但长期体验更优 硬件可持续升级[16] 安全与技术配置 - 增加激光雷达等传感器主要为提升安全性 追求零伤亡事故[17] - 例如尊界S800增加侧向与后向固态激光雷达 使泊车系统精度达厘米级[17][18] - 配置增加由用户场景驱动 如识别坑洼、农田等复杂环境避免事故[18] 未来发展规划 - 2026年实现高速L3与城区L4试点 2027年开展无人物流试点与城区L4规模化商用 2028年目标无人物流规模化商用[9] - 智能座舱方向为打造"数字保姆"与AI Agent[9] - 认为最终实现L3/L4的企业数量有限 因依赖数据驱动与公共智能化平台[12]
具身智能之心B端和C端培训老师招募来啦~
具身智能之心· 2025-08-28 09:20
业务模式 - 公司开展B端和C端培训业务 B端主要面向企业和高校及研究院所 C端面向学生和求职人群[1][3] - 业务内容包括制定课程大纲和制作课程材料[3] 技术方向 - 培训内容涵盖VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等前沿技术领域[2] 人才要求 - 要求博士及以上学历(包含在读)[3] - 需具备2篇A会或一区以上期刊/会议发表或2年及以上工业界经验[3] 合作方式 - 通过微信平台进行业务咨询(微信号:oooops-life)[4] - 提供高于行业水平的酬金待遇[1]
华为高管:世界上根本没有免费的东西
半导体芯闻· 2025-08-27 18:40
华为车BU合作模式 - 华为车BU与车企合作模式包括部件、单智(智舱或智驾)、双智(智舱和智驾兼具)、全栈等多种模式,合作深度依次递增[2] - 全栈合作模式下,华为从IPD到IPMS全过程"陪跑"车企,覆盖产品定义、设计、制造到营销全环节[2] - 奥迪是华为智驾合作的第一个外资品牌,但未来还会有第二家、第三家外资品牌加入合作[6] 乾崑智驾技术与发展规划 - 乾崑智驾品牌命名源于华为logo不能贴在车上,需独立品牌标识[5] - 匹配一款车型的智驾系统最快需6~9个月[6] - 搭载乾崑智驾的车辆已达100万辆,且ADS 4即将大规模上车[2] - 公司未设定明确商业化目标,坚持长期投入,不追求当期盈利[7] 智驾技术路线与行业观点 - 华为不认同VLA(视觉-语言-动作)技术路线,认为WA(世界-动作)模型才是终极方案,通过视觉、声音、触觉等信息直接控制车辆[3][9] - 自动驾驶行业未来将进一步汇聚,因技术依赖数据驱动,需大量数据、算力和算法支撑,公共智能化平台将更重要[10] - 智驾本质是提供"数字司机",追求零事故零伤亡,差异化较低,溢价取决于用户感知价值[11] 辅助驾驶商业化观点 - 辅助驾驶功能不可能免费,研发投入需通过车价或未来收费覆盖,免费策略实为转移支付方式[3][12] - 功能包定价高可保障长期迭代和维护,提升用户体验周期;低价购买可能导致短期失效,实际成本更高[12]
华为高管:世界上根本没有免费的东西
第一财经资讯· 2025-08-27 16:51
华为车BU合作模式 - 华为车BU与车企合作模式包括部件、单智(智舱或智能辅助驾驶其一)、双智(智舱和智能辅助驾驶兼具)、全栈等多种模式,合作深度依次递增 [2] - 华为车BU从IPD到IPMS全过程"陪跑"车企,覆盖产品定义、设计、制造到最终营销的全流程 [2][9] - 华为车BU与车企深度全栈合作的原因在于部分车企(特别是央国企)制造能力强但前后端需加强,华为可提供IPD和终端经验赋能 [9] 乾崑智驾业务发展 - 乾崑智驾品牌命名因华为logo不能贴车,故独立命名便于车辆标识 [5] - 乾崑智驾匹配一款车型最快需6~9个月 [6] - 搭载乾崑智驾车辆已达100万辆,华为ADS 4即将大规模上车 [2] - 奥迪是华为智驾合作的首个外资品牌,未来将有更多外资品牌合作 [7] - 乾崑智驾无明确商业化目标,不追求当期盈利,坚持长期主义投入 [8] 智能驾驶技术路径 - 华为乾崑不采用VLA(视觉语言动作模型)技术路径,认为其通过语言转换控制车辆非终极方案 [3][10] - 华为更看重WA(World和Action)路径,通过视觉、声音、触觉等信息直接控制车辆,虽难度大但被视为终极方案 [3][10] - 自动驾驶行业玩家数量将持续减少,因技术路径依赖数据驱动(数据量、算力、算法),需公共智能化平台支撑 [11] 辅助驾驶商业化与竞争 - 辅助驾驶功能本质是提供"数字司机",追求零事故零伤亡,差异化程度低 [12] - 功能溢价取决于用户价值认知,而非技术差异化 [12] - 辅助驾驶功能不可能免费,免费策略实为成本转嫁(如含在车价或未来收费) [13] - 功能包定价高可保障长期迭代和维护,提升用户体验周期;低价可能导致短期失效,实际成本更高 [13]
人形机器人,缺一个杀手级共识
创业邦· 2025-08-26 11:37
公司技术路径与观点分野 - 星动纪元采用软硬一体、端到端VLA+强化学习+世界模型融合的垂直整合路线[8][30] - 宇树科技坚持硬件先行策略 通过自研关节电机和优化机械结构提升性能[10][31] - 双方对VLA可行性存在分歧:星动纪元认为端到端方法可行并投入研发ERA-42大模型[13][15] 宇树科技质疑其过度依赖数据且缺乏长期规划能力[16] 技术架构差异 - 星动纪元构建五层技术系统:硬件层(自研关节模组/灵巧手)[37] 实时控制层(混合传统控制与强化学习)[38] 感知与世界模型层(多模态融合)[38] VLA大模型决策层[39] 数据工程与训练平台层[40] - 宇树科技侧重硬件性能基础 关注模型决定数据与分布式算力工程实现[18][22] - 端到端架构优势:实现感知-决策-执行闭环 高频控制减少延迟[34][35] 商业化进展与策略 - 星动纪元已落地B端工业场景 产品达到70%人工效率 预计明年达90%[23] 累计交付超300台 服务全球市值前十科技公司中的9家[45] - 宇树科技采取多元化策略 现阶段聚焦表演与格斗比赛场景[26] 发布新品人形机器人R1及四足机器狗A2[27] - 星动纪元实现灵巧手量产 与VLA控制整合实现细粒度操作[44] 行业共识与发展阶段 - 共同认可人形机器人是AI终极载体 具身智能需感知-决策-执行闭环[50][52] - 短期(1-3年):工业场景小批量落地[56] - 中期(3-5年):迎来"ChatGPT时刻" 扩展至物流/医疗场景[56] - 长期(5-10年):进入家庭场景但需解决安全性问题[56] - 技术路径可能融合:VLA吸收世界模型预测能力 世界模型提升实时交互[56] 工程成果与行业影响 - 星动纪元L7以95.64cm成绩创人形机器人跳高世界纪录[4][43] - 开源Humanoid Gym框架与VPP大模型推动行业协作[21][45] - 行业需跨越软硬件协同瓶颈 硬件性能决定模型发挥上限[53][54]
VLA方向的论文还不知怎么下手?有的同学已经CCF-A了......
自动驾驶之心· 2025-08-22 20:00
理想VLA司机大模型技术突破 - 多模态输入提升语义理解能力,结合动态目标、静态元素、导航地图和空间理解实现综合决策 [1] - 思维链推理技术增强模型逻辑能力,轨迹规划更接近人类驾驶直觉 [1][3] - 采用RAG技术强化记忆能力,整合视觉语言模型与端到端自动驾驶框架 [3][5] 自动驾驶技术发展趋势 - VLA成为学术界和工业界核心方向,涵盖端到端学习、轨迹预测和强化学习等技术栈 [5] - 传统BEV感知和Occupancy技术研究热度下降,顶会论文方向转向大模型应用 [5] - 工业界持续优化传统感知方案,学术界聚焦VLA子领域创新 [5] VLA科研培训课程体系 - 课程周期为14周,包含先导课、传统端到端自动驾驶介绍(4周)、VLA端到端自动驾驶介绍(4周)和论文写作指导 [9][11][30] - 提供模块化VLA模型(Week8-9)、统一端到端模型(Week10-11)和推理增强模型(Week12)三大研究方向 [30][35] - 每周课时1-1.5小时,覆盖算法原理、代码实践和论文写作方法论 [30][34] 课程资源与支持 - 提供公开数据集包括nuScenes、Waymo和Argoverse,支持感知任务和VLA任务开发 [27] - Baseline代码库涵盖模仿学习(VAD、UniAD)、扩散模型(DiffusionDrive、OccNet)和VLA模型(OpenDriveVLA、Senna) [26] - 必读论文包括Senna(2410.22313)、SimLingo(2503.09594)和OpenDriveVLA(2503.23463)等5篇核心文献 [28][29] 学员成果与培养目标 - 产出论文初稿、结业证书和推荐信(根据优秀程度) [24][34] - 获得定制化研究idea(每位学员1个)、baseline代码调试能力和数据集应用经验 [20][34] - 掌握创新点挖掘、实验方法设计和投稿策略等全流程科研能力 [6][20] 技术实施要求 - 硬件最低要求4张4090显卡,推荐8张4090或云服务器租赁方案 [21] - 需掌握Python编程、PyTorch框架和Linux开发环境,具备深度学习基础 [21] - 每周课后需投入1-2小时自学,完成作业和论文阅读任务 [19][23]
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心· 2025-08-20 17:15
理想VLA司机大模型技术 - 理想VLA司机大模型具备四大核心能力:空间理解能力、思维能力、沟通与记忆能力以及行为能力,其中思维能力和沟通与记忆能力由语言模型提供,记忆能力采用RAG技术 [2] - VLA结合动态目标、静态元素、导航地图和空间理解等元素进行思维链输出,代表自动驾驶领域最前沿方向 [2] - VLA技术整合端到端、轨迹预测、视觉语言模型和强化学习等多个前沿技术栈,正在成为学术界和工业界关注焦点 [4] 自动驾驶技术发展趋势 - 传统BEV感知、车道线和Occupancy等技术在顶会中占比下降,工业界仍在优化传统方案但学术界已转向大模型与VLA方向 [4] - VLA技术站在VLM和端到端技术基础上,具备更类人的思考推理能力,是当前最前沿研究方向 [2] - 模块化VLA自动驾驶模型和统一的端到端VLA模型成为重点研究方向,涉及OpenDriveVLA、CoVLA-Agent等算法 [30] 科研培训课程内容 - 课程为期14周,包含先导课、课题概览、选题讨论、传统/VLA端到端自动驾驶技术讲解等模块 [8][10] - 提供经典论文分析、创新点挖掘、baseline代码实现、数据集使用等全流程科研支持 [13][19] - 学员可获得论文初稿、结业证书及推荐信,课程采用"2+1"多师制教学团队,包含名校教授和行业导师 [23] 技术资源支持 - 提供多个开源代码库包括基于模仿学习的VAD、基于扩散模型的DiffusionDrive以及VLA方向的OpenDriveVLA等 [26] - 使用nuScenes、Waymo、Argoverse等公开自动驾驶数据集,VLA任务可结合大语言模型生成数据 [27] - 重点论文包括《A Survey on Vision-Language-Action Models for Autonomous Driving》等5篇核心文献 [28][29] 学员培养目标 - 帮助学员系统掌握VLA理论体系,解决知识碎片化问题,形成完整科研方法论 [5] - 通过baseline代码实践和论文写作指导,使学员具备独立完成科研论文能力 [5][19] - 针对不同基础学员提供先修课程,要求掌握Python和PyTorch,建议配备4-8张4090显卡 [20]