VLA大模型
搜索文档
业绩不佳!理想汽车回归创业模式 押注具身智能
犀牛财经· 2025-12-02 13:36
公司财务与业绩表现 - 2025年第三季度营收为274亿元,同比减少36.2% [2] - 2025年第三季度净亏损为6.24亿元,同比由盈转亏 [2] 公司战略与管理变革 - 自2025年第四季度起,公司将全面回归创业公司管理模式,告别运行3年的职业经理人治理体系 [2] - 管理层反思认为,在行业和技术巨变周期中,职业经理人模式削弱了企业的灵活性与创新能力,而英伟达、特斯拉等全球标杆仍保持创业公司的管理内核 [2] - 回归创业模式的核心原则包括:用深度对话取代机械汇报以提升决策效率、紧盯用户真实价值、追求资源极致效率而非盲目扩张、鼓励直接解决问题而非制造信息不对称 [2] 技术研发与投入 - 公司将未来筹码押在具身智能领域,计划2026年交付搭载自研M100芯片的AI系统,将产品重新定义为“具身智能”机器人 [3] - 第三季度研发投入达30亿元,全年预计投入120亿元 [3] - 在全年120亿元的研发投入中,人工智能领域投入将超过60亿元,覆盖芯片、基座模型、底层操作系统等关键环节 [3] - 公司已在VLA大模型上持续加大投入 [3] 产品规划与产能 - 2026年L系列将迎来大改款 [3] - 理想i6将通过“双供应商”模式解决电池供应瓶颈,预计2026年初月产能提升至2万台 [3]
理想汽车三季度财报发布,CEO李想决定回归创业公司模式
金融界· 2025-11-27 11:53
财务业绩表现 - 第三季度营收为274亿元人民币,但前三季度整体营收达835亿元人民币,持续领跑造车新势力[1][2] - 第三季度净利润为-6.244亿元人民币,出现亏损[1] - 第三季度车辆销售收入为258.671亿元人民币,同比大幅下降37.4%,环比下降10.4%[2] - 第三季度毛利率为16.3%,同比下降5.2个百分点,环比下降3.8个百分点;车辆毛利率为15.5%,同比下降5.4个百分点,环比下降3.9个百分点[2] - 第三季度经营亏损为1.772亿元人民币,经营利润率为-4.3%,同比下滑12.3个百分点,环比下滑7.0个百分点[2] - 第三季度经营活动所用现金净额为73.956亿元人民币,自由现金流为-89.122亿元人民币[2] 运营与交付 - 第三季度汽车交付量为93,211辆[1] - 公司计划在2026年对L系列产品进行大改款,整体战略目标重回"增程式产品领先地位"[4] 战略调整与研发投入 - 公司将全面回归创业公司模式,CEO承认职业经理人模式不符合当前不稳定的市场环境和公司实际情况[1] - 第三季度研发投入达到30亿元人民币,预计全年研发投入将达120亿元人民币[2] - 人工智能领域是研发重点,全年投入将超过60亿元人民币,芯片、基座模型、底层操作系统、核心控制器等领域将实现自研[2] - 公司在VLA大模型方面持续加大投入,战略规划是让车变成物理世界的具身智能产品,即具备"顶级司机"能力的汽车机器人[2] 市场观点 - 尽管三季度财报数据欠佳,公司仍获市场看好,中金发布研报维持其跑赢行业评级[4] - 中金考虑到MEGA召回损失及市场竞争加剧,下调公司2025/26年Non-GAAP盈利预测66%/30%至26/98亿元人民币[4]
给机器人装上“大脑”!腾讯高管详解具身智能软件战略逻辑
21世纪经济报道· 2025-11-27 11:43
腾讯具身智能战略定位 - 公司选择不制造机器人硬件本体 而是通过软硬件解耦模式提供全栈解决方案 意图做机器人的"大脑" [2] - 公司认为行业存在"软硬失衡"现象 大量企业能将硬件本体打磨出色但在软件和智能上投入不足 这成为其切入该领域的空间 [1][3] 行业背景与市场动态 - 具身智能赛道在半年内吸金近200亿元 硬件本体领域陷入"内卷" [2] - 智元和宇树两家估值头部公司进军二级市场 将投融资热潮拉至新高 [3] - 国外真机遥操作的数据采集成本高达每小时150美元 行业预计需积累200万小时的人类数据以实现突破 [5][6] 腾讯技术平台与解决方案 - 公司发布具身智能开放平台Tairos 这是国内首个以模块化方式提供多模态感知、规划及行动模型的软件平台 [4] - Tairos提供规划大模型、多模态感知模型、感知行动联合大模型三种模型 分别类比人的左脑、右脑和小脑 [4] - 单条VLA模型交互轨迹的数据量可高达数百兆 数据训练与存储能力直接决定模型迭代效率和产品落地速度 [4] 合作案例与成效 - 公司与灵初智能合作 提供HCC高性能计算集群和Turbo CFS高性能文件存储等一站式方案 将其VLA模型训练效率提升50%以上 存储成本降低70% [5] - 灵初智能使用Tairos平台进行跨业务平台数据采集和模型训练 提升了团队协作效率 [6] - 公司与越疆机器人合作 凭借实时音视频技术将机器人端到端时延压缩到100毫秒以内 [7] 行业面临的工程挑战 - 工业场景要求机器人响应速度极快 人眨眼一次为200到400毫秒 而合作案例中将时延压缩至100毫秒以内 [7] - 许多具身智能企业关注深度学习算法 但在IT工程优化上存在短板 公司通过优化帮助客户将GPU效率提升30%-50% [7]
年销量100万台:老实人何小鹏,搞AI比李想更激进
36氪· 2025-11-19 10:09
公司战略与愿景 - 公司提出到2030年机器人年销量突破100万台的量产预期,并判断机器人市场潜力将远超汽车本身[1] - 公司确立"AI驱动"战略,目标是从"软件定义汽车"升级到"AI定义汽车",并致力于成为"物理AI"领域的领先者[2][3] - 公司试图从产品公司转型为平台与生态公司,围绕第二代VLA大模型构建跨汽车、Robotaxi、机器人和飞行汽车的硬件生态系统[11][12] 产品与技术布局 - 公司布局AI和具身智能时间早于多数同行,2020年成立"鹏行智能"进军机器人领域,2021年宣布Robotaxi业务[2] - 公司展示三大技术底座:图灵AI芯片、AI鹰眼视觉方案、AI体系架构,并发布初代AI机器人IRON、飞行汽车等产品[2] - 公司第二代VLA大模型弱化语言模型转化,追求端到端的纯视觉路线,在20公里复杂小路测试中仅接管1次,优于特斯拉FSD的5次[10] - 全新一代IRON机器人拥有82个自由度,较第一代62个自由度多出20个,计划于2026年底实现规模化量产,预计成本约3万美元[13][15] 资本市场表现与行业对标 - 公司因Robotaxi、机器人等新业务利好消息,港股股价一度涨近6%,美股盘前涨幅超5%,随后美股大涨16%,市值攀升至249亿美元,超越理想和蔚来[1][5] - 公司被市场视为对标特斯拉,业务蓝图沿汽车、Robotaxi、机器人及飞行汽车路径拓展,并在飞行汽车理念上领先特斯拉一步[6][7][9] - 理想汽车在AI领域布局紧密,年研发投入超100亿人民币,近一半投向AI,但VLA远程召唤功能因技术问题暂停推送[4] 商业化挑战与竞争环境 - IRON机器人目标场景限于"导览+导购+导巡",明确不适用于工厂打螺丝或复杂家务场景,因灵巧手寿命距商业可用尚有距离[13] - 公司机器人面临激烈价格竞争,国内宇树科技Unitree R1起售价3.99万元人民币,松延动力小布米降至9998元人民币,而IRON成本预计达几十万人民币[15] - Robotaxi赛道已有百度萝卜快跑、小马智行、文远知行等企业深耕数年,小马智行拥有720辆无人车,但其负责人称需1万台车才能支撑商业模式[20] - VLA技术路线面临行业争议,华为车BU和博世智驾负责人均质疑其落地可行性,公司通过跳过"语言"环节实现VA端到端突破,称将自动驾驶升级换代"提前近两年"[18]
瞭望 | 何时摆脱遥控器
新华社· 2025-11-18 11:06
行业现状与公众认知 - 中国具身智能行业通过机器人表演如扭秧歌、跑马拉松、打拳击等技能展示快速发展,但当前多数高难度动作依赖人类工程师遥操或预设程序,实际自主能力有限 [1] - 行业存在“表面繁荣”现象,公众可能误判机器人成熟度,其距离“全自主”和“无所不能”仍有差距 [1] 大脑技术核心突破 - 实现自主智能需突破三大核心技术:VLA大模型(视觉-语言-行动模型)、端到端强化学习和世界模型,三者协同完成感知-决策-执行闭环 [3] - 银河通用发布的GroceryVLA模型使机器人能在零售场景自主理解指令(如“帮我拿点吃的”),无需遥操或预采数据即可规划路径并抓取物品 [3] - 清华大学团队采用端到端强化学习算法,在2025世界人形机器人运动会足球赛中实现机器人无遥操,直接将视觉信号映射为运动控制指令 [4] - 智元发布的世界模型GE通过模拟物理规律和环境动态,让机器人具备“脑内推演”能力,主动预判决策,并已完成“做三明治”等任务,其开放架构或成机器人界“安卓系统” [4] 迈向通用智能的核心挑战 - 触觉融入是重大挑战,需在VLA模型基础上增加力度、材质、温度等多维度触觉感知,但数据元素过多导致模型体量增大和难度提升,例如他山科技研发剥小龙虾任务需大量训练 [5] - 硬件层面需发展低功耗、高性能的专用芯片,并将大参数模型轻量化、小型化以保证任务性能 [5] - 算法泛化能力不足,当前最先进模型在3D情景问答任务中准确率为55%~60%,远低于人类的90.06% [6] - 群体智能(多机器人协同)是待攻克课题,但部分场景技术突破乐观估计需三五年 [6] 分级标准与场景落地 - 借鉴智能驾驶分级,行业推出如《人形机器人分类分级应用指南》等标准,建立四维五级评价体系(感知、决策、执行、协作),以加速技术对齐和产品落地 [7][8] - 封闭场景(如工厂车间)因环境可控,适合高等级机器人执行高精度装配等复杂任务;开放场景不确定性高,可用低等级机器人进行引导服务等,逐步积累经验 [8]
守擂“AI王冠” 小鹏拆掉的拐杖不止语言
21世纪经济报道· 2025-11-12 22:24
公司战略与技术路线演变 - 公司创始人早在2019年就提出,电动化基础上的智能化是电动车与传统汽车的核心区别,并将智能驾驶视为“汽车下半场核心战场”[2] - 公司十年间坚持“All in 智驾”战略,技术从XPILOT 1.0迭代至VLA大模型时代,使智能化成为其最鲜明标签[2] - 面对技术瓶颈,公司内部同时推进两条技术路线,在第二代VLA模型出现“涌现”特性后,决定暂停传统路线研发,全面聚焦以大模型为核心的VLA体系[4] - 为打造第二代VLA,公司投入20亿元进行研发,在经历长期摸索后最终淬炼出新的自动驾驶系统[4] - 新的VLA范式将同步应用于公司的Robotaxi、人形机器人IRON以及飞行汽车上,旨在打造“物理AI”帝国[6] 行业竞争格局与挑战 - 公司在智能驾驶领域的领先地位正遭遇挑战,理想汽车在ICCV顶会上展示了“世界模型+训练闭环”的最新智驾方案,其开源数据集3DRealCar被AI顶会认可[3] - 华为公开挑战公司及理想等车企的VLA路线,宣布其ADS 4.0已推出,乾崑智驾系统搭载量已突破100万辆,覆盖11家车企、28款车型[3] - 行业内对VLA大模型的主要挑战集中在两点:一是对多模态数据量、算力等需求庞大,数据采集标注难度大;二是语言转化环节可能导致信息丢失和延迟[16] - 华为智能汽车解决方案BU CEO靳玉志质疑VLA路线,比喻为“让语言学家去学开车”;宇树科技创始人王兴兴则称VLA模型是“相对傻瓜式的架构”[17] 第二代VLA技术架构与突破 - 公司意识到传统解决corner case的方式难以实现L4级自动驾驶,因此决定创新智驾系统架构,兵分两路探索标准VLA和创新VLA[17][18] - 第二代VLA的核心突破在于“拆掉语言的拐杖”,即去除语言(L)这个中间转译环节,让模型直接从视觉(V)学习驾驶动作(A),以减少信息损耗并实现更大规模数据训练[21][22][25] - 第二代VLA的训练分为三个阶段:多模态输入层(看、听和感知)、核心编码层(车怎么“想”)、闭环执行层(车怎么“做”)[23][24][26] - 在核心编码层,公司参考大语言模型的“猜词游戏”自监督训练方式,让模型从海量“路景→驾驶动作”数据中自行领悟物理世界规律,无需人工标注[24][25] - 在闭环执行层,模型通过潜在表征tokens进行世界模拟和强化学习,最终通过轨迹表征tokens精准执行驾驶动作[26] 数据、算力与基础设施 - 公司实现技术“涌现”的关键在于大规模数据训练,其使用的视频数据量从4月的2000万Clips,增长到6月的5000万Clips,再到11月科技日宣布的近1亿Clips,相当于驾驶35000年遇到的极限场景总和[19][20] - 公司强调其训练数据均为各种Corner case和长尾数据,并认为其数据收集能力领先得益于出色的人工智能基础设施(Infra)[20] - 公司的云端算力集群规模迅速扩张,从4月的万卡规模,发展到6月正向两万卡水平前进,再到11月科技日宣布使用阿里云上3万张卡的算力集群,并计划明年扩张至5万甚至10万张卡[28] - 公司针对自研图灵AI芯片重新开发了编译器和软件栈,并对算子进行优化,最终实现了12倍的推理效率提升[30] 技术“涌现”的具体表现与未来展望 - 通过大规模数据训练,公司的自动驾驶系统展现出“涌现”特性,包括能识别“路人招手自动停车”、观察前车轮胎角度判断变道意图、以及推出“小路NGP”功能等[20] - 公司认为“涌现”是量变引发质变的结果,当模型规模突破临界阈值后,会展现出在较小模型中完全不存在的复杂能力,其理念师承大语言模型ChatGPT[19] - 公司下一代VLA的目标是实现完全端到端的自动驾驶,其核心创新在于去除了语言中间层,从而能够处理更大规模参数量和数据训练量[21]
机智谈|众擎机器人赵同阳:不愿被定义为专注做“本体”的公司
贝壳财经· 2025-09-25 11:17
公司发展历程 - 创始人赵同阳创业初期专注于物联网和人形机器人 因行业未获资本认可而采取曲线救国策略[4] - 2020年小鹏汽车收购其创立的Dogotix机器人公司 成为最大股东 同年成立深圳鹏行智能[7] - 2023年离开小鹏汽车后创办众擎机器人 初始资金100多万元 其中100万用于注册公司[8][10] - 2025年2月23日机器人前空翻视频获得广泛关注 9月24日PM01机型亮相阿里云栖大会[5] - 在全球首届人形机器人运动会开幕式表演斧头舞 展现全身协调性与平衡性[5] 技术研发战略 - 公司定位硬件到软件全栈自研 强调去除机械感并展现"人"的特质[15] - 产品设计追求亲和力与拟人化 步态要求大步流星且潇洒[16] - 技术发展分两阶段:优先解决体能问题(灵活性/协调性/稳定性)再攻克智能问题[17][18] - 员工结构从2023年20%具身智能+80%运动控制算法 调整为2024年各占50%[20] - 算法架构优先于数据 认为90%操作依赖仿真数据 仅10%需现场采集[26][27] 资本运作与商业合作 - 2024年7月完成两轮融资:Pre-A++轮由小鹏系星航资本投资 A1轮由京东领投 宁德时代/银泰/华控基金等参投[11] - 9月12日与多伦科技签署战略协议 后者计划3年内采购不低于2000台人形机器人用于道路安全及车检领域[12] - 与京东合作集中在技术层面 采用JoyInside模型并进行内部调优[35] 产能建设与交付计划 - 新厂房约6000-7000平方米即将完工 专门解决生产制造与产能扩张问题[31] - 计划2024年10月开启大规模交付 年底达到月产500台制造能力[32] - 优先保障产品成熟度 在达标前主动收敛订单以维护口碑[32] 产品定位与市场策略 - 应用场景从科研教育向商业化服务场景拓展 终极目标是进入家庭[33][34] - 产品定价策略非价格战导向 SA01双足机器人售价4.2万元属于特定产品线定价[36][37] - 强调价值创造而非低价竞争 不同产品对应不同价格区间[37] 行业认知与发展观点 - 认为硬件本体尚未统一 末端执行器形态(五指灵巧手/夹爪)等存在分歧[28] - 行业需在传感器/自由度等领域形成共识后 才可能实现算法模型最优解[29] - 认可宇树科技等行业同行 强调互相尊重与学习促进整体行业发展[21]
揭秘小鹏自动驾驶「基座模型」和 「VLA大模型」
自动驾驶之心· 2025-09-18 07:33
小鹏自动驾驶技术方法论 - 提出自动驾驶软件3.0时代概念 即"AI模型即软件" 整个软件栈由端到端AI模型构成 基于以数据为中心的方法迭代[6] - 公司处于将整个自动驾驶软件栈构建为端到端AI模型驾驶汽车的阶段[8] - 基于规模定律(scaling law) 利用每天从数十万辆真实世界车辆收集的大量数据训练大型视觉模型作为"工厂"[8] 基础模型与部署架构 - 通过大数据构建基础模型 无需依赖三维空间先验知识和空间问题 类似世界模型概念[8] - 通过深度裁剪 量化 蒸馏将基础模型压缩为更小版本 部署到车端硬件[8] - 在云端构建VLA(视觉语言动作)基础模型 通过蒸馏剪枝和微调训练部署到车端[32] 内外循环训练机制 - 内循环为每个模型创建训练流 扩展数据后进行再训练和监督微调(SFT) 持续提升模型性能[9] - 外循环通过数十万辆车作为现实世界数据采样器 持续采样数据 根据返回数据持续训练(协同训练)[11] - 重复内外循环过程直至性能达到L4级自动驾驶 公司目标2026年实现L4级智驾车型量产[11][13] VLA模型训练方法 - 采用阿里Qwen作为原始VLM模型 使用公司整理的驾驶数据进行预训练和对齐[15] - 预训练数据分类包括静态交通元素 动态交通参与者 点对点轨迹数据 占用网络 交通信号灯和交通流信息[18] - 基于Chain-of-Thought思维链进行四步推理:提供基本驾驶知识 CoT SFT 强化学习CoT 考虑延迟的CoT SFT[22][23] 模型优化与安全强化 - 监督微调(SFT)建模为"指令遵循"任务 使用筛选的好数据专门训练导航 舒适刹车等专用指令[27] - 后期训练(post-training)采用强化学习解决长尾案例 建立奖励模型确保行动一致性[29] - 强化学习设计三重奖励机制:安全(避免碰撞) 效率(避免卡壳) 合规(遵守交通规则)[30] 行业竞争核心要素 - 底层算法和架构相通 行业差距取决于高质量数据 大算力以及算法产品化和工程落地能力[32] - VLA概念需要基础成熟的LLM作为底座 针对性训练交通驾驶行为[32] - 基础模型蒸馏上车思路可加速开发并快速部署到不同算力平台 但前提需要大算力和高质量数据[32]
智平方签下近5亿元人形机器人大单 机器人将大规模进入半导体显示行业
证券时报网· 2025-09-12 11:26
战略合作概述 - 深圳慧智物联与智平方达成半导体显示领域首个具身智能战略合作 部署超过1000台具身智能机器人 覆盖仓储物流 上下物料 零部件装配到质检测试等全流程 以PCB操作为首个示范场景[1] - 战略合作订单金额接近5亿元人民币 合作期限为未来三年[2] - 双方组建联合技术团队 基于惠科工业Know-how与产线数据共同开发新一代VLA模型及轻量化端侧推理模型[4] 合作方背景 - 深圳慧智物联为惠科股份全资子公司 惠科是全球领先半导体显示面板制造商 在大尺寸液晶面板领域位居世界前三[1][2] - 智平方成立于2023年 是具身通用智能机器人企业 原创研发全球首个全域全身具身大模型GOVLA 推出自研机器人AlphaBot系列[2] - 智平方在汽车制造 生物科技 公共服务等领域已有机器人应用落地 年产能超千台的自有工厂于2023年9月正式投产[2] 技术优势 - AlphaBot系列机器人由端到端VLA大模型驱动 实现感知 理解 决策与执行高度协同 能通过小样本快速学习新任务 在老任务中保持长期稳定[2] - 采用人形轮式机器人具备类人形态与双足轮式复合移动能力 适应为人设计的工厂环境 无需大规模基础设施改造[3] - 机器人可在狭窄通道灵活穿梭 精准操作为人设计的工装设备 实现从"人适应机器"到"机器适应人"的范式转变[3] - 导入AI端侧模型针对显示面板制造特殊场景深度优化 实现更低延迟实时决策与更高效能耗管理[3] 应用场景 - 在OLED真空贴合环节精准控制吸附力 避免材料褶皱 显著提升工艺一致性[3] - 在耗材管理与尾料回收等多场景发挥作用[3] - 能够基于同一个本体 同一款具身大模型在不同场景间快速切换任务[2] 融资情况 - 智平方2023年9月初完成深创投领投的A系列融资 深创投单家投资超亿元[4] - 半年时间内已完成7轮亿元级融资 包括国中资本领投Pre-A+++轮 普华资本领投A+轮融资[4] - 引入达晨财智 基石资本 南山战新投等投资机构[4]
5亿全球最高人形机器人订单!未来三年部署千台!具身智能机器人规模化落地再加速!
机器人大讲堂· 2025-09-11 20:57
战略合作概述 - 深圳慧智物联与智平方达成战略合作 计划未来三年在惠科全球生产基地部署超1000台具身智能机器人 覆盖仓储物流 上下物料 零部件装配及质检测试等全流程环节[1] - 此为具身智能机器人首次在全球半导体显示产业实现大规模应用布局[1] 订单规模与价值 - 按行业分析 高配款具身智能机器人单价可达40万至60万元 AlphaBot系列属高性能配置[5] - 以50万元/台的中位数测算 此次签约金额达5亿元 刷新机器人行业订单记录[5] 技术能力与产品迭代 - AlphaBot系列已迭代三个版本 最新款AlphaBot 2于2025年4月发布[3] - 机器人采用端到端VLA大模型驱动 具备感知 理解 决策与执行协同能力 可通过小样本快速学习新任务并保持长期稳定性[5] - 搭载原创研发的全域全身具身大模型GOVLA 采用模块化架构实现多模态信息融合 突破传统VLA模型仅控制机械臂的局限[10] - 2025年6月开源GOVLA版本FiS-VLA 在三方评测中综合性能超越国际标杆π0达30%[11] 应用场景与工业适配 - 首个示范场景为PCB操作 后续扩展至OLED真空贴合 耗材管理及尾料回收等复杂工序[5][7] - 轮式双臂类人形态适配人类设计的工厂环境 无需大规模改造基础设施 降低部署成本与集成难度[7] - 在真空贴合环节可精准控制吸附力以避免材料褶皱 提升工艺一致性[7] 合作模式与数据价值 - 双方组建联合技术团队 共同开发面向工业操作的VLA模型及轻量化端侧推理模型[11] - 机器人运行积累的一线场景数据将反哺大模型训练迭代 形成"越用越聪明"的循环效应[12] - 合作打造可理解屏幕制造工艺的"智能工人" 为面板工厂提供可复用的行业参考范例[12] 公司背景与产能 - 智平方成立于2023年 半年内连续完成7轮数亿级融资 2025年9月初完成A轮与A+轮融资[10] - 自有生产基地于2025年9月投产 规划年产能超1000台 覆盖核心零部件集成至整机测试全流程[14] - 惠科为全球半导体显示面板制造商 大尺寸液晶面板领域全球前三 产品行销100多个国家和地区[10] 行业意义与政策支持 - 合作被视为深圳南山区首个"揭榜挂帅"项目标志性成果 推动机器人技术从研发迈向应用[14] - 为半导体显示产业智能化提供新路径 推动制造业进入技术+落地场景的发展新阶段[14]