端到端模型
搜索文档
黄仁勋随特朗普访英:26亿美元下注英国AI,智驾公司Wayve或获5亿美元加码
搜狐财经· 2025-09-20 17:57
投资与合作 - 英伟达宣布在英国投资20亿英镑(约合26亿美元),以催化英国的人工智能初创企业生态系统 [1] - Wayve有望获得英伟达5亿美元的投资,双方已签署投资意向书 [1] - 英伟达曾于2024年5月参与Wayve的10.5亿美元C轮融资,其他投资者包括软银和微软 [2] 公司技术与产品 - Wayve的下一代Gen 3硬件平台将完全基于英伟达的DRIVE AGX Thor车载计算平台打造 [1] - 公司采用具身人工智能和端到端深度学习模型的技术路线,是世界上首家在公共道路上部署端到端深度学习驾驶系统的公司 [3][8] - 其AV2.0架构旨在实现通用化、可全球扩展的自动驾驶,区别于传统模块化的AV1.0系统 [8] - 为解决端到端模型的可解释性问题,公司开发了LINGO-2模型,这是一个闭环视觉-语言-动作驾驶模型,能解释其行为原因并接受自然语言指导 [10][12] - 为解决数据需求挑战,公司开发了视频生成世界模型GAIA-2,用于生成逼真且可控的驾驶场景视频以训练模型 [14][16] - 其人工智能驾驶系统不依赖高精地图,并具有硬件无关特性,能够兼容不同类型的传感器和车辆平台,已在美国、德国和日本等地进行测试验证 [19][20] 公司背景与团队 - Wayve于2017年由亚历克斯·肯德尔和阿玛尔·沙阿在英国剑桥大学附近创立 [3] - 联合创始人兼首席执行官亚历克斯·肯德尔拥有剑桥大学深度学习与计算机视觉方向的博士学位,其研究是公司创立的基础 [21] - 公司高管团队经验丰富,包括来自Mobileye、Waymo以及曾担任高盛、瑞银顶级汽车行业分析师的专业人士 [25]
机器人跨越“三重门”——具身智能创新者亲历的现实与趋势
新华网· 2025-09-15 16:08
行业现状与趋势 - 人形机器人赛道呈现"冰与火之歌"局面:一方面机器人展示接近人类的肢体能力并进入日常生活场景 另一方面行业融资超百亿但实际订单不足百台[1] - 2025年被视为"人形机器人量产元年" 投资机构从观望转向竞逐 超20家机器人产业链企业走向IPO[1] - 全球首个城市级常态化运营的人形机器人示范区于2025年8月落地北京 由机器人经营的无人超市"银河太空舱"开张[5] 技术发展路径 - 行业形成两大技术流派:以宇树科技为代表的"运动派"专注于腿足控制和全身运动能力展示 以银河通用为代表的"干活派"专注于实际场景作业能力[11] - "干活派"存在两种技术路径:视觉算法+轨迹生成 与端到端VLA(视觉-运动-动作一体化生成)模型[11] - 当前技术瓶颈主要在于数据获取而非硬件或模型 高质量数据的丰富性和准确性决定机器人泛化性和鲁棒性[7] - 数据策略采用99%合成数据+1%真实数据的组合方式:合成数据解决从0到1的问题 真实遥操数据解决从1到100的问题 视频数据处理从100到10000的问题[15] 商业化落地挑战 - 演示视频(demo)与实际产品存在显著差距:demo对可靠性要求低且多在受控环境中运行 实际产品需要具备24小时工作的高可靠性和环境泛化能力[12] - 行业面临"鸡生蛋"困境:没有订单就无力迭代技术 技术不成熟就无法获得订单[41] - 未来3年是行业"生死分水岭" 能找到可击穿场景的企业将留在牌桌 未来1年需实现千台到万台的批量交付才能验证行业价值[18] - 人形机器人单台成本超10万元 加上维修成本更高 而工人年薪仅5-8万元 成本效益比亟待优化[46] 应用场景选择 - 工业场景被视为短期落地重点 银河通用已在流水线搬运、分拣等环节实现规模化应用 并在北京海淀落地10多家智慧药房 计划年内在全国开设100家[12] - 加速进化公司战略性放弃工业场景 因现有专机(机械臂、AGV)已实现高度自动化 且工业数据属于固定不变的"死数据"[47] - 足球赛事成为机器人能力测试场 加速进化帮助中国队在2025RoboCup巴西机器人足球世界杯成人组首次夺冠 打破欧美国家28年垄断[39] - 家庭场景被多家企业视为终极目标 虽然场景更复杂多变 但数据是"活"的且价值空间更大[47] 核心技术突破 - 银河通用2025年初以10亿级合成大数据训练端到端VLA大模型 6月推出端到端导航大模型 使机器人具备"听-看-懂-走"闭环运动能力[13] - 自变量公司开发通用具身大模型WALL-A 实现"一脑多用"的端到端技术 使机器人具备零样本泛化能力[23] - 端到端模型相比传统分层模型优势明显:能通过实时感知决策闭环调整策略 处理动态变化和陌生状况时只需少量样本即可迁移学习[30] - 操作系统被视为真正护城河 当越来越多开发者基于特定操作系统开发 机器人的软硬件能力才能快速迭代和迁移[44] 能力迁移与进化 - 足球场景训练的能力可向其他场景迁移:运动控制层面的动态平衡、敏捷移动能力可迁移到家庭与工业场景 环境感知层面的识别预测能力可迁移到分拣、避障任务[45] - 机器人通用能力分为运动、导航、交互、操作四个维度 操作能力是进厂入户的最关键能力 这也是自动驾驶模型无法直接迁移到机器人的主要原因[36] - 对于"成年"前的机器人 运动能力突破可为数据收集与算法训练提供支撑 推动感知、决策、规划能力提升[41]
π0.5开源前,国内也开源了一个强大的端到端统一基础模型!具备强泛化和长程操作
具身智能之心· 2025-09-11 10:07
开源模型技术突破 - Physical Intelligence开源π0.5模型 通过知识隔离训练实现更强的开放世界泛化能力[1] - 自变量机器人开源端到端具身智能基础模型WALL-OSS 包含完整预训练模型权重、训练代码和部署文档[3] - WALL-OSS采用紧耦合架构与多策略训练 在单一框架内整合指令推理、子目标分解与细粒度动作合成[8] 技术架构创新 - 采用QwenVL2.5-3B作为主干网络 接收视觉与文本输入并生成多模态输出[12] - 训练采用"先离散、后连续、再联合"三阶段pipeline 仅需RTX 4090级别算力即可完成全流程[14] - 通过流匹配方法实现离散到连续动作预测的转换 采用共享注意力+专家分流架构[16] - 实现统一跨层级思维链 覆盖从语义到感觉运动的完整推理链条[18] 性能表现优势 - 在具身视觉问答基准测试中 WALL-OSS在物体定位任务达到91.6%准确率 较基础模型46.1%提升显著[27][28] - 场景描述任务准确率87.6% 较基础模型57.7%提升近30个百分点[27][28] - 在抓取放置任务中 对已知物体指令达到85%平均任务进度 对新物体指令保持61%性能[29] - 在数据稀缺任务中(500条演示) 预训练模型保持90%以上成功率 未预训练模型降至20%以下[31] - 在积木拼写任务中 字母识别准确率达87% 数字识别达95% 显著高于动作专用模型的26%和80%[34] 数据集与训练 - 构建数万小时具身中心多源数据集 包含自收集机器人数据、开源动作数据和多模态视觉问答数据[20] - 数据集涵盖短程操作任务和长程推理任务 需任务分解、进度跟踪和实时决策能力[22] - 采用多模型pipeline进行细粒度步骤标注 辅以人工抽查和质量控制[23] - 按场景/物体/任务/形态分层抽样 对长程任务和稀缺技能采用温度控制重采样策略[24] 行业影响与公司发展 - 端到端系统被业内公认为最终形态 国内外具身团队都在深入研究突破[3] - 自变量机器人成立于2023年12月 聚焦自研通用具身智能大模型[39] - 公司已完成近10亿元A+轮融资 资金将投入全自研通用具身智能基础模型的持续训练[39] - 行业形成本体和大脑两条创业路线 硬件看宇树 大脑看自变量[39]
拆解华为乾崑智驾ADS 4:世界模型乱战,尖子生如何闯关?
21世纪经济报道· 2025-08-29 21:53
智能驾驶技术演进 - 行业从依赖算力和规则驱动转向端到端模型 但传统端到端模型仅模仿人类驾驶行为 无法真正理解物理规律 [6] - 世界模型成为自动驾驶新方向 通过多模态数据融合和物理世界推演 实现预判与决策 而非单纯反应 [2][8] - 华为乾崑ADS 4系统于2025年4月发布 9月将量产上车 标志世界模型进入落地阶段 [3][4][9] 华为乾崑技术架构与优势 - 自研WEWA架构包含云端世界引擎(WE)和车端世界行为模型(WA) WE专注生成极端场景 WA实现实时推理与拟人化决策 [3][12][13] - 云端WE通过自研生成式模型创造高价值Corner Case(如突然横穿的行人) 并通过奖惩函数训练模型安全合规行为 [13][14] - 车端WA直接通过多模态信号(视觉、声音等)控车 专为驾驶优化 避免语言模型缺乏空间感知的缺陷 [10][14] - 智驾系统搭载量突破100万辆 覆盖11家车企28款车型 新车型匹配周期缩短至6-9个月 [15] 市场竞争与行业动态 - 2024年华为乾崑在国内三方前装辅助驾驶域控全栈软硬一体方案市场中占据79.0%份额 稳居第一 [9] - 特斯拉在CVPR2023展示世界模型研究 蔚来2024年发布自研NWM模型 可在100毫秒内推演216种场景 [11] - 小鹏采用云端大模型(LLM为骨干)与车端小模型协同 通过VLA路径将视觉信息转换为语言token再生成控制动作 [12] 技术路径对比 - 端到端模型依赖大规模真实数据 但可能模仿人类驾驶缺陷(如90%保守行为导致系统犹豫) 泛化能力存在天花板 [6][7] - VLA路径引入语言模型 擅长语义理解但缺乏三维空间精确感知 华为明确拒绝此路径 [10] - 世界模型通过融合深度学习与思维链推理 自主生成行为链 突破长逻辑局限 提升复杂环境判断能力 [8]
拆解华为乾崑智驾ADS 4:世界模型乱战,“尖子生”如何闯关?
21世纪经济报道· 2025-08-29 18:42
智能驾驶技术演进 - 行业从依赖算力、规则驱动转向端到端模型 但仍面临根本挑战 端到端模型本质是模仿人类驾驶行为 而非真正理解物理世界 导致系统可能继承人类驾驶缺陷如犹豫和保守 [6] - 2024年行业在特斯拉技术路线催化下集体驶向端到端 但随后意识到其局限性 包括无法超越训练数据品质与分布 泛化能力存在天花板 [6][7][10] - 2025年行业开始探索新路径 包括彻底抛弃模块化的端到端方案 引入视觉语言模型VLA/VLM 或加入世界模型以理解物理世界运行机制 [10] 世界模型核心价值 - 世界模型通过超大规模融合多模态数据 包括数百万公里真实路况、仿真场景与交通规则 构建动态可推理的数字化交通世界 使车辆能预测和推演而不仅是感知当下 [2] - 世界模型解决端到端模型只会模仿不会思考的瓶颈 让AI理解驾驶环境、预测未来变化并自主生成合理行为链 融合深度学习与思维链CoT推理框架 [11] - 世界模型突破训练数据稀缺和质量不均问题 打开模型能力天花板 提升复杂环境中的判断能力 [11][12] 华为乾崑技术布局 - 华为乾崑2025年4月发布基于世界模型的ADS 4系统 依托自研WEWA架构 包含云端世界引擎WE负责海量数据训练与场景生成 车端世界行为模型WA实现实时环境推理与拟人化决策 [4][19] - 华为乾崑智驾ADS 4系统将于2025年9月陆续上车 标志高阶辅助驾驶进入新阶段 系统开始理解物理规律本身而非仅学习人类驾驶行为 [4] - 华为乾崑在国内三方前装辅助驾驶域控全栈软硬一体方案市场中以79.0%的绝对市场份额稳居第一 [12] 华为技术路径差异化 - 华为乾崑拒绝VLA视觉语言模型路径 认为其缺乏对三维空间的精确感知与运动推演能力 选择专为智能驾驶而生的世界行为模型WA 直接通过多模态信息输入控车 [12][14][22] - 华为云端世界引擎WE专注生成极端场景和Corner Case 如突然横穿的行人、暴雨中的滚动障碍物 并通过严格算法校验确保合成场景符合真实世界物理 [21] - 华为车端世界行为模型WA从零开始训练 专为安全行驶设计 融合多模态感知信号实现实时推理 不依赖语言中介 更专注空间推理 [19][22][23] 行业竞争格局 - 除华为外 蔚来2024年发布中国首个智能驾驶世界模型NWM 具备多模态自回归特性 能在100毫秒内推演出216种可能场景/轨迹 [18] - 小鹏采用云端大模型和车端小模型并进路径 云端大模型以LLM为骨干 通过VLA路径将视觉信息转换为语言token进行训练 [19] - 特斯拉在2023年CVPR上展示世界模型研究动态 推崇扩散模型diffusion 但研发尚处于初期 [17] 华为规模化优势 - 华为乾崑智驾系统搭载量已突破100万辆 覆盖11家车企、28款车型 包括东风、长安、广汽、北汽、比亚迪、赛力斯等品牌 [24] - 百万量级智能车队实时反馈复杂场景 数据持续流向云端 通过世界引擎WE筛选和增强 生成有效训练场景 推动模型迭代 形成感知-云端训练-车端进化的自主进化闭环 [25] - 华为乾崑智驾方案匹配一款车型最快仅需6至9个月 加速规模化落地 为L3及以上级别自动驾驶做准备 [24][25]
VLA:何时大规模落地
中国汽车报网· 2025-08-13 09:33
VLA技术发展现状 - 理想i8成为首款搭载VLA司机大模型的车型,主打"像家人一样懂你"的辅助驾驶体验 [2] - 博世认为VLA短期难以落地,坚持投入一段式端到端技术,因多模态对齐和数据训练困难 [2] - 行业对VLA落地时间存在分歧,乐观预测2025年为元年,保守估计需3-5年技术成熟 [2][12][13] 技术路线对比 - 模块化端到端保留部分人工设计接口,存在感知与决策衔接难题 [2] - 一段式端到端采用全局优化模型,特斯拉FSD V12代码量从30万行缩减至2000行 [4] - VLA通过思维链实现可解释性决策,在潮汐车道等复杂场景表现优于传统端到端 [4][5] - VLA单日可完成30万公里仿真测试,显著降低实车数据依赖 [5] 技术演进路径 - 行业主流从端到端+VLM双系统转向VLA原生融合架构 [6] - 端到端+VLM需同步处理TB级视频流与百亿参数模型,车载算力紧张 [6] - VLA通过对比学习实现多模态特征对齐,仿真复现率达99.9% [7] - 理想汽车通过端到端+VLM升级至VLA架构,实现空间理解等四大能力 [5] 算力与芯片挑战 - 当前智驾芯片算力不足,英伟达Orin(254TOPS)不支持语言模型直接运行 [9] - 英伟达Thor芯片实际算力缩水,基础版仅300TOPS [9] - VLA低速自动驾驶需10赫兹运行频率,高速需20赫兹 [9] - 车企加速自研芯片:理想马赫100计划2026量产,特斯拉AI 5算力或达2500TOPS [11] 落地时间表 - 短期(2025-2026):特定场景如高速路/封闭园区应用 [14] - 中期(2027-2029):算力达2000TOPS时覆盖城市全场景,接管率或低于0.01次/公里 [14] - 长期(2030年后):光计算架构+脑机接口实现类人直觉决策 [14] - 需突破多模态对齐、训练效率、芯片能效比等关键技术 [14]
「智驾」人才争夺战:帮新员工支付前司百万竞业赔偿
36氪· 2025-05-23 21:58
车企AI辅助驾驶人才争夺战 - 行业核心人才遭哄抢,理想、华为、Momenta成为被挖角最严重的公司,理想核心人员每人接到20+猎头电话[3][4][6] - 竞业协议诉讼频发,理想起诉跳槽员工案例涉及千万元赔偿,南方车企员工赔付超百万元[4][5] - 技术保密手段升级,理想要求VLA项目员工签署保密协议,离职需脱敏6个月;华为采取类似措施[12][14] 技术路线演进与竞争格局 - 技术路径从规则方案转向端到端模型,VLM/VLA多模态大模型成为新方向[6][9][24] - 头部企业技术布局: - 理想尝试4种技术路线(城市NOA/轻地图/端到端+VLM/VLA),与清华合作开发双系统方案[9][25] - 小鹏采用"世界基座模型"训练方式[10] - 华为乾崑智驾装机量突破50万,Momenta方案搭载量近30万辆[10] - 特斯拉停止公开FSD技术细节后,国内企业进入自主探索阶段[8][23] 车企人才战略与市场动态 - 传统车企加速布局: - 比亚迪推出5.58万元级辅助驾驶车型,下半年计划推出自研城市NOA[11] - 比亚迪技术院高层亲自招揽新势力背景人才,团队已吸纳多名竞品员工[11] - 小米引进Wayve科学家陈龙,强化辅助驾驶团队[11] - 人才流动双向性: - 理想曾为关键人才支付数百万竞业赔偿[12] - 端到端技术导致理想精简团队,部分人才外溢[12] 行业技术挑战与发展趋势 - 当前技术局限性: - 端到端方案存在场景泛化难题[23] - VLA模型面临人才稀缺、数据获取、问题定义等量产挑战[25] - 未来技术重点: - 生成式AI世界模型仿真器[25] - 强化学习在规控/仿真领域应用[25] - Momenta已率先在预测/规控环节应用AI模型和强化学习[26] 行业生态与潜在问题 - 技术泄露现象严重,存在代码被员工携带跳槽或出售的情况[18] - 部分企业通过"白盒"获取供应商代码进行拼凑开发,与头部"好用"方案存在差距[19][20] - 行业面临工程化能力与AI不确定性的双重挑战,需原创性思考突破技术迷雾[23][26]
AI加速上车,座舱端侧模型、智能驾驶系统都要求更多算力
第一财经· 2025-04-23 18:55
行业趋势 - 端到端模型处理数据量将是过去的10倍以上 [5] - 智能驾驶从规则驱动转向数据驱动范式 模块化端到端模型预计年内量产 one-model端到端模型预计2026或2027年量产 [5] - 智能驾驶技术处于弱专家系统阶段 即将进入通才阶段 未来对算力要求将增长 [5] 技术发展 - 端侧大模型参数量多为几十亿参数 受芯片算力与功耗限制 [4] - 端侧模型需运行在高通8295等高性能芯片上 NPU算力达30TOPS 算力较低车辆难有良好体验 [4] - 智能驾驶神经网络采用VLA架构 具备思维链能力 [5] 企业动态 - 腾讯推出座舱端侧大模型 基于混元2B小参数模型 与多家车企合作推进量产 [1] - 英特尔与面壁智能共同研发端侧原生智能座舱 [1] - 宝马宣布DeepSeek年内搭载于多款在售新车 [1] 应用场景 - 端侧模型聚焦用户行为与意图识别 提供驾驶建议与操作指导 复杂问题转云端处理 [1][2] - 腾讯将Agent与大模型能力结合社交娱乐生态 实现车载场景智能服务如咖啡订购 [2] - 汽车和手机被视为今年AI落地最佳场景 [1] 技术挑战 - 端侧2B模型缺乏强推理能力 需依赖云端模型补充 [2] - 需应对AI幻觉问题 通过加入行业数据训练与增强知识理解提升精准度 [4] - 端侧模型落地受车端算力与应用结合进展制约 [4]
VLA是特斯拉V13的对手吗?
36氪· 2025-04-08 19:05
特斯拉FSD入华表现 - 特斯拉FSD在2月底进入中国市场,引发国内智驾企业高度关注[1] - 3月表现呈现两极分化:在上海陆家嘴误将公交车道当超车道狂飙,在广州塔误判施工警示牌为广告牌急刹,但在常规驾驶中展现出老司机水准,能准确避让非机动车并完成复杂动作[2] - 割裂表现源于特斯拉强大的底层AI技术支撑常规场景的丝滑体验,但端到端模型缺乏中国数据训练,无法理解特殊路况规则[4] 技术差异与行业焦虑 - 特斯拉FSD采用端到端模型,虽避免信息损耗但无法理解中国特殊路况[4] - 行业担忧特斯拉一旦补齐中国数据短板将形成强大竞争优势[5] - FSD V13被博世中国区总裁和元戎启行CEO评价为领先国内高阶智驾系统一个代差[9] VLA技术解决方案 - VLA模型融合视觉、语言和动作,通过摄像头+激光雷达收集信息,大语言模型分析路况,实现类人思维链[8] - 相比端到端模型的"看图说话",VLA实现"阅读理解"能力,能理解交通标志、行人意图及特殊车道规则[8][9] - 元戎启行CEO周光认为VLA是通向L5自动驾驶的转折点,构建了时空统一的认知框架[12] 国内VLA布局现状 - 理想采用MindVLA技术,决策准确率领先但需同时维护两套系统,研发成本高企[18] - 奇瑞联合华为、英伟达开发猎鹰智驾,计划2027年落地但世界模型预测能力尚未达标[18] - 吉利推出"千里浩瀚"系统,采用全域AI+天地一体策略[19] - 元戎启行已进入VLA量产阶段,预计年中上路,在技术迭代节奏上领先行业2-3年[19] 行业竞争格局 - 智能驾驶竞争焦点从工程化能力转向AI模型底层能力[25] - 元戎启行通过与高通合作实现多芯片平台适配,展现第三方方案优势[23] - 行业面临技术迭代窗口期挑战,后发者可能错失黄金发展时机[23] - 2023年特斯拉FSD BetaV12转向端到端架构曾颠覆行业认知,未满血版V13进入中国再次引发行业震动[24]