端到端语音技术
搜索文档
晚点独家丨元戎启行与高通合作开发智驾方案;月之暗面招募微软亚研院谭旭,研发类 GPT- 4o 的端到端语音模型
晚点LatePost· 2024-10-22 23:16
元戎启行与高通合作 - 智能驾驶研发商元戎启行已与芯片巨头高通达成合作,或基于高通骁龙8650芯片开发智能驾驶方案,该芯片算力可达100TOPS,适用于中高阶方案开发 [5] - 此前元戎启行主要使用英伟达芯片,其已量产的端到端方案使用英伟达Orin-X芯片,单颗算力达254TOPS,并计划于2025年采用英伟达Thor芯片 [5] - 与高通合作有助于降低智能驾驶解决方案成本,从而拓展更多客户 [6] 智能驾驶行业竞争格局 - 元戎启行官宣的量产车型数量低于行业头部厂商,2024年预计有20多款搭载大疆车载(卓驭)智驾系统的车型上市 [6] - Momenta的智驾软件已搭载于上汽、比亚迪、广汽等车企车型,后续还有包括通用、丰田、奔驰在内的十多个品牌的数十款车型将搭载 [6] - Momenta与大疆车载均已与高通达成合作,其方案可兼容或适配高通芯片,选择理由包括价格更低可搭载于更便宜车型,以及功耗更低更适合油车和混动车型 [6] 元戎启行发展历程与商业模式 - 公司成立于2019年2月,初期专注于L4级自动驾驶,2020年决定不再研发L4方案,2023年初将主要资源转向量产智能辅助驾驶“端到端”模型研发,并于当年8月完成道路测试 [7] - 2024年一季度,元戎启行成为继毫末智行之后,长城的第二家外部智驾供应商 [7] - 智驾方案商目前尚未形成商业闭环,车企在谈判中处于强势地位,即便是技术实力排名中国市场前三的智驾方案商,其承接的几乎所有量产项目现阶段也都不赚钱 [8] - 一家智驾供应商为国内一家头部车企提供的城市高阶智驾方案,单车License收费仅为500元 [8] 智驾芯片市场竞争 - 英伟达在高阶智驾市场几乎形成垄断,其Orin-X芯片价格约为300美元/颗,远高于地平线、高通等厂商的产品价格 [8] - 高通作为后发厂商,在智驾领域的市场拓展策略是重点进攻日系和韩系车企,并在商务政策方面给出倾斜,此举已取得明显效果,日韩车企目前均倾向于采用高通智驾芯片 [8] - 在元戎启行之前,Momenta、毫末智行、大疆车载三家厂商都已基于高通骁龙Ride系列芯片开发智驾方案,其中Momenta与丰田合作,毫末智行与现代合作 [8] - 智驾方案商希望其方案可以在不同主流芯片厂商的芯片上运行 [8] - 英伟达当前享受的超额利润,给高通等其他智驾芯片商留出了机会 [9] 月之暗面人才与研发动态 - 微软亚研院前首席研究经理谭旭于8月加入大模型创业公司月之暗面,主要负责研发端到端语音模型,其个人论文引用量达上万次,多项生成式AI成果曾应用于微软产品 [9] - 谭旭加入后的主要目标之一可能是帮助月之暗面打造类似GPT-4o的语音体验 [9] - 月之暗面的整个多模态研究在2023年10月就已开始,在视频生成大模型方面,目前有十人左右的团队在研发,为确保产品更具差异性,对外发布计划仍在推迟 [9] - 公司创始人杨植麟曾表示,基础大语言模型和多模态是两个东西,目前阶段提升智能能力更重要,但有可能两个同时做 [9] 端到端语音技术 - 传统主流语音对话方案是“ASR+LLM+TTS”,机器响应时间较长,且人无法随时打断机器讲话 [10] - 端到端语音技术能直接输入语音,经过一个模型处理后输出语音,省去中间转换过程,可压缩机器响应时间,实现更自然的交互,并能帮助改善大模型的幻觉问题 [10] - OpenAI发布的GPT-4o其语音交互效果大幅提升(延时更低、可随时打断)就来自端到端语音技术,但其高级语音功能直到2024年9月25日才向所有ChatGPT Plus用户推送,侧面说明该技术尚在实际应用的早期阶段 [10]