Workflow
端侧语音大模型
icon
搜索文档
国泰海通|物理智能产业与资本峰会:L3高阶智驾专题暨VLA模型产业白皮书及产业图谱发布
行业趋势与共识 - 大模型与智能驾驶融合已成为产业共识 将影响智能驾驶和具身智能产业格局与技术路线[1] - 视觉-语言-动作模型(VLA)被视为实现L3智能驾驶与具身智能的关键技术框架[2][3] - 政策推动使得L3级智能驾驶落地商用逐渐成为可能[1] 企业技术战略 - Momenta采用数据驱动的"一个飞轮"技术洞察和"两条腿走路"产品战略 实现量产辅助驾驶与自动驾驶Robo的规模化应用[3] - 车联天下精准预判车辆向AI智能座舱和机器人系统发展趋势 重仓感知 构想和执行技术护城河 并整合优化多家大语言模型[3] - 觉非科技以数据闭环为核心引擎 通过多传感器融合实现时空数据高效高精度处理 成为AI核心要素中数据要素主要供给方[5] 产品创新与效率提升 - 车联天下多个高通SOC平台实现全球首发 致力于做到安全 算力 能耗和便利最优[3] - 艾博连科技通过AI-Link平台降低车企开发成本80% 实现座舱从"功能堆砌"向"主动智能"跃迁[5] - 零一汽车通过垂直集成总成技术和智能系统 基于第一性原理正向研发车辆平台和高阶自动驾驶[6] 应用场景拓展 - Momenta为量产车辆提供覆盖全场景的端到端智能辅助驾驶体验 同时为Robotaxi打造可规模化商业化落地的自动驾驶方案[3] - 艾博连科技开发动态场景生成工厂 HMI随心变零层级交互系统和端侧语音大模型等产品[5] - 零一汽车将VLA架构应用于重卡智能化 立志成为全球领先的运输机器人公司[6]
荣耀阿尔法战略深化,端侧AI技术获国际语音顶会认可
观察者网· 2025-08-23 23:00
学术认可与技术突破 - 公司两篇聚焦端侧多语种任务的论文入选国际音频领域顶级会议INTERSPEECH 2025录用论文并作技术发表[1][2] - 论文针对移动设备有限算力与存储资源下实现媲美云端的多语种实时语音识别与通话翻译体验的核心难题[2] - 研发团队与上海交通大学联合攻关提出独创性解决方案并成功转化为可落地的端侧多语种通话翻译功能[5] 技术方案与性能表现 - 通过创新注意力机制与决策策略实现流式语音识别能力 打破传统延迟瓶颈 做到边说边识别[6] - 采用投机采样推理模块与主模型协同工作 高效预测后续词汇 提升推理速度[6] - 技术方案将传统方案3-4GB内存占用压缩至800MB 节省75%存储空间 翻译准确率提升16% 推理速度提升38%[7] 产品应用与行业地位 - 构建全球首个端侧语音大模型 嵌入中英德法西意6个语种包于0.8B参数量模型中 支持离线多语种互译[7] - 纯端侧实现媲美云端的通话翻译体验 从源头保障隐私安全 解决云端方案隐私泄露风险与端侧方案实时性准确性难以兼顾的行业困境[6][7] 战略布局与技术体系 - 端侧AI语音技术突破是公司长期深耕AI战略的必然结果 投入具有持续性与前瞻性[9] - 此前发布自研多模态感知大模型MagicGUI 以7B参数规模支撑底层AI智能体的多模态感知与自动执行规划能力 达到行业领先水平[9]