语音大模型

搜索文档
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
量子位· 2025-07-23 14:36
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 这一天,辣个男人终于回想起……他的小破站账号! (活久见) 李沐 老师终于带着他的手搓语音大模型教程回归了…. 本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的 Higgs Audio V2模型 ,不仅能处理文本,还能同时理解并生成 语音。 除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用 克隆声音进行旋律哼唱以及同时生成语音和背景音乐。 沐导今日组会内容速记 传统的语音和文本模型之间相互独立,李沐老师就想,欸,能不能将两者结合起来,直接让LLM用语音进行沟通。 那么首先就要知道文本语言模型的本质是用给定的一段指令去生成预测结果,就是将任务先拆解为 系统指令 (system) 、 用户输入 (user) 、 模型回复 (assistant) 三个部分。 整个过程堪称 "大力出奇迹" ,直接将 1000万小时 的语音数据整合到LLM的文本训练,让它能听也能说。 (当然还有亿点点细节) 粗暴,但有效! 鬼畜视频?人力手搓已经OUT了,李沐老师直接用算力帮大伙搞定,效果 ...
小米汽车登记Vision GT概念车著作权;上汽荣威M7 DMH内饰首发亮相:定位中大型轿车丨汽车交通日报
创业邦· 2025-07-21 18:26
小米汽车 - 小米汽车科技有限公司登记"Xiaomi Vision GT Concept"和"Vision GT"美术作品著作权 [1] - 小米SU7 Ultra车型将收录到PlayStation平台赛车游戏《GT赛车7》 [1] - Xiaomi VISION GRAN TURISMO概念车即将推出 该项目旨在通过无限制设计展现未来汽车愿景 [1] 比亚迪 - 比亚迪确认高端品牌仰望将进军欧洲市场 距离中国推出已过去两年多时间 [2] - 仰望品牌定位高于比亚迪核心产品线及腾势 目标直指宾利、保时捷和法拉利等豪华品牌 [2] 吉利银河 - 2026款吉利银河E5新增黎光蓝、晚林绿两种配色 将于7月24日上市 [3] - 新车定位为紧凑型纯电SUV 在售车型指导价区间10.78万-17.98万元 [3] - 提供八种外观配色 其中黎光蓝和晚林绿为新增配色 外观变化不大 [3] 上汽荣威 - 荣威M7 DMH定位中大型轿车 拥有160km纯电续航 计划今年下半年上市 [4] - 采用"明珠"概念车设计理念 配备直瀑式威仪前脸和3D悬浮贯穿尾灯等设计元素 [4] - 支持主流手机品牌互联动能 搭载新一代DMH超级混动系统 综合续航可达2050km [4]
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
机器之心· 2025-06-17 12:50
想象一下,如果 AI 能够像人类一样自然地进行语音对话,不再需要传统的 「 语音转文字(ASR)- 文本大模型处理(LLM)- 文字转语音(TTS) 」 的 繁琐流程,而是直接理解和生成语音,那将是怎样的体验?这就是 语音大模型 (语音语言模型,SpeechLM)要解决的核心问题。 传统的语音交互系统存在三大痛点:信息丢失、延迟严重、错误累积。当语音转换为文字时,音调、语气、情感等副语言信息完全丢失;多个模块串联导致 响应延迟明显;每个环节的错误会层层累积,最终影响整体效果。 SpeechLM 的出现彻底改变了这一局面。它能够端到端地处理语音,既保留了语音中的丰富信息,又大幅降低了延迟,为真正自然的人机语音交互铺平了 道路。 本文第一作者:崔文谦,香港中文大学博士生,致力于语音大模型,多模态大模型,AI音乐生成等方向的研究。 由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主会议接收!这 是该领域首个全面系统的综述,为语音 AI 的未来发展指明了方向。 ArXiv链接:https: ...