Workflow
语音大模型
icon
搜索文档
大模型听懂语音却变笨?港中深与微软联合解决语音大模型降智问题
新浪财经· 2026-01-19 13:48
行业核心痛点:语音大模型的模态推理鸿沟 - 当前语音大模型面临“模态推理鸿沟”,即当大语言模型接收语音输入时,其逻辑推理能力相比纯文本输入会显著衰退[3] - 行业主流的三段式“语音编码器+适配器+LLM”架构,在引入语音模态后出现了推理能力的断崖式下跌[8] - 此难题是OpenAI、Google、Meta等科技巨头共同试图跨越的技术天花板[3] 现有解决方案的缺陷 - 输入端强行对齐方法无法解决深层的“表征漂移”问题,语音激发的隐藏状态会随网络层数加深而偏离文本的思考轨迹[8] - 输出端通过监督微调或知识蒸馏的“死记硬背”方法属于离线策略,存在模仿静态数据分布、无法泛化到新任务等根本缺陷[8] 创新解决方案:TARS框架 - 香港中文大学(深圳)与微软团队联合提出TARS,这是一个基于强化学习的新对齐框架,旨在解决模态推理鸿沟[7] - 核心洞察是采用On-policy强化学习,让模型在“思考过程”中动态对齐文本的思维轨迹,而非对齐具体的输出字词[9] - 该框架包含三大关键创新:表征对齐、行为对齐、以及非对称奖励与模态归一化[11][12][13] TARS的技术创新细节 - 创新一“表征对齐”直接从模型内部入手,解决与“表征漂移”相关的鸿沟问题[11] - 创新二“行为对齐”在输出端引入了比监督微调更灵活的对齐标准[12] - 创新三包括“非对称奖励”和“模态特定归一化”,后者将语音与文本分支的奖励分开归一化,确保语音分支在困难任务下也能获得持续优化梯度[13][14] 实验验证与性能表现 - 实验在UnifiedQA数据集上训练,并在MMSU和OBQA两个高难度语音推理榜单上验证,基于Qwen2.5-Omni和Phi-4-MM架构[14] - 核心战绩显示,TARS成功将语音输入的推理表现100%恢复甚至超越了纯文本基座水平[7] - 具体数据:TARS在Phi-4-MM架构上实现了100.45%的MRR,在Qwen2.5-Omni架构上实现了98.89%的MRR[15] - 在Phi-4-MM的消融实验中,TARS的MRR达到100.28%,平均准确率在MMSU和OBQA上分别达到79.57%和83.56%[16] - 训练后,模型的文本准确率也同步提升,Qwen架构提升2.39%,Phi架构提升5.43%,证明语音模态学习能反哺增强文本推理能力[16] 行业意义与范式转变 - TARS的提出标志着语音大模型研究的一个转折点,证明了On-policy强化学习在解决模态对齐问题上优于传统的离线策略方法[17] - 其“表征+行为”的对齐策略,为消除模态推理鸿沟提供了有效路径[17] - 该研究证明语音大模型完全可以拥有和纯文本模型同等的推理能力,为打造高智商的全能型Omni模型提供了可行方案[17]
国网山东电科院牵头一项语音大模型领域IEEE国际标准获批立项
中国能源网· 2025-09-22 16:07
国际标准制定突破 - 国网山东电科院牵头申报的IEEE国际标准《面向语音大模型构建的数据与知识处理框架指南》成功获批立项[1] - 这是公司在语音大模型数据与知识处理领域国际标准制定工作的重大突破[1] - 标志着公司在语音大模型领域的话语权和影响力得到进一步提升[1] 语音大模型行业痛点 - 语音大模型在智能汽车、智能IoT设备、智能客服、智慧教育等领域广泛应用[3] - 语音数据与传统文本数据在存储形态、标注格式、特征结构、处理方式等方面存在差异[3] - 导致数据格式不统一、跨组织共享难、数据版本管理缺失、数据安全隐患高、数据处理效率低等问题[3] - 这些问题制约了语音大模型的快速迭代与性能优化[3] 标准制定过程与内容 - 公司在国网山东省电力公司数字化部指导支持下启动标准申报工作[4] - 团队开展技术调研与论证,编制标准PAR及汇报材料,参加IEEE知识工程标准化委员会全会[4] - 标准PAR审核通过后提交至IEEE SA,并完成委员专家的评论回复[4] - 标准规定了用于构建语音大模型数据处理与管理的框架[4] - 解决了数据存储规范不统一、跨组织共享难、版本管理缺失、安全隐患高、处理效率低、标注成本高等问题[4] - 实现了数据统一规范处理、安全管理和跨组织共享,提升训练效率,促进模型迭代和性能优化[4] 未来工作计划 - 公司将联合国内外合作单位加快推进标准编制工作[6] - 确保标准内容符合国际通行规则并体现我国技术优势[6] - 力争早日完成标准发布,为全球语音大模型数据与知识处理提供参考[6]
小米开源首个原生端到端语音大模型,消费电子ETF(561600)涨超1.2%冲击8连涨
新浪财经· 2025-09-19 10:16
小米AI技术突破 - 小米于9月19日开源首个原生端到端语音模型Xiaomi-MiMo-Audio 基于创新预训练架构和上亿小时训练数据实现语音领域ICL少样本泛化 预训练观察到明显"涌现"行为 [1] - 小米AI功能提升有望带动相关消费电子产品体验优化 [1] 消费电子指数及ETF表现 - 中证消费电子主题指数(931494)截至9月19日09:54强势上涨1.53% [1] - 消费电子ETF(561600)上涨1.23%报1.24元 冲击8连涨 [1] - 指数选取50只涉及元器件生产/整机品牌设计等消费电子业务上市公司证券作为样本 [1] 成分股市场表现 - 澜起科技(688008)上涨7.81% 权重占比4.31% [1][4] - 工业富联(601138)上涨5.95% 权重占比3.89% [1][4] - 立讯精密(002475)上涨4.97% 权重占比8.06% [1][4] - 华工科技(000988)和鹏鼎控股(002938)等个股跟涨 [1] - 寒武纪(688256)下跌1.83%但仍以5.79%权重位列前十大成分股 [2][4] 指数权重结构 - 中证消费电子主题指数前十大权重股合计占比54.8% [2] - 前三大权重股为寒武纪(688256)/立讯精密(002475)/中芯国际(688981) 权重分别为5.79%/8.06%/8.04% [2][4] - 其他重要成分股包括京东方A(000725 权重6.71%)/豪威集团(603501 权重4.99%)/兆易创新(603986 权重3.84%)/歌尔股份(002241 权重2.61%) [2][4]
大模型究竟是个啥?都有哪些技术领域,面向小白的深度好文!
自动驾驶之心· 2025-08-06 07:32
大语言模型(LLM) - 大语言模型是基于海量文本数据训练的深度学习模型,核心能力在于理解并生成自然语言文本,参数量通常达数十亿至数千亿级别,训练数据量可达TB级[3] - 现代LLM核心特征包括大规模参数(如GPT-3有1750亿参数)、Transformer架构、预训练+后训练范式以及多任务适应性[6] - LLM核心能力包括理解和生成两方面,技术基础是Transformer神经网络架构特别是自注意力机制[6] Transformer架构 - Transformer是LLM核心技术基础,由Google于2017年提出,包含Encoder和Decoder两部分,关键创新是自注意力机制[9] - Encoder-only架构仅保留编码器部分,典型代表是BERT模型,适合文本理解任务[10] - Decoder-only架构是现代LLM主流选择,如GPT系列、Llama系列,适合文本生成任务[11] LLM核心能力 - 文本生成与创作:如GPT-4可生成技术文档,Claude 4在工程文档生成方面比GPT-4.1高42%[12] - 代码生成与辅助编程:Claude 4 Opus在SWE-bench测试中得分80.2%,Qwen2.5-Max中文代码采纳率达82%[12] - 知识问答与推理:Gemini 2.5 Pro凭借200万token上下文窗口在实时数据分析中表现优异[12] - 文本理解与转换:Llama 3.1 8B在德语医疗文本结构化任务中准确率达89.3%[13] - 多模态处理:前沿模型如Gemini 2.5 Pro支持文本、图像、视频多模态输入输出[14] 代表性LLM工作 - GPT系列:由OpenAI开发,GPT-3有1750亿参数,GPT-5预计将具备2000万token上下文窗口[15][16][20] - Llama系列:由Meta开发的开源模型,Llama 4首次采用MoE架构,包含三个版本[17][21] - Qwen系列:阿里巴巴开发的中国最具影响力开源大模型,已开源200多款模型[18][22] - DeepSeek系列:以创新架构设计和高效推理著称,DeepSeek-V3采用MoE架构[19][23] 视觉基础模型 - 视觉基础模型是通过大规模数据预训练、具备通用视觉理解或生成能力的深度学习模型[25] - 主流架构包括视觉Transformer(ViT)、CNN与Transformer混合架构如ConvNeXt和MobileViT[26][27] - 核心任务包括图像分类与识别、跨模态理解、目标检测与定位、图像分割等[27][29] 语音大模型 - 语音大模型是经过大规模语音数据预训练的大型神经网络模型,参数规模庞大,训练数据量达百亿甚至万亿级别[31] - 主流架构以Transformer为主,采用序列到序列结构,如Whisper模型[32] - 适用任务包括语音识别、语音翻译、语音到语音翻译、文本到语音合成等[36] 多模态大模型(MLLM) - 多模态大模型能同时处理和理解文本、图像、语音、视频等多种模态信息[39] - 主流架构为"预训练模态编码器+可训练模态连接器+大语言模型+模态解码器"组合模式[40] - 适用任务包括视觉问答、图文生成、跨模态检索、视觉定位与分割等[41] - 代表性工作包括LLaVA、Qwen2.5-VL、GPT-4o等[41][42] 推理大模型 - 推理大模型聚焦于通过优化提示方式、引入外部知识或改进推理流程提升大模型推理能力[43] - 主流架构以"基础模型+增强模块"为核心,不改变原模型主干结构[45] - 核心技术方向包括提示工程、上下文学习、思维链与慢思考、检索增强生成等[46] - 代表性工作包括自动提示优化(OPRO)、思维链(CoT)、DeepSeek-R1等[47][48]
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
量子位· 2025-07-23 14:36
核心观点 - 李沐团队研发的Higgs Audio V2模型实现了文本与语音的多模态融合,通过1000万小时语音数据训练,具备生成多语言对话、自动韵律调整、声纹克隆等能力,并在多个基准测试中领先[3][4][19][20] - 模型采用"system-user-assistant"框架统一处理语音和文本任务,通过离散化音频分词器实现高效语义映射,训练中采用双模型互学习策略提升性能[7][8][10][16] - 技术方案突破传统TTS限制,支持实时情绪交互和复杂场景推理,在EmergentTTS-Eval基准上对GPT-4o-mini-tts的胜率高出75.7%(情绪类)和55.7%(问题类)[19] - 模型已开源并提供在线试玩,适用于鬼畜视频制作、虚拟主播等场景,需配合场景语音数据优化声纹克隆效果[23][25] 技术架构 - 数据层:清洗后使用1000万小时授权语音数据,剔除90%低质量样本,避免使用YouTube/B站等版权受限平台[4][14][15] - 编码层:开发统一离散化音频分词器,以每秒25帧速度运行,压缩比达60MB→0.16MB/小时,同时保留语义和声学特征[10][11] - 训练层:构建AudioVerse辅助模型实现自动标注,通过双模型对抗训练提升多模态能力,规避OpenAI/谷歌模型输出限制[16] - 应用层:支持文本转语音、歌曲创作配乐、场景人物分析(性别/年龄/情绪)、环境音识别等18项复杂任务[17][18] 性能表现 - 基准测试:在Seed-TTS Eval和情感语音数据集(ESD)保持SOTA,EmergentTTS-Eval六维评估框架中情绪识别准确率提升75.7%[19][20] - 延迟控制:实现200ms内实时语音交互,支持对话过程中的动态情绪表达,突破机械问答限制[19] - 多语言支持:可生成中英等语言的自然对话,自动适配不同说话人的韵律特征[3] 商业化进展 - 开源策略:GitHub发布完整模型代码,提供Docker镜像简化部署,包含Pytorch GPU版本和Hugging Face接口[23][24] - 产品矩阵:4月推出Higgs Audio Understanding/Generation工具,5月发布EmergentTTS-Eval评估基准,形成完整技术闭环[30] - 公司背景:Boson AI由李沐创立,基于Llama 3开发的Higgs-Llama-3-70B模型在角色扮演和推理任务表现优异,获98.1万B站粉丝关注[26][27][28]