Higgs Audio V2

搜索文档
“AI大神”李沐终于开源新模型,爆肝6个月,上线迅速斩获3.6k stars!
AI前线· 2025-07-25 13:36
整理 | 褚杏娟 7 月 23 日,"AI 大神"李沐宣布开源了 Higgs Audio v2,这是一个音频基础模型,构建在 Llama-3.2- 3B 基础之上,预训练数据包括超过 1000 万小时的音频以及丰富的文本数据。该模型目前在 Github 上已获得 3.6k stars。 "去年我们一直关注的是文本语言模型,让它智商足够高、能听从人的指示,一方面可以陪人玩游 戏,另一方面也能帮忙处理一些文案工作,简单来说就是能读能写。今年我们在想,能不能让模型能 听也能说。"李沐在 B 站发布的视频中说道。 随后,他表示,"语音是 AI 中一个相对比较悠久的领域,我其实并不是语音方面的专家。作为一个新 手,我的想法很简单,就是我不要去训练单独的语音模型,而是在文本大语言模型训练时加入大量的 语音数据,大力出奇迹,就想让文本语言模型智商不要下降,但同时掌握了用语音沟通的能力。" 李沐是全球知名 AI 深度学习科学家、深度学习框架 MXNet 作者之一,2008 年毕业于上海交通大学 计算机系,曾于微软亚洲研究院实习。毕业后任香港科技大学研究助理,2011 年加入百度任高级研 发;2012 年赴卡耐基梅隆大学攻读博 ...
腾讯研究院AI速递 20250725
腾讯研究院· 2025-07-24 18:24
特朗普签署「AI行动计划」 - 特朗普签署《AI行动计划》,以AI创新、基础设施和国际外交为三大支柱框架,推出90多项行政令 [1] - 政府计划放松AI监管,推广开源模型,加速数据中心建设,重振美国半导体制造业 [1] - 美国将输出全栈AI技术给盟友,同时加强对算力出口管控,旨在确立全球AI霸主地位 [1] Lovable推出下一代AI编程产品 - Lovable仅用35人团队8个月实现1亿美元年收入,增速超越OpenAI等软件公司 [2] - 新发布的"Lovable Agent"将错误率降低91%,能像真实开发者一样分解问题并迭代修复 [2] - 产品定位为帮助非程序员通过自然语言描述构建完整应用程序 [2] 字节发布同声传译模型 - 字节发布Seed LiveInterpret 2.0,准确率接近人类水平的中英同声传译 [3] - 模型翻译延迟仅2-3秒,较传统系统降低超60%,复杂场景准确率超70% [3] - 支持零样本声音复刻,实时提取说话人音色特质并平衡翻译质量与延迟 [3] Higgs Audio V2语音大模型 - 李沐团队开源Higgs Audio V2,基于1000万小时音频数据训练,支持文本理解和语音生成 [4] - 具备多说话人对话生成、自动韵律调整、零样本语音克隆及实时语音交互能力 [4] - 采用自动化标注系统、统一音频分词器和DualFFN架构,评测表现领先 [5] DeepRare罕见病诊断系统 - DeepRare是全球首个罕见病推理型智能体诊断系统,模拟医生诊断思维路径 [6] - 系统Recall@1达57.18%,比最优方法提升23.79%,部分数据集准确率高达70% [6] - 支持多模态输入,具备主动提问和自我反思能力,诊断建议附带可溯源证据 [6] 谷歌Aeneas历史解读模型 - Google DeepMind开发Aeneas模型,可解读公元前7世纪至公元8世纪的拉丁铭文 [6] - 能预测缺失文本并进行铭文断代与地理定位,平均误差仅13年 [6] - 90%历史学者认为其检索的平行文本有研究价值,技术可扩展至其他历史文献 [6] vivo自研蓝河操作系统内核 - vivo开源蓝河操作系统内核,首个适用于嵌入式和移动设备的全栈Rust内核 [8] - 内核以Rust编写,最小堆内存仅13KB,支持ARM和RISC-V架构 [8] - 旨在推动国产Rust生态发展,满足AI时代对底层系统的更高要求 [8] 微软CEO谈AI价值 - 微软CEO认为AI应推动社会GDP增长,而非仅技术展示,医疗、教育和生产力是三大主战场 [9] - 强调AI需创造社会盈余以证明能源消耗正当性 [9] - 指出AI成功关键在于构建记忆系统、工具调用和权限系统,系统软件进入黄金时代 [9] 奥特曼谈GPT-5体验 - 奥特曼称GPT-5体验如同见证划时代技术革命,未来或为每人提供免费全天候服务 [10] - 提出乌托邦设想:将全球8万亿AI token平均分配给80亿人 [10] - 认为AI引发第三次界面革命,将改变计算方式,预言教育方式将彻底变革 [10]
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
量子位· 2025-07-23 14:36
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 这一天,辣个男人终于回想起……他的小破站账号! (活久见) 李沐 老师终于带着他的手搓语音大模型教程回归了…. 本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的 Higgs Audio V2模型 ,不仅能处理文本,还能同时理解并生成 语音。 除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用 克隆声音进行旋律哼唱以及同时生成语音和背景音乐。 沐导今日组会内容速记 传统的语音和文本模型之间相互独立,李沐老师就想,欸,能不能将两者结合起来,直接让LLM用语音进行沟通。 那么首先就要知道文本语言模型的本质是用给定的一段指令去生成预测结果,就是将任务先拆解为 系统指令 (system) 、 用户输入 (user) 、 模型回复 (assistant) 三个部分。 整个过程堪称 "大力出奇迹" ,直接将 1000万小时 的语音数据整合到LLM的文本训练,让它能听也能说。 (当然还有亿点点细节) 粗暴,但有效! 鬼畜视频?人力手搓已经OUT了,李沐老师直接用算力帮大伙搞定,效果 ...