量子位

搜索文档
完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S
量子位· 2025-07-16 09:49
开源共情语音模型OpenS2S - 紫东太初团队联合长城汽车AI Lab推出完全开源的端到端共情语音语言大模型OpenS2S,技术栈完全透明[2] - 核心目标是提供高效、低成本构建共情语音系统的新范式,包含训练数据集、构建代码、模型权重等全资源开源[3] - 采用流式交错解码架构实现低延迟实时语音生成,自动化数据生成方法结合LLMs与可控TTS技术构建多情感语料[3] 技术架构与核心组件 - 模块化设计包含四大组件:基于Qwen2-Audio的音频编码器、Qwen3-8B-Instruct指令LLM、流式语音解码器(借鉴Minmo/LLaMA-Omni2)、Token2Wav解码器(采用GLM-4-Voice预训练组件)[9] - 数据构建流程:LLMs生成共情对话→语音克隆增加说话者多样性→InstructTTS精准控制情感表达,实现低成本高质量数据合成[11][12] - 三阶段训练流程:语音理解预训练→语音生成预训练→共情指令微调,提升语义与非语言线索感知能力[14] 性能表现与行业对比 - 在VoiceBench评测中,OpenS2S语音到文本表现仅次于Kimi-Audio(61.10分),优于GLM-4-Voice(25.92分)和LLaMA-Omni24(17.36分),其中ifeval子项达42.89分[19][21] - URO-Bench共情评估中,OpenS2S在underemo-en(46.90分)和underemo-zh(67.68分)表现优于部分竞品,验证数据生成方法有效性[19][20] - 开源程度显著领先:唯一提供完整训练数据、预训练代码和微调代码的模型,而LLaMA-Omni2/Qwen2-Audio等竞品均未开源关键组件[5] 行业影响与资源发布 - 完整开源模型权重、数据集代码、评估工具等核心资源,推动共情语音LSLMs领域透明化研究[7] - 提供论文、Demo、代码及数据集的公开访问链接,覆盖arXiv、GitHub、Hugging Face等平台[23]
首篇潜空间推理综述!模型思考不必依赖Token,带宽暴增2700+倍
量子位· 2025-07-16 09:49
潜空间推理综述核心观点 - 潜空间推理是一种新兴范式,通过内部连续表示推理过程,带宽比显式思维链(CoT)提升2700多倍(显式CoT每token约15bits,潜式CoT每步约40960bits)[15] - 提出统一框架整合循环、递归、连续思维等潜空间推理形式,该框架基于机械可解释性原理,与模型内部运作直接关联[2][3] - 框架为未来研究方向提供基础,包括通过扩散模型实现无限深度推理等高级范式[4] 潜空间推理技术实现 基本概念 - 核心区别在于使用潜式思维链(Latent Chain-of-Thought),以高维隐藏状态替代离散自然语言token,突破词汇表限制[13][14][16] - 理论基础可追溯至2019年《Universal Transformers》提出的自适应计算时间(ACT)机制[7][8] 处理模式 **垂直循环模式** - 通过重复处理同一组层扩展计算深度,实现"反复思考"[20][21] - 优势:动态分配计算资源处理复杂任务[23] - 局限:长推理链可能引发梯度消失/爆炸[24] - 实现变体包括: - Universal Transformer的架构层实现[25] - Coconut训练层插入连续思维向量[25] - CoTFormer隐藏激活回输机制[25] **水平循环模式** - 沿时间维度扩展记忆能力,维护压缩隐藏状态聚合跨时空信息[28][29] - 实现方式: - 线性状态循环(隐藏状态更新/衰减规则)[30] - 梯度状态循环(隐藏状态作为在线学习参数)[30] 机械可解释性验证 - 层深度与推理能力呈线性关系,构成推理容量瓶颈(需2-3层支持两步推理)[34][39][45] - 分层功能特化: - 浅层:基础信息处理/事实存储[49] - 中层:核心推理引擎[49] - 深层:决策制定/逻辑整合[49] - 信息流动机制: - 注意力机制关键作用:跨层传输计算信息[48] - 存在双向流动(反向注意力)增强推理能力[51][52] 前沿发展方向 无限深度推理 **空间无限推理** - 文本扩散模型实现路径: - 遮蔽扩散模型:并行预测/渐进解遮蔽[55] - 嵌入扩散模型:连续空间高斯去噪[55] - 混合AR-扩散模型:结合自回归稳定性[55] **时间无限推理** - 时间-深度交换原理:序列长度等价于优化迭代[57] - 具体方法: - 无限注意力机制[59] - 测试时训练(SGD优化)[59] - 隐式不动点RNN[59] 学术贡献与影响 - 首篇系统性综述,由字节SEED实习生等四位共同一作完成[5] - 整合Meta Coconut等顶会研究成果[9][12] - 建立理论基础:从清华层数限制研究到谷歌研究院的线性关系定理[34][45]
一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖
量子位· 2025-07-15 16:31
Batch Normalization论文获奖及影响 - 2015年发表的Batch Normalization论文荣获ICML 2025时间检验奖,引用量超过6万次,成为深度学习里程碑式突破[1][2][4] - 该技术让深度学习从小规模实验走向大规模实用化,是深层神经网络训练和应用的关键推动力[3] BatchNorm技术原理与创新 - 提出"内部协变量偏移"概念,指训练中网络内部节点数据分布变化导致训练不稳定[8][11] - 创新性对隐藏层数据做标准化处理,引入可学习参数γ和β保持网络表达能力[12] - 实验显示使用BN后训练步数仅需原来1/14即可达到相同精度,并在ImageNet分类任务超越人类准确率[13] BatchNorm的实际应用效果 - 具有正则化效果,可替代Dropout提升模型泛化能力[15] - 使训练超深度网络成为可能,如何恺明ResNet结合BN实现上百层网络训练[16][17] - 被几乎所有主流卷积神经网络(ResNet/DenseNet/Inception)广泛采用[18] 后续研究与理论修正 - 2018年MIT研究挑战BN核心理论,发现其实际作用是使Optimization Landscape更平滑[22][24] - 2022年研究从几何视角提供新见解,认为BN是一种无监督学习技术[29] 作者现状 - 两位作者Sergey Ioffe和Christian Szegedy曾在谷歌工作十余年[30] - Christian Szegedy先后加入马斯克xAI和Morph Labs,目标实现"可验证的超级智能"[32][33][34] - Sergey Ioffe也加入xAI,可能参与Grok 4开发[32]
只因一个“:”,大模型全军覆没
量子位· 2025-07-15 16:31
大模型漏洞研究 - 研究发现大模型(如GPT-4o、Claude-4、LLaMA3-70B)容易被特定符号(如冒号、空格)和推理开头语(如"Thought process:"、"解")欺骗,产生假阳性响应 [1][4][7] - 实验显示GPT-4o对符号":"的假阳性率达35%,LLaMA3-70B对"Thought process:"的假阳性率高达60%-90% [21] - 模型大小与抗欺骗能力无直接关系,7B-14B模型表现最佳,72B模型反而更容易被欺骗 [23][26] 欺骗机制分析 - 欺骗性输入分为两类:非文字符号(如空格、标点)和推理开头语(多语言) [14][15] - 漏洞可被无限繁殖,通过嵌入相似度搜索可自动生成新的欺骗性输入 [25] - 该漏洞揭示了生成式奖励模型核心机制缺陷,影响依赖验证器的强化学习流程 [27][28] 解决方案 - 研究人员构建增强数据集,包含2万条对抗样本(无实质内容的推理开头语) [29][30] - 基于Qwen2.5-7B-Instruct训练的Master-RM模型将假阳性率降至接近0%,同时保持与GPT-4o 0.96的一致性 [31][32] 研究团队 - 团队来自腾讯AI Lab、普林斯顿大学和弗吉尼亚大学,包含腾讯AI Lab首席科学家俞栋(发表400+论文) [37][38][39] - 一作Yulai Zhao(普林斯顿博士生)研究方向为强化学习与扩散模型,近期有论文被ICML 2025录用 [40][42] - 共同一作Haolin Liu(弗吉尼亚大学博士生)专注强化学习在LLM后训练中的应用 [43]
Switch的救世主是老黄!?
量子位· 2025-07-15 14:28
Switch2技术突破 - 新一代Switch2搭载英伟达NVN2图形API,显著改善前代发热、卡顿、续航短等问题,轻松应对3A大作 [1][2] - NVN2整合DLSS和光线追踪技术,实测《王国之泪》从720p/30帧提升至1440p/60帧,DLSS加持下接近原生4K画质 [30][31] - 联合开发者证实Xbox平台60帧游戏可无缝移植至Switch2,性能表现远超硬件参数预期 [3][27] 任天堂与英伟达合作历程 - 2013年任天堂因WiiU销量惨淡利润暴跌30%,转向开发融合主机与掌机特性的Switch [6][8] - 英伟达Tegra芯片在移动市场失利后,通过为Switch定制Tegra X1及NVN API实现技术突围 [9][13][15] - 合作成果显著:Switch总销量超1.5亿台,英伟达Tegra处理器销售额增长108%至3.32亿美元 [17][18] NVN技术架构优势 - NVN为Switch专属定制图形API,剔除通用功能降低性能开销,实现400g设备的高效渲染 [25][26] - 技术轻量化设计使Switch在硬件性能弱于PS/Xbox情况下,仍能输出流畅画面 [27] - NVN2延续技术协同理念,通过DLSS和RT Core实现便携性与画质的双重突破 [30] 产品理念与市场定位 - Switch设计核心理念为"场景自由切换",满足日本玩家移动社交与西方玩家家庭娱乐需求 [34][35] - 英伟达CEO黄仁勋强调技术应服务于创造力,Switch系列成功源于对玩家体验的极致追求 [37][39] - Switch2发售4天销量达350万台,刷新任天堂历史销售纪录,验证混合形态市场认可度 [5][40] 行业影响 - 任天堂与英伟达十年合作打破主机行业技术路径依赖,开创移动高性能芯片新应用场景 [4][11][12] - Switch系列成功逆转两家公司颓势,成为跨平台游戏设备的技术标杆 [17][18][31] - NVN2技术曝光显示任天堂持续强化便携设备性能边界,推动掌机与主机技术融合 [22][30]
卡帕西预言成真!华人团队开源全AI操作系统:神经网络模拟Windows,预测下一帧屏幕图像
量子位· 2025-07-15 14:28
核心观点 - 由神经网络驱动的操作系统NeuralOS实现实时预测和渲染图形界面,模拟Windows操作系统的行为 [1][2][6] - 该系统基于RNN和渲染器两大模块,能够跟踪计算机状态变化并生成对应的屏幕画面 [7][8] - 未来GUI可能演变为个性化、动态生成的2D交互画布,颠覆传统固定界面模式 [4][37] 技术实现 - **核心架构**:RNN负责状态跟踪,渲染器根据状态和操作生成画面,形成闭环系统 [7][8] - **训练数据**:使用Ubuntu XFCE系统的操作录像,包括随机交互和AI Agent模拟的真实操作 [10][11] - **训练流程**:分阶段进行RNN预训练、联合训练、计划采样和上下文序列扩展,最终实现帧预测能力 [11] 性能表现 - **优势**:画面逼真度接近真实系统,鼠标响应精准,状态转换稳定(如应用启动、窗口切换) [15] - **局限**:键盘输入处理不足,快速打字时可能出现延迟或字母顺序错乱 [14] - **测试结果**:模型预测准确性较高(主对角线高亮),但存在少量状态混淆 [14] 团队与背景 - **主要成员**:5人团队中4位为华人学者,包括滑铁卢大学和加拿大国家研究委员会的研究人员 [17][19][21][23][27][29] - **学术背景**:成员研究方向覆盖NLP、机器学习、深度学习应用,部分成员在顶会发表论文且引用量达5000+ [22][25][27][30] - **行业合作**:团队成员与英伟达、Google Deepmind等企业有合作或兼职关系 [28][29] 应用与展望 - **当前形态**:提供在线演示版本,需H100显卡支持运行,用户操作过多导致系统负载较高 [32][35] - **开源优化**:代码开源后有望提升性能,未来或实现更高效的动态界面生成 [36] - **潜在方向**:探索生成式神经接口在下一代人机交互系统中的落地场景 [6][37]
开放世界任务成功率82%!美的攻克机器人泛化控制难题
量子位· 2025-07-15 14:28
模型概述 - 美的AI研究院与华东师范大学联合推出ChatVLA-2模型,具备开放世界具身推理能力,结合视觉-语言-动作(VLA)功能 [1] - 采用动态混合专家架构和双阶段训练流程,保留多模态认知能力并实现推理到动作的转化 [1] 核心能力 - 在数学推理、空间理解和泛化操作能力上表现优异,开放世界任务成功率达82% [4] - 通过数学匹配游戏评估数学推理能力,通过玩具摆放任务测试空间推理能力 [6] 模型架构 - 引入混合专家模型(MoE),动态选择专家模块以平衡任务特征与共享特征,优化计算资源分配 [7] - 在模型深层使用推理令牌替换观测嵌入,生成调控动作参数,增强决策精准度 [8] 训练策略 - 采用双阶段训练:第一阶段协同训练图文数据与机器人数据,激活开放世界理解能力 [13] - 第二阶段冻结视觉语言模型,专注训练动作专家,强化对未知推理场景的响应能力 [14] 实验效果 数学推理 - 在开放世界测试中,OCR得分3.58/4,数学推理得分1.73/2,操控成功率82.7% [19] - 对比其他模型(如DexVLA成功率10/52),ChatVLA-2显著领先(43/52) [19] 空间推理 - 目标识别得分0.94,操控成功率81.4%,优于同类方法 [21] - 能识别训练中未出现的物体并理解空间关系,完成精准摆放 [20][21] 行业意义 - 为通用机器人控制提供新思路,推动复杂场景与多模态交互研究 [21]
国产Deep Research杀出一匹「裸奔」黑马:免费开放,过程透明,网页报告一键即出
量子位· 2025-07-15 14:28
秘塔AI搜索深度研究功能发布 - 国产AI搜索平台秘塔AI推出对标Deep Research的深度研究功能,完全免费开放使用,无需申请或会员资格 [1] - 功能可展示完整思考链和证据链,研究步骤全程可视化,最终生成结构化研究报告 [1][2] - 支持将报告一键转换为互动网页,自动排版并标注信息来源 [4][32][33] 技术能力与评测表现 - 在BrowseComp和xbench-DeepSearch评测集上表现最优,中英文能力均领先 [8] - 超越通义开源的WebSailor模型最新测试成绩 [10] - 研究过程采用多色标注系统:绿色为确定结论,紫色为待完善结论,红色为信息缺失部分 [23][24] 核心功能特点 - 支持复杂问题拆解,如分析AMD与英伟达AI芯片竞争时,会从CoWoS封装技术分配比例预测出货量 [18][22] - 参考资料库包含400+篇中英文文献,每个知识点均标注来源 [29][31] - 支持全网+文库+学术+图片+视频+播客+私域的全范围搜索 [14] 应用场景展示 - 商业调研:自动生成数据可视化图表(柱状图/折线图) [39] - 日常生活:提供科学现象深度解释 [41] - 非常规问题:能处理"企鹅偷石头"等奇特查询 [44] 行业定位与竞争优势 - 深度研究功能成为AI能力新风口,国内外巨头(OpenAI/Perplexity/谷歌)纷纷布局 [47][48] - 国内同类产品多设付费墙或试用限制,秘塔直接免费开放形成差异化 [48][49][50] - 技术优势来自"AI+搜索"双基因组合,兼具大模型逻辑能力和搜索引擎信息抓取能力 [51]
零代码开发,从与AI对话开始|聊聊百度秒哒
量子位· 2025-07-15 11:50
百度秒哒产品介绍 - 百度秒哒是一款零代码对话式开发平台 用户通过对话提出需求即可完成网页开发 无需编写代码[1][2] - 平台通过AI扮演架构师 研发工程师等角色 调用智能体和工具实现全流程开发 全程无代码介入[3] - 目前平台开放免费试用 网址为miaoda.baidu.com 支持用户从想法到产品上线的全流程开发[3] 产品开发流程与商业化 - 用户可通过对话式交互完成产品开发 具体操作流程将在直播中详细展示[8] - 生成的产品已具备投入真实使用的可行性 部分案例显示可实现商业化盈利[8] 技术能力与行业影响 - 平台后端能力涉及智能体调度 工具调用等核心技术 具体架构细节未公开[8] - 零代码开发降低产品实现门槛 推动AI技术向非技术人群渗透 改变传统软件开发模式[1][3] 行业活动与嘉宾背景 - 7月17日将举办专题直播 由百度秒哒产品部总经理朱广翔讲解零代码开发实践[3][7] - 朱广翔为清华大学交叉信息研究院博士 在NeurIPS ICLR等顶会发表14篇论文 21年加入百度后主导多个AI产品线[4][5] - 直播属于"365行AI落地方案"系列活动 聚焦AI技术在各行业的实际应用案例[7]
小扎自曝挖人秘诀:小团队我亲自带,豪掷数百亿建GW集群,大家不图天价薪酬只为“造神”
量子位· 2025-07-15 11:50
Meta的AI战略布局 - 公司否认高薪是吸引AI人才的主因,强调顶尖人才加入是为了参与"造神"级别的AI研发项目[1] - 超级智能实验室为人才提供直接向CEO汇报的权限及无上限的GPU资源支持[2] - 计划投入数百亿美元建设GW级计算集群,目标构建"超级人工智能"[4][5] GW级计算集群建设 - 定义:GW集群指功率达吉瓦级(1GW=1000MW)的超级计算设施,远超传统超算中心几百MW的规模[3][9] - **Prometheus项目**:选址俄亥俄州,1GW功率,2026年上线,采用混合基础设施策略支持生成式AI训练[12][13][15] - **Hyperion项目**:选址路易斯安那州,首期1.5GW(2030年),最终扩展至5GW,将成为全球最大单体AI数据中心园区[16][17][19] - 能源解决方案:配套建设两座200MW天然气发电厂以保障电力供应[25][26] 开源与闭源路线争议 - 公司内部对Llama系列开源路线存在分歧,部分高管主张转向闭源模型开发[30][37] - 新一代开源模型Behemoth因训练效果不佳推迟发布,原计划6月推出但至今未公布[39][40][43] - 超级智能实验室负责人Alexandr Wang暗示可能转向闭源,但最终决策权在CEO[46][48][49] 行业竞争动态 - 公司面临字节跳动轻量化MR眼镜"Swan"(100克)的潜在挑战,需应对可穿戴设备市场竞争[50][51][52] - Meta已暂停Quest系列开发,转向轻量化智能眼镜Orion以应对市场变化[53][54] 资源与环保争议 - GW级集群耗电量相当于数百万家庭用电,可能引发社区资源争夺[22][23] - 乔治亚州数据中心项目曾导致居民用水短缺,引发公众批评[24][28]