量子位
搜索文档
清华大学x生数科技:从波形到隐空间,AudioLBM引领音频超分新范式
量子位· 2025-10-12 12:07
音频超分辨率技术概述 - 音频超分辨率技术旨在从低采样率音频恢复高采样率版本,是提升语音清晰度、音乐细节与沉浸式音频体验的关键技术[1] - 该技术可应用于老旧录音修复、语音通信增强、音乐制作与多模态生成,高分辨率音频能显著提升听感与表现力[1] - OpenAI的有声视频模型Sora 2已能生成采样率高达96 kHz的音频,为高保真音频生成树立了新标杆[1] - 现有学术界的音频超分模型大多局限于48 kHz以内,缺乏能稳定支持更高采样率的通用框架[1] 清华大学与生数科技的研究成果 - 清华大学与生数科技团队围绕桥类生成模型与音频超分任务展开系统研究,在ICASSP 2025和NeurIPS 2025发表两项连续成果[1] - 研究成果包括轻量化语音波形超分模型Bridge-SR,以及面向高达192 kHz母带级音频的多功能超分框架AudioLBM[1] - AudioLBM覆盖语音、音效与音乐等多类内容,在通用高分辨率音频生成方面展现出重要的扩展潜力[2] Bridge-SR模型技术特点 - Bridge-SR工作首次将薛定谔桥模型引入语音超分任务,建立低分辨率波形与高分辨率波形之间的可解桥接过程[3] - 不同于扩散模型从随机噪声逐步生成信号的"噪声到数据"方式,Bridge-SR直接利用低分辨率波形作为生成先验[3] - 模型采用轻量化网络,仅1.7M参数即实现高效、高保真的语音超分,在VCTK语音测试集上优于多项主流方法[3] - 通过非对称噪声调度设计、频域幅度谱与相位谱的辅助监督,以及一阶PF-ODE采样,Bridge-SR实现了语音超分的质量突破[7] Bridge-SR性能表现 - 在VCTK Benchmark测试集的24K采样率超分任务中,Bridge-SR的LSD T指标为0.716,优于对比模型[8] - 在8K到48K的超分任务中,Bridge-SR的LSD T指标为1.015,SISNR指标为19.02,均优于多数对比模型[8] - Bridge-SR仅使用1.7M参数,显著少于对比模型如AudioSR的258.2M参数和NVSR的122.1M参数[8] AudioLBM模型技术突破 - AudioLBM实现了从"波形域生成"到"隐空间建模"的转变,在波形连续隐空间中构建低分辨率到高分辨率的隐变量桥接生成过程[10] - 研究团队通过变分自编码器将波形压缩为连续隐空间表征,并在该空间中学习概率生成映射,提升模型的泛化建模能力[10] - 为应对高分辨率数据稀缺问题,AudioLBM提出频率感知机制,使模型能够学习"任意采样率到任意采样率"的超分过程[13] - 团队设计了级联桥类模型,将模型能力从48 kHz扩展至96 kHz与192 kHz,首次实现覆盖192 kHz工业级采样率的探索[13] AudioLBM性能表现 - 在Any-to-48kHz超分任务上,AudioLBM取得新的SOTA表现,在VCTK数据集8 kHz->48 kHz任务中LSD指标为0.742[16] - 在音效数据集ESC-50的8 kHz->44.1 kHz任务中,AudioLBM的LSD指标为1.087,VisQOL指标为3.089[16] - 在音乐数据集SDS的8 kHz->44.1 kHz任务中,AudioLBM的LSD指标为1.223,VisQOL指标为2.939[16] - 相较于基线模型AudioSR与FlowHigh,AudioLBM在对数谱距离上均明显下降,同时在96 kHz与192 kHz任务中保持稳定性能[17]
吴恩达Agentic AI新课:手把手教你搭建Agent工作流,GPT-3.5反杀GPT-4就顺手的事
量子位· 2025-10-12 12:07
Agentic AI核心概念与方法论 - Agentic AI通过多步骤任务分解、反思、执行与优化的循环工作流显著超越传统端到端Agent的性能表现[5][6][74] - 核心理念是让大语言模型以多步推理与分阶段执行的方式工作而非一次性生成结果这与人类解决复杂问题的方式高度契合[9][14] - 通过系统化的工作流设计甚至可以让GPT-3.5在编程任务中轻松超越GPT-4的性能表现[3][75] Agentic工作流四大核心设计模式 - **反思模式**:让大模型检视自身输出并思考改进可通过双模型协作、量化评分机制或引入外部反馈(如参考答案)来提升输出质量[18][21][24][27] - **工具调用模式**:由大语言模型自主决定调用外部功能(如网页搜索、编写代码)传统方式依赖开发者手动实现而MCP等统一协议将其标准化极大提升效率[28][29][38][43] - **规划模式**:使大模型能根据不同请求灵活调整工具序列执行顺序通过将步骤转化为JSON或代码形式实现任务离散化从而优化性能与资源使用[45][46][47] - **多智能体协作模式**:构建多个具备不同专长的智能体通过结构化分工协作(类似企业组织架构)提升复杂任务的处理效率与质量并可实现智能体间的嵌套调用[51][52] Agentic系统构建与优化流程 - 构建流程遵循"采样-评估-改进"的闭环迭代:先搭建工作流收集输出然后进行端到端或组件级评估定位错误最后针对性优化参数、工具或提示词[55][58][59] - 错误分析是关键通过追踪中间执行轨迹定位薄弱环节(如工具调用或识别模块问题)组件级评估能更快速精准地指导系统改进[61][63][64][67] - 模型选择与优化需多尝试不同模型参考他人提示词设计并将模型置于工作流中观察各步骤表现以持续提升系统可靠性[68][69][70] Agentic AI的行业意义与发展前景 - Agentic被定义为描述系统自主性程度的形容词而非二元分类这为开发者提供了更连续、准确的能力评估框架[72] - 与传统端到端Agent相比Agentic AI通过组件拆分和逐步优化使每个环节可迭代改进为开发者提供了可落地的系统优化路径而非仅依赖模型自身能力提升[76][77][78] - 除成熟代码Agent外基于步骤的Agentic AI在复杂多步骤工作流领域仍有广阔发展空间为行业探索更智能、可控的AI系统提供方法论支持[79][80]
实测“清华特奖版Sora”:一图一prompt直接生成视频,堪称嘴强王者
量子位· 2025-10-12 10:05
产品核心定位与差异化 - 产品为音画同步视频生成模型GAGA-1,专注于打磨“声音+表演”能力,核心竞争力在于“说话和表演” [3][23][29] - 与追求全能的多模态模型形成差异化,清晰聚焦于“嘴功”和“表演感”,将音画同步的台词生成体验打磨得异常扎实、实用 [3][23][30] - 平台提供从图像生成到视频合成的全链路流程,内置NanoBanana模型,用户可在一个平台内完成从图到视频的全部操作 [7][8] 产品功能与用户体验 - 平台无需邀请码即可免费使用,用户体验门槛低 [4] - 核心功能Gaga Actor操作简便,用户上传一张图片并输入提示词,AI角色即可实现“对嘴开演” [5][7] - 在免费前提下,生成的视频分辨率表现优秀,人物表情、动作自然,嘴型和台词同步效果较好 [11][12] 技术能力评估:优势领域 - 模型在口型同步、语速自然度及台词节奏把控上表现精准,例如梵高视频中能生成符合角色设定的“emo式声线”且手部保持不动 [15][16] - 对于单角色、台词驱动的场景,其神态演绎和提示词理解能力到位,被评价为“优等生” [16][18][23] 技术能力评估:当前局限 - 在处理复杂场景时存在局限,如多角色互动场景下角色动作易脱节、面部形象不稳定、剧情逻辑易断裂 [20][21][23] - 镜头调度能力有待加强,例如未能根据提示词成功切换至观众席镜头 [14][15] - 在动作生成方面表现较弱,测试中多角色(如打麻将的猫、吃火锅的动物)未能产生有效互动,更像静态写真 [20][21][22] 团队背景与实力 - 开发团队Sand.ai实力雄厚,其创始人曹越为清华特奖获得者,博士毕业于清华大学软件学院,并以Swin Transformer共同一作身份获ICCV最佳论文“马尔奖” [1][26][27] - 团队此前已发布实现顶级画质输出的自回归视频生成模型Magi-1,技术积累深厚 [24][25]
拒绝小扎15亿美元offer的大佬,还是加入Meta了
量子位· 2025-10-12 10:05
核心人事变动 - OpenAI前CTO Mira Murati创业公司Thinking Machines Lab的联合创始人兼首席架构师Andrew Tulloch已离职并加入Meta [1] - 此次跳槽被视为“重归故里”,因Tulloch曾在Meta(包括Facebook时期)工作长达11年 [6] - Meta近期成功吸引多位前员工回归,例如从Anthropic挖来的Joel Pobar和Anton Bakhtin,他们此前分别在Meta工作10年和5年 [16] 关键人物背景 - Andrew Tulloch毕业于悉尼大学数学与统计学专业,曾获一等荣誉和大学奖章 [8] - 其职业生涯始于高盛,从事金融产品开发和交易策略制定 [10] - 在首次加入Facebook前,曾在剑桥大学攻读数理统计与机器学习硕士,并因成绩优异获奖 [11] - 曾被前同事评价为“绝对是个天才” [7] Meta的招聘策略 - Meta首席执行官曾亲自担任“首席招聘官”,积极挖角Tulloch [18] - 公司最初的策略是直接收购Thinking Machines Lab,但遭拒绝,随后转向针对性挖角其员工 [19] - 对OpenAI另一联合创始人Ilya的团队也采取了类似策略,即先尝试收购,被拒后成功挖走其公司CEO Daniel Gross [19] - 公司发言人否认了15亿美元薪酬包及收购Thinking Machines Lab的传闻,但未否认挖角行为本身 [19] 过往职业选择 - Tulloch曾在2015年考虑加入OpenAI,但因其当时仅提供17.5万美元年薪加12.5万美元奖金,远低于其在Facebook的80万美元年薪而拒绝 [13][14] - 他最终于2023年10月OpenAI的“极盛时期”加入,负责GPT-4.5和4o系列的训练及推理工作 [15][16] - 在OpenAI工作约三个月后,于2024年1月离职并共同创立Thinking Machines Lab [16] 市场推测与影响 - 有市场观点对Tulloch的离职表示不解,因其在估值120亿美元的Thinking Machines Lab可能持有约10%的股份 [4] - 关于其此次加入Meta的动机,存在薪酬包可能已上涨至20亿美元的推测 [22]
OpenAI算力账单曝光:70亿美元支出,大部分钱花在了“看不见的实验”
量子位· 2025-10-11 17:01
OpenAI算力支出结构 - 2024年OpenAI在计算资源上总支出为70亿美元 [1] - 其中约50亿美元用于研发算力,约20亿美元用于面向用户的推理算力 [3] - 这70亿美元支出主要以向微软租用云算力的形式支付,不包括对数据中心的前期投入 [2] 研发算力分配详情 - 研发算力支出中,用于最终训练运行(如GPT-4.5)的成本约为4亿美元,仅占50亿美元研发支出的一小部分 [5][6][18] - 研发算力的大部分(约45.5亿美元)分配给了基础研究、实验性/排险运行以及未发布模型的训练 [5][6] - 这表明公司的研发策略侧重于幕后的探索性实验,而非直接面向产品的最终训练 [6][19] 主要模型训练成本估算 - GPT-4.5最终训练运行的成本估算:集群规模在4万至10万颗Nvidia H100之间,训练时长90至165天,云成本每H100小时1.5至3美元,总成本约4亿美元 [5][14][15] - GPT-4o的训练计算量估计在1e25至5e25 FLOP之间,GPT-4o mini在1e24至1e25 FLOP之间,Sora Turbo在1e24至1e26 FLOP之间 [17] - o系列模型(如o1, o3)的训练计算量估计占基础模型(GPT-4o及GPT-4o mini)的1%至30% [17] 算力投入与公司财务及行业趋势 - 公司2024年营收为37亿美元,但研发算力支出高达50亿美元,这解释了其严重亏损的原因 [20][21] - 行业观点认为,AI公司收入与算力供给高度相关,算力翻倍可能带来收入同步翻倍 [26] - AI发展对算力的需求被视作没有上限,掌控算力被视为掌控AI的关键 [27][28] - 为防止被算力制约,公司已开始自建数据中心 [30]
国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键
量子位· 2025-10-11 17:01
文章核心观点 - 国产开源模型在垂类领域取得突破,逗逗AI的游戏理解模型LynkSoul VLM v1在东京电玩展上表现超越GPT-4o等顶尖闭源模型 [1][2] - 公司认为AI陪伴的终极目标是让虚拟形象融入生活,多模态理解技术是产品持续突破的关键 [9] - 公司通过用户参与和数据积累构建核心壁垒,并已实现显著的用户增长和全球化初步布局 [5][43] 技术优势与性能表现 - 专为游戏训练的视觉语言模型LynkSoul VLM v1,在《英雄联盟》测试场景的识别准确率、建议实用性及语言表达自然度上显著超越通用模型 [7][10] - 官方测试数据显示,该模型在视觉理解准确度(3.44 vs 1.95)、游戏情境掌握度(3.29 vs 1.95)和语言表达自然度(2.91 vs 1.37)上均优于OpenAI-4o-Latest [11] - 在泛化能力测试中,模型在未参与训练的游戏上同样表现稳健,三项核心指标(4.06/3.67/4.18)超越对比模型 [12] - 模型推理延迟具有优势,首包延迟为2.179秒,总延迟为3.981秒,优于对比模型 [14] 用户增长与市场反响 - 新产品上线约一个月,新增200多万用户,总用户数突破1000万 [5] - 海外版Hakko AI已积累几十万用户,在英语和日语市场反响良好,用户留存时长甚至超过国内 [43] - 用户使用场景超出预期,有超过一半的时间发生在游戏外,如陪同看剧、逛电商平台乃至作为直播课助手 [35] 产品理念与战略方向 - 公司认为Chatbot交互形态不友好,理想形态是基于多模态的、能理解环境信息的深度陪伴,类似Cursor基于代码上下文的交互范式 [29][31] - 公司定位为软件优先,目标是打造一个可跨设备(电脑、手机、硬件等)使用的7x24小时陪伴账号,未来再与硬件结合 [37] - 公司从第一天就定位全球化,预计长期用户比例国内与海外为6:4,收入各占一半 [43][45] 核心竞争力构建 - 超越顶级模型的关键在于前期积累的800多万游戏玩家提供的画面及互动数据,通过精调使模型能精准理解场景 [18] - 采用主题索引结合向量检索的技术方案实现长期记忆,使AI能根据用户偏好提供个性化互动 [23][24] - 当前技术攻关重点在于多模态理解,特别是对游戏连续帧而非法单帧的理解 [27]
告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统
量子位· 2025-10-11 17:01
行业现状与核心问题 - AI视觉生成模型在自然图像上表现卓越,但在生成柱状图、函数图等结构化图像时频繁出错,存在逻辑混乱、数据错误和标签错位等问题 [1] - 视觉生成领域长期偏向追求自然图像的美学效果,忽视了结构化图像对事实准确性的核心需求 [2] - 现有视觉理解模型已能精准解析图表数值和公式逻辑,但生成/编辑模型难以匹配这种理解能力,形成显著的能力鸿沟,阻碍了统一多模态模型的发展 [2] 结构化图像的刚性需求与发展瓶颈 - 结构化非自然图像是教育、科研和办公领域的核心工具,其生成与编辑需满足三大刚性要求:精准文本渲染、复杂布局规划和多模态推理 [6][8][9] - 现有方案无法满足需求,数据端缺乏代码-图像严格对齐的结构化样本,模型端缺乏对细粒度结构化语义的理解,评估端无法衡量数值正确性等细粒度准确性 [10] - 视觉理解与生成的能力鸿沟持续扩大,模型能看懂图表数值却画不出数值准确的同类图表,成为统一多模态模型发展的关键卡点 [10] 全链条解决方案:数据层 - 构建了130万代码对齐的结构化样本库,采用代码驱动思路,覆盖数学函数、图表、表格等6类场景 [11][14] - 利用GPT-5生成双指令,确保编辑前后的图像与代码严格对齐,并为每个样本添加思维链标注以解决指令模糊问题 [14] - 最终筛选出130万高质量样本,为模型训练提供坚实基础 [14] 全链条解决方案:模型层 - 基于FLUX.1 Kontext设计轻量级VLM整合方案,引入Qwen-VL增强对结构化图像输入的理解能力 [13] - 通过轻量MLP连接器将Qwen-VL提取的高层语义对齐到FLUX.1的特征空间,仅训练少量参数即可实现能力迁移 [13] - 采用三阶段渐进训练策略,先对齐特征,再混合数据训练,最后用带思维链的样本提升推理能力,确保不丢失自然图像生成能力 [15] 全链条解决方案:基准层 - 提出StructBench基准,包含1714个分层抽样样本,覆盖6类任务,每个样本附带细粒度Q&A对以验证事实准确性 [17] - 提出StructScore指标,通过原子化Q&A加开放回答评分评估图像属性,该指标与人类偏好的皮尔逊相关系数超0.9,远优于传统指标 [19] - 评估编辑任务时采用0.1×视觉一致性+0.9×指令遵循的加权方式,优先保证编辑有效性 [19] 实验结果与行业影响 - 方案在15个主流开源闭源模型对比中展现出明显优势,在生成任务上总体准确率达到55.98%,在编辑任务上达到28.80% [21] - 实验表明数据比架构更关键,高质量、严格对齐、含推理标注的数据是决定性因素,推理能力在复杂任务上尤为关键 [21] - 该研究旨在推动多模态AI向精准理解和可靠生成迈进,为教育、科研和办公领域提供准确可靠的AI工具,推动AI从美化工具走向生产力工具 [23][24][25]
找出iPhone漏洞,库克给你200万美元
量子位· 2025-10-11 14:04
苹果安全赏金计划升级 - 苹果公司宣布对其安全赏金计划进行重大升级,将最高基础奖金翻倍至200万美元,这是目前所有已知赏金计划中金额最高的[1][2][3] - 对于能够模拟复杂商业监控软件攻击的特殊漏洞,通过额外奖金叠加,最高奖励金额可达500万美元[1][9] - 此次计划更新将于2025年11月生效,届时将在Apple Security Research网站上公布完整的赏金类别和细则[13] 奖金历史与总额 - 苹果的漏洞赏金计划启动近十年,最高奖金从2016年的20万美元提升至2019年的100万美元,此次再次大幅提升[6] - 截至目前,该计划已向800多名安全研究人员支付了超过3500万美元的奖励[7] 具体奖金类别调整 - **零点击链攻击**:无需用户交互的远程攻击,最高奖金从100万美元提升至200万美元[11] - **一键链攻击**:通过一键用户交互的远程攻击,最高奖金从25万美元提升至100万美元[11] - **无线接近攻击**:需要物理接近设备的攻击,最高奖金从25万美元提升至100万美元[10][11] - **物理设备访问攻击**:需要物理访问锁定设备的攻击,最高奖金从25万美元提升至50万美元[11] - **应用沙盒逃逸攻击**:从应用沙盒攻击SPTM绕过,最高奖金从15万美元提升至50万美元[11] - **特定高难度漏洞**:彻底绕过Gatekeeper的悬赏金额提升至10万美元,实现未经授权的iCloud访问的悬赏金额提升至100万美元[10] - **新增攻击面覆盖**:成功发现一键式WebKit沙盒逃逸可获30万美元奖励,发现任何无线电实现的无线近距离漏洞奖励高达100万美元[10] 计划新机制与配套措施 - 推出“目标标记”新机制,研究人员提交带有此标记的报告可加速获得奖励,在报告被接收和验证后即可处理,无需等待修复发布[11][12] - 苹果在2022年设立了1000万美元的网络安全资助金,用于支持民间社会组织调查高度定向的雇佣监控软件攻击[13] - 随着iPhone 17推出内存完整性强制保护功能,苹果宣布将向面临高风险的民间社会组织提供一千部iPhone 17,以增强其抵御商业监控软件攻击的能力[13]
腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入
量子位· 2025-10-11 14:04
算法核心创新 - 腾讯优图实验室开源强化学习算法SPEAR,通过“自我模仿+渐进探索”实现熵稳定的学习过程 [2][3] - 算法核心是让大语言模型驱动的智能体在无需大量专家示范的情况下自学成才,解决了传统自我模仿学习中的“熵塌缩”和“熵爆炸”问题 [3][8][9] - 采用“课程式调度”实现分阶段探索,前期用内在奖励鼓励探索,后期启动自模仿学习回放高回报轨迹 [15][16] 性能提升表现 - 在ALFWorld家务模拟任务中成功率高达88.9%,创下该任务当前最优水平 [21] - 在WebShop网页购物测评中,1.5B模型成功率从56.8%提升至77.5%,提升20.7个百分点,训练时间仅增加5% [21][22] - 在AIME25奥赛数学任务上,Qwen2.5-32B模型成绩从54.0%提升到60.1%,仅用16K上下文就追平32K推理效果 [13][26] - 在Sokoban视觉推箱子任务中取得86.7%的成功率,较此前最佳性能提升19.6个百分点 [28][29] 技术实现特点 - 设计内在奖励实现工具奖励衰减,前200步鼓励工具调用,之后奖励置零让位给最终答案准确率 [12][18] - 提出优势重校准机制,用动态中位数基线淘汰过时操作,减小off-policy偏差 [16] - 兼容GRPO/GiGPO等骨干方法,可零成本接入现有训练流程 [24][31] 应用场景广度 - 算法通吃文本、代码、视觉多模态任务,在ALFWorld、WebShop、AIME、Sokoban等基准上平均提升16%以上 [3][21][26][28] - 在工业级增强基线Dr.BoT基础上进一步优化,在GRPO和GiGPO框架下均实现显著提升 [19][25] - 1.5B模型1小时上手,32B模型一周出模,具备高效训练特性 [32]
开源编程模型王座易主了,谁能想到新SOTA是快手
量子位· 2025-10-11 14:04
模型性能表现 - 快手的KAT-Dev-72B-Exp模型在SWE-Bench认证榜单以74.6%的成绩夺得开源模型第一 [1] - KAT-Coder模型在SWE-Bench认证榜单上击败了GPT-5(非Codex模式)和Claude 4 Sonnet [4] - KAT-Coder能够复刻完整游戏《水果忍者》,包含计分和生命值系统 [6] 技术能力展示 - 模型支持生成交互特效,如赛博朋克时钟具备立方体爆炸、霓虹灯和粒子效果 [9][10] - 擅长通过代码实现物理规律可视化,例如制作太阳系运行模拟的3D动画并支持立体旋转视角 [12][13] - 可模拟60层高圆形塔楼在重力与冲击波作用下的爆破倒塌过程,遵循真实物理规律 [15] 模型训练方法 - 训练过程包括中期训练、监督微调(SFT)与强化微调(RFT)以及大规模的Agentic强化学习 [17] - 中期训练第一阶段增强模型推理、指令遵循等综合能力,第二阶段通过人类工程师标注数据增强需求交付能力 [18] - 强化学习阶段专注于问题描述、可执行环境和可验证测试用例三个关键组件 [21] 训练数据与框架 - 从开源及内部代码库收集Pull Request和Issue,并过滤低质量数据,同时融入数学和推理任务丰富信号多样性 [22] - 使用自研工业级强化学习框架SeamlessFlow,通过数据平面架构解耦RL训练和智能体实现 [28][29][30] - SeamlessFlow框架在32张H800 GPU测试中,相比VERL框架实现吞吐量100%提升,训练时间减少62% [35] 训练优化与成效 - 强化学习后模型完成任务所需互动次数减少32%,并具备同时调用多个工具的能力 [25][26][27] - 引入Trie Packing机制并重写训练引擎,通过树形梯度修复权重使训练速度平均提升2.5倍 [37]