Workflow
ThinkSound
icon
搜索文档
腾讯研究院AI速递 20250702
腾讯研究院· 2025-07-02 00:38
中国芯片行业IPO热潮 - 近10家国产GPU企业如摩尔线程、沐曦等进入上市流程 呈现营收增长但持续亏损状态 [1] - 中国AI芯片市场规模预计达3500亿人民币 理论可容纳35家年营收百亿级企业 [1] - 行业面临代工产能受限、生态构建不足等挑战 需在B端AI或C端图形领域寻求差异化竞争 [1] Meta AI战略升级 - 成立"超级智能实验室"整合基础研究、大模型开发和产品团队 由Alexandr Wang领导 [2] - 从OpenAI等挖角11位顶尖人才 华人占比超半数 含GPT-4o和Gemini核心成员 [2] - 计划投入数千亿美元 目标一年内推出超越Llama系列的下一代领先模型 [2] 微软AI编程工具开源 - GitHub Copilot Chat开源 支持Agent编程模式和多步骤任务自动化 [3] - 具备代码补全、自然语言交互功能 开源后迅速获1200颗GitHub星标 [3] - 支持MCP协议扩展第三方集成 用户保留对智能体的控制权 [3] 腾讯元宝AI功能升级 - 新增图文并茂文档总结功能 基于DeepSeek模型智能匹配原文图表 [4][5] - 支持行业报告重点提炼、外文资料翻译解读等场景 可一键导出至腾讯文档 [5] 上交大AI竞赛突破 - ML-Master智能体以29.3%奖牌率登顶OpenAI MLE-bench 达Kaggle特级大师水平 [6] - 采用"探索-推理深度融合"机制 在75个任务中实现93.3%有效提交且计算效率翻倍 [6] 华为与阿里技术开源 - 华为开源Omni-Infer框架 支持昇腾平台 实现PD分离部署和系统级QPM优化 [8] - 阿里开源ThinkSound音频模型 采用三阶思维链架构 精确捕捉视频动态细节 [7] 亚马逊AI业务布局 - AWS AI业务已创收数十亿美元 推理工作负载占比将达80-90% [11] - 建设史上最大AI训练集群Project Rainier 部署性能提升5倍的Tranium Two处理器 [11] 彼得·蒂尔技术观点 - 认为1970年代以来仅数字技术有突破 物理世界进步停滞威胁社会稳定 [12] - 主张在生物科技、核能等领域承担风险 突破过度监管文化 [12] - 指出AI价值在于解决物理世界问题 当前进展可能不足以终结技术停滞 [12]
阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了
量子位· 2025-07-01 11:51
核心观点 - 阿里通义语音团队开源泛音频生成模型ThinkSound 首次将CoT思维链推理引入音频领域 解决传统视频配乐技术难以捕捉动态细节和空间关系的难题 实现音画同步的高保真音频生成 [4][5][6] - ThinkSound在VGGSound数据集上对比6种主流方法 在核心指标上均实现显著提升 如FDJ指标降至34.56(越低越好) MOS-Q1主观评分达4.02±0.73(越高越好) 参数规模1.3B 生成时间仅1.07秒 [7] - 模型采用三阶思维链驱动架构 通过基础音效推理链构建、对象级推理链构建和指令编辑推理链构建 模仿人类音效师多阶段创作流程 精准建立音画对应关系 [16][17][18][19][22] - 配套发布AudioCoT数据集 包含2531.8小时精选音视频对 涵盖动物鸣叫、机械运转等真实场景 通过音频-文本对齐过滤等三重处理流程确保数据质量 [30][31][36] 技术架构 - 底层采用结合视觉、语言和上下文信息的多模态流式建模方法 基于条件流匹配技术实现高保真音频合成 [25][28] - 第一阶段通过VideoLLaMA2生成CoT推理链 结合Qwen2-Audio和GPT-4.1-nano输出结构化步骤 实现时空对齐 [18] - 第二阶段利用Grounded SAM-2标注"感兴趣区域"(ROI) 跟踪视频中可能发声的对象 融合多视频CoT信息优化音频处理 [20][21] - 第三阶段支持自然语言指令编辑 如"加点爆炸声" 通过GPT-4.1-nano生成结构化编辑步骤 [23][24] 性能表现 - 消融实验证明CoT推理显著提升音频质量 采用T5链式推理比CLIP文本编码生成效果更优 [35] - 门控融合机制在特征整合中表现最佳 实现音画同步的各项指标最优 [39] - 提供1.3B/724M/533M三种模型规格 支持GitHub/HuggingFace/魔搭社区下载 [7][48] 行业布局 - 通义语音团队持续深耕开源社区 CosyVoice系列在GitHub获14.9k星 上月刚发布3.0版本支持多语言语音生成 [41][42] - 此前推出音频多模态大模型MinMo 在语音对话、翻译等任务中表现良好且延迟低 [44][45] - ThinkSound延续开源路线 未来计划发布API 进一步扩大技术影响力 [48] 应用场景 - 支持为Sora生成视频自动匹配音效 可识别地上跑、水里游等物体并生成环境噪音 [14] - 最佳适配10秒视频时长 理论上不限制上传时长 [15] - 开发者可快速体验音效生成与编辑功能 如去除人声、增强特定音效等 [23][48]