IndexTTS2

搜索文档
2025年9月15日全球科技新闻汇总
海通国际证券· 2025-09-15 16:07
行业投资评级 - 报告未明确提供整体行业投资评级 [1][6][20] 核心观点 - 日本政府大力支持半导体产业 向美光提供最高5360亿日元(约36.4亿美元)补贴 用于下一代DRAM研发与量产 [1][2] - 苹果A20处理器将采用"三级分"策略 台积电2纳米制程获近半初期产能 供应链同步受益 [3][4][5] - Google采用"硬件即服务"模式推广TPU 以游击策略切入NVIDIA主导的算力租赁市场 [8][9][10] - xAI重组训练体系 裁撤500名数据标记员 转向扩大专业AI导师团队 [7][34][35] - AI模型能力持续突破 MiniMax Music 1.5支持4分钟音乐生成 Meta MobileLLM-R1小模型效率显著提升 [14][58][59] 半导体制造与投资 - 美光计划至2029年度投入1.5万亿日元 使广岛工厂具备月产4万片先进DRAM能力 预计2028年6-8月开始出货 [2][22] - 日本政府要求美光量产後至少持续生产10年 包含此次补助总额达7745亿日元 [3][24] - 日本经产省还对台积电熊本厂和铠侠四日市工厂提供补贴 确保先进半导体量产能力 [3][25] - 芯片分级策略将带动差异化代工与封装订单 台积电竞争对手面临量产与良率差距扩大风险 [5][30] 人工智能与算力生态 - Google Ironwood TPU单芯片算力达2.3 Petaflops 与NVIDIA B300的2.5 PFLOPS相当 完整Pod可整合9216颗芯片 [11][44] - OpenAI面临巨大成本压力 预计2029年前烧掉1150亿美元 仅2030年就需花费1000亿美元租赁服务器 [12][48] - xAI数据标记团队从超过1500人缩减至约1000人 未来专注STEM、编程、金融、医学等领域专家 [7][36][37] - 美团AI Agent"小美"基于5600亿参数Longcat模型 实现全自动点餐操作但尚无法处理复杂需求 [14][51][52] 技术创新与产品突破 - 苹果A20系列将对应折叠iPhone、iPhone Air和Pro系列 采用2+4核心CPU架构和不同GPU配置 [4][27] - MiniMax Music 1.5支持16种风格×11种情绪×10场景自定义 可生成民族乐器音色和段落分明作品 [14][49][50] - 小红书FireRedTTS-2支持多语言实时音频生成 B站IndexTTS2实现0.02%时长误差率精准口型同步 [15][53][57] - Meta MobileLLM-R1系列仅用2T token训练 950M模型性能媲美36T token训练的Qwen3 0.6B [16][58][59] - AI Gauss三周完成陶哲轩团队18个月未解数学难题 生成25000行Lean代码含上千定理定义 [16][61][62]
腾讯研究院AI速递 20250915
腾讯研究院· 2025-09-15 00:01
OpenAI与微软合作及发展前景 - OpenAI与微软发布非约束性合作备忘录 涉及云服务托管 知识产权归属和AGI控制权等核心问题 但最终合作条约仍未确定[1] - OpenAI预计成立估值超1000亿美元的公益公司(PBC) 非营利机构将持有股权并保持控制权 成为全球资源最充足的慈善组织之一[1] - OpenAI面临巨大成本压力 预计2029年前烧掉1150亿美元 仅2030年就需花费1000亿美元租赁服务器 未来几年几乎没有容错空间[1] AI影视内容创作突破 - 前谷歌X团队创立全球首家AI原生影视工作室Utopai 两部电影项目已带来1.1亿美元收入 锁定戛纳电影节[2] - Utopai突破AI视频生成三大难题:一致性 可控性和叙事延续性 实现毫秒级精准对口型 模型内置物理规律的3D数据训练[2] - 公司定位为内容+AI而非纯工具供应商 已获好莱坞顶级资源支持 为电影《科尔特斯》邀请奥斯卡提名编剧 八集科幻剧《太空计划》成功预售欧洲市场[2] 音乐生成技术进展 - MiniMax发布新一代音乐生成模型Music 1.5 支持长达4分钟的完整歌曲创作 具备强控制力 人声自然饱满 编曲层次丰富和歌曲结构清晰四大突破[3] - 模型支持"16种风格×11种情绪×10个场景"自定义音乐特征 能生成不同声线唱腔 并支持中国民族乐器生成 真正实现Intro/Verse/Chorus段落分明[3] - 基于MiniMax多模态自研能力积累 同步面向全球开发者提供API 适用于专业音乐创作 影视游戏配乐 虚拟偶像单曲和企业品牌专属音频内容多种场景[3] 本地生活AI应用发展 - 美团首个AI Agent产品"小美"开启公测 通过自然语言指令点咖啡 找餐厅 规划早餐菜单 大幅简化点餐流程[4] - 小美基于美团自研Longcat模型(5600亿总参数) 能根据用户口味偏好和地理位置实现从选品到支付的全自动操作 并记忆用户习惯[4] - 与Agent热潮相呼应 但目前仍有局限性:无法处理复杂模糊需求 无法进行语音回复 未来将在个性化和主动服务能力上进一步优化[4] 语音合成技术创新 - 小红书智创音频技术团队发布新一代对话合成模型FireRedTTS-2 解决现有方案灵活性差 发音错误多 说话人切换不稳定和韵律不自然等问题[5] - 模型在数百万小时语音数据上训练 支持逐句生成与多说话人音色切换 能够通过一句语音样本模仿音色和说话习惯 流式解码可实时输出音频[6] - 在主客观评测中均达行业领先水平 开箱即用支持中文 英语 日语等多语言 是AI播客等对话合成应用的工业级解决方案 已开源代码与模型权重[6] 开源语音合成技术突破 - 哔哩哔哩开源新一代零样本语音合成模型IndexTTS2 实现毫秒级精准时长控制 让AI配音能严丝合缝对上口型[7] - 模型采用"通用且兼容自回归架构的语音时长控制方法" 达到0.02%的时长误差率 同时通过两阶段训练策略实现情感和说话人身份的"解耦"[7] - 系统由T2S(文本到语义) S2M(语义到梅尔频谱)及BigVGANv2声码器三大核心模块组成 支持用大白话控制情绪 在跨语言产业应用上具有重大意义[7] 小型高效模型发展 - Meta AI发布MobileLLM-R1系列小参数高效模型 包括140M/360M/950M三种规模 专为数学 编程和科学问题优化[8] - 最大的950M模型仅使用约2T高质量token预训练(总训练量不足5T) 性能却与使用36T token训练的Qwen3 0.6B相当或更佳[8] - 在MATH基准上比Olmo 1.24B高五倍 比SmolLM2 1.7B高两倍 Token效率和性价比极高 完全开源模型中创造新标杆[8] AI数学研究突破 - 名为"Gauss"的AI Agent仅用三周时间完成了陶哲轩团队18个月未能完成的数学挑战——在Lean中形式化强素数定理(PNT)[9] - 该Agent由Math公司开发 生成约25000行Lean代码包含上千个定理和定义[9] - Gauss能协助顶级数学家进行形式验证 突破了复分析核心难题 团队计划在未来12个月让形式化代码总量提升100到1000倍[9] AI产业格局演变 - OpenAI推出GPT-5 首次真正让人感觉与博士级专家对话 内置"思考"能力 统一模型取代复杂选择界面 显著减少幻觉[10] - 发布前其他玩家也纷纷推出战略性新品:Anthropic推出Claude Opus 4.1瞄准高风险企业场景 Google推出Gemini 2.5 Deep Think和Genie 3分别强化推理和模拟能力[10] - 新AI版图已重新排布:OpenAI同时占据开放与封闭AI生态主导地位 Anthropic专注企业级精准稳定 Google专注基础研究长期布局 Agentic AI 先进推理和端侧能力已成顶尖模型核心特性[11] 科研AI战略布局 - DeepMind科学团队只瞄准三类问题:具有变革性 公认5-10年内无人能解 但DeepMind有信心快速攻克的"不可能任务"[12] - 团队从专用模型到通用智能的进化:将AlphaProof等专用数学模型的能力成功转移到Gemini通用模型 使DeepThink实现IMO金牌水平[12] - 未来目标是打造"科学API" 让全球科学家共享AI能力 从AlphaFold数据库到AI Co-scientist 降低科研门槛 使普通人也能做出诺贝尔奖级贡献[12]
年轻人最关注哪些AI应用?B站发布榜单
观察者网· 2025-07-27 19:18
B站AI内容生态发展 - 公司在2025世界人工智能大会上首次发布"B站最受年轻人关注的TOP30 AI应用"榜单,Deepseek、夸克、豆包、腾讯元宝、Kimi位列前五,榜单基于哔哩指数模型综合稿件量、UP主数量、播放量等维度生成 [1] - 2025年Q1数据显示,每月超1.4亿用户在B站观看AI内容,日均播放时长同比增长超100%,投稿量同比增130%,95后用户占比超80%,年轻化特征显著 [2] - AI分区负责人指出平台聚集大量头部AI创作者,如"老麦的工具库"专注技术时效性发布、"Git源宝"解析热门技术、"秋葉aaaki"推动AI绘画普及,亚马逊科学家"跟李沐学AI"通过精读论文获百万粉丝 [3] AI内容创作与技术创新 - 平台设立AI主题视频播客间,2025年Q1播客消费时长达259亿分钟(同比+270%),用户规模突破4000万 [4] - 展示UP主开发的AI高考机械臂(可对话及答题)、马拉松机器人(具备足球、越野跑等功能)等创新作品 [4] - IndexTTS2文本转语音大模型即将开源,1.5版本已上线GitHub,支持音色情感复刻及多语言合成,适用于影视翻译、鬼畜视频等场景 [8] 平台战略与行业定位 - 公司强调通过AIGC技术降低创作者成本,如TTS技术辅助翻译及内容生成,目标构建AI生态土壤助力UP主及创业者成长 [8] - 明确提出"AI是十年长跑"的战略定位,致力于成为AI内容生态第一平台 [2][8]
黄仁勋来华,与雷军合影曝光/马斯克:5年内AI超越所有人总和/淘宝推超级星期六,外卖大战升级
搜狐财经· 2025-07-15 09:52
英伟达中国业务动态 - 英伟达CEO黄仁勋今年第三次访华 受邀参加链博会并与小米创办人雷军会面 双方合影中出现小米SU7 Ultra车型[3] - 英伟达计划9月向中国大陆客户提供特供版芯片B20/B30/B40 目前所有特供产品需事先报备 相关方案尚未最终确定[3] - 黄仁勋多次来华目的包括沟通芯片解决方案及稳定中国区4000名员工 中国员工数占全球总员工数约11%[4] 人工智能行业重大交易 - Google以24亿美元(约172亿元人民币)收购AI编程公司Windsurf技术团队 包括CEO及部分员工加入DeepMind团队 未进行股权收购[9] - OpenAI曾以30亿美元(约215亿元人民币)报价收购Windsurf 但因与微软的技术共享协议导致交易终止[9] - 交易金额由加入Google的员工及优先股东共享 Windsurf未加入员工面临生存挑战[10] - AI初创公司Cognition AI宣布收购Windsurf知识产权及业务团队 具体金额未披露[11] 企业高管及组织变动 - 阿里巴巴集团副总裁、前钉钉总裁叶军确认离职 表示将先休息 钉钉业务由创始人陈航重新接管[20] - 钉钉近期加码AI 推出AI表格及垂直行业大模型[20] - 罗马仕核心管理层被曝在产品质量问题后失联 公司完成法人变更[8] 新能源汽车供应链 - 理想汽车产品线负责人回应L7使用HW电机问题 称选择HW数字能源电机基于市场竞争力/成本/质量考量 非技术能力不足[14] - 理想L系列采用三家电机供应商保障供应安全 前五合一模块由理想自主设计并在合资工厂生产[14] - HW终端业务与数字能源业务独立运营 不与理想形成直接竞争[15] 科技巨头战略布局 - Meta计划投资千亿美元建设多吉瓦级计算集群 包括2026年上线的普罗米修斯集群及未来扩展至5GW的许珀里翁集群[16] - 集群能耗逼近90万户家庭年用电量 Meta内部讨论放弃开源最强模型Behemoth[18] - Google计划将Android与ChromeOS合并 旨在探索笔记本使用场景并与iPad竞争[19] - ChromeOS去年已支持运行Android应用 Android 16新增桌面模式及外接显示器功能[19] AI技术发展预测 - 马斯克预测AI将在2年内超越任何单一人类 5年内超越所有人类智能总和[22] - 黄仁勋认为AI淘汰风险取决于新创意产生 生产力提升可能创造新工作岗位[25] - 特斯拉Optimus机器人升级至3.0版本 敏捷度接近人类水平[22] 中国企业融资与技术进展 - 大模型公司MiniMax完成近3亿美元融资 投后估值超40亿美元(约300亿元人民币) 为国内估值最高大模型企业之一[23] - MiniMax去年底完成30亿美元估值融资 正筹备赴港上市[24] - 字节跳动Seed团队25篇论文入选ICML 2025 涵盖LLM推理优化/多模态生成等前沿领域[23] - Index语音团队(源自B站)推出IndexTTS2语音大模型 支持零样本语音克隆及情绪控制[30][31] 新产品发布 - 鸿蒙智行亮相尚界H5 SUV及享界S9T旅行车 配备激光雷达及HUAWEI ADS 4智驾系统[28][30] - 美图发布影像AI Agent RoboNeo 支持商业级精修/品牌设计/视频生成等功能[32][33] - 制糖工厂推出68W C³充电器 具备多设备充电功能及复古设计风格[49][50] 电商与消费行业 - 罗马仕重启天猫/拼多多旗舰店 仅部分平台上架少量商品 公司称将逐步恢复产品线[7] - 阿里计划推出"超级星期六"促销活动 未来100天每周六发放188元外卖红包[41] - 潘婷因"三分钟奇迹"商标标注不明显引发争议 律师指出此类行为涉嫌违反商标法[39] 交通法规执行 - 12306明确高铁插座仅支持小型电子设备充电 禁止使用电煮锅等大功率电器 违规将面临行政处罚[34][35][36]
腾讯研究院AI速递 20250715
腾讯研究院· 2025-07-14 22:38
生成式AI - Comet浏览器采用"AI Agent原生"设计理念,实现多标签页信息连接与复杂任务执行,核心理念为"从浏览到思考" [1] - Comet通过"环境重构派"策略重构浏览器为智能环境,而非简单集成AI功能,旨在重新定义人机信息交互模式 [1] - 当前Comet仅向支付200美元的Max订阅用户开放,面临用户习惯改变与高定价双重挑战 [1] Meta战略布局 - Meta以近1亿美元估值收购语音AI公司PlayAI,团队将并入新语音AI部门,强化音频生成能力 [2] - PlayAI的语音克隆、多语言TTS及情感对话技术将补足Meta多模态内容生成短板 [2] - 此次收购是Meta 720亿美元年度AI投入计划的关键环节,与组建AI Superintelligence Labs等动作协同 [2] 具身智能突破 - 智源研究院开源RoboBrain 2 0具身智能大脑(32B 7B版本)及RoboOS 2 0框架,在10项评测中超越GPT-4o [3] - RoboBrain 2 0突破空间理解 时间建模 长链推理三大瓶颈,在9项基准测试刷新纪录 [3] - RoboOS 2 0作为全球首个具身智能SaaS开源框架,实现跨本体协作,全链路响应时延低至3ms [3] AI影像工具 - 美图发布AI影像Agent RoboNeo,支持通过指令完成图片精修 品牌设计 网页制作等全流程 [4] - RoboNeo覆盖电商运营 品牌推广等场景,可生成商业级精修图片 360°产品视频及动态广告 [5] - 实测显示该工具显著提升素材制作效率,但在连续性及物理世界理解方面存在局限 [5] AI语音技术 - B站发布AI配音模型IndexTTS2,实现中文影视剧转纯正英文配音,支持精准时长与情感控制 [6] - 模型由T2S S2M及BigVGANv2三大模块组成,在多项测试集实现SOTA表现 [6] AI视频生成 - 拍我AI上线多关键帧生成功能,支持7张图片输入生成30秒连贯视频,实现故事性表达 [7] - 新功能通过解析关键帧语义关系构建运动路径,适用于短剧分镜 产品演示等场景 [7] - 该平台全球用户已突破6000万 [7] AI伦理争议 - Grok 4回答敏感问题时64个参考来源中54个与马斯克相关,可能将"老板立场"作为默认权威 [8] - SpaceX已向xAI投资20亿美元,此前Grok曾因出格言论被紧急关闭功能 [8] 智能实验室 - LabUtopia为全球首个高保真科学实验具身智能平台,支持化学反应建模 流体物理模拟等 [9] - 平台包含LabSim仿真引擎 LabScene构建器等组件,测试显示现有算法在长链任务中表现不佳 [9] 编程哲学 - Ruby on Rails创始人DHH反对AI编程助手Copilot,认为手凿代码才能培养思维训练与肌肉记忆 [10] - 其主张"宏伟的单体应用"架构,认为小团队采用微服务是自寻死路 [10] 竞争策略 - Perplexity采用"浏览器+智能体"战略,通过Comet浏览器实现认知操作系统与多任务并行处理 [11] - 公司通过OpenAI Anthropic模型获取比谷歌更先进的AI能力,形成订阅制 按任务付费等变现路径 [11] - 机器学习团队使用AI工具将实验周期从3天缩短至1小时 [11]
B站下场自研AI配音!纯正美音版甄嬛传流出,再不用看小红书学英语了(Doge)
量子位· 2025-07-14 17:08
AI配音技术发展 - B站发布的IndexTTS2模型实现音色、情感与唇形同步的AI配音,支持时长精确控制和自动生成两种模式[3][11][12] - 模型在LibriSpeech-test-clean等测试集中多数达到SOTA水平,情感测试WER仅1.883%[22][24] - 时长控制误差小于0.02%,支持独立调节音频与情绪表达[19][25] 技术实现架构 - 首创自回归零样本TTS模型,结合精确时长控制与自然生成[33] - 三大核心模块:文本到语义(T2S)、语义到语音(S2M)、BigVGANv2声码器[36][38] - 创新采用情感适配器与梯度反转层分离情感与说话者属性[41][42] 性能验证 - 消融实验显示GPT潜在表征提升发音清晰度,S2M模块显著改善合成质量[26][28] - 在AIShell-1测试中SS指标仅落后真实语音0.004,WER误差0.038%[23] - 情感测试SMOST达4.24±0.19,显著优于MaskGCT等对比模型[25] 应用场景拓展 - 模型适用于视频配音等需音视频同步的领域[32] - 可能整合进B站"代号H"AI创作工具,支持视频播客战略[47][49] - 社区反馈显示潜在娱乐应用价值,如搞笑视频制作[9]