深度学习
搜索文档
“AI大神”李沐终于开源新模型,爆肝6个月,上线迅速斩获3.6k stars!
AI前线· 2025-07-25 13:36
技术突破与创新 - 开源音频基础模型Higgs Audio v2基于Llama-3.2-3B架构,预训练数据包含1000万小时音频及丰富文本数据,Github获3.6k stars [1] - 模型创新性地将语音数据融入文本大语言模型训练,实现"能听会说"的多模态能力,而非单独训练语音模型 [2][5] - 在EmergentTTS-Eval测评中,情绪和提问类别分别以75.7%和55.7%胜率超越gpt-4o-mini-tts,并在Seed-TTS Eval等基准测试中达业界领先 [3] - 采用语义优先的tokenizer策略,实现375倍音频压缩率(1小时语音压缩至0.16MB),保留核心语义信息 [15][17] - 关键技术创新包括:自动化标注流程处理1000万小时AudioVerse数据、统一音频分词器、DualFFN架构(保留91%原始训练速度) [26] 模型架构与训练 - 沿用文本模型的"system-user-assistant"交互框架,通过多轮指令控制实现复杂语音任务(如带情感的角色对话) [8][11] - 语音信号通过离散化处理:每100毫秒片段匹配45个声学模板,1秒音频用24个token表示(64k词表) [15] - 训练采用生成模型与理解模型协同进化策略,两者输入输出互逆形成闭环训练系统 [22] - 数据来源规避版权风险,采购合规数据或清洗公开数据(1亿小时原始素材筛选出1000万小时有效数据) [19] 应用场景拓展 - 支持多语种自然对话生成、语调适配、声音克隆哼唱、语音与背景音乐同步生成等复合功能 [6] - 突破传统TTS局限,实现带场景理解的情感语音合成(如根据角色性格生成吵架对话) [11] - 语音理解方面可分析说话者性别年龄、场景类型(室内/室外)、交互状态(教学/争吵)等上下文信息 [12] - 低延迟交互能力支持实时语音聊天,实现接近人类对话的流畅体验 [13] 行业影响 - 开创性验证"文本+语音"多模态统一建模路径,打破传统单任务语音模型局限 [10][13] - 演示大语言模型通过数据扩展(1000万小时音频)实现能力边界突破的scaling law应用 [13][19] - 技术路线具有可扩展性,相同框架可延伸至音乐生成、环境音分析等更广泛音频领域 [11][12]
Nature:Meta公司开发非侵入式神经运动接口,实现丝滑人机交互
生物世界· 2025-07-24 15:31
人机交互技术革新 - Meta公司现实实验室研发了一款手腕佩戴装置,可通过手写动作实现人机交互,无需个性化校准或侵入性手术[3] - 该装置将手腕肌肉电信号转换为计算机指令,显著提升交互流畅度和可及性规模[3] 技术原理与性能 - 研究团队基于数千名受试者数据开发高灵敏度手环,结合深度学习构建泛型解码模型,性能遵循尺度定律(随模型规模和数据量提升)[5] - 装置通过蓝牙实时识别手势,支持虚拟导航和文本输入(每分钟20.9个单词,手机键盘平均36词/分钟)[6] - 个性化数据可进一步优化解码精度,为生物信号解码器广泛应用提供方向[5] 应用场景与数据共享 - 神经运动手环特别适用于行动受限群体(如肌无力、瘫痪患者),改善其计算机交互能力[8] - 团队公开了包含300名受试者、超100小时表面肌电信号记录的数据库,推动sEMG领域研究[9] 学术成果发布 - 研究成果发表于Nature期刊,标题为《A generic non-invasive neuromotor interface for human-computer interaction》[2][10]
突发!美科技巨头解散上海AI研究院,首席科学家发声
是说芯语· 2025-07-23 17:38
AWS亚马逊云科技上海AI研究院解散事件 - AWS亚马逊云科技上海AI研究院于7月22日正式解散 这是AWS最后一个海外研究院 [1] - 公司回应称解散决定基于对组织、发展重点及未来战略方向的评估 目的是优化资源并持续投资创新 [1] - 解散决定以内部通知形式突然传达 团队措手不及 [2] - 研究院核心团队完整 王敏捷表示希望与本土团队合作开发世界级AI产品 [3] 研究院历史与成就 - 研究院成立于2018年世界人工智能大会期间 是AWS在亚太地区首个AI研究机构 [5] - 初期聚焦深度学习和自然语言处理 后拓展至图神经网络和智能推荐系统等前沿领域 [5] - 开发的Deep Graph Library(DGL)成为全球图神经网络领域标杆开源项目 为亚马逊电商业务创造显著价值 [5] - 累计发表论文超90篇 覆盖机器学习顶会 与卡内基梅隆大学、复旦大学等全球高校建立合作网络 [5] 员工影响与行业趋势 - 员工安置方案尚未披露 部分员工已被国内科技企业接洽 [4] - 团队在AI Agent、图神经网络等领域经验或加速本土技术突破 [4] - 2025年以来跨国科技巨头在华研发收缩成趋势 IBM关闭运营32年的中国研发中心裁员约1800人 [7] - 微软迁移上海AI实验室数百名专家至美澳等地 英特尔和高通缩减在华5G与AI芯片投资转向东南亚 [7] 院长观点与技术背景 - 首任院长张峥是开源深度学习平台MXNet和DGL的共同创始人 [6] - 张峥曾强调AI发展需兼顾创新与伦理 指出技术对齐是关键挑战 [6] - 认为ChatGPT等生成式AI的崛起标志着"世界模型"的初步形成 [6]
地平线的“无人区”突围
华尔街见闻· 2025-07-22 20:06
行业核心观点 - 当前中国汽车行业头部玩家普遍将全栈自研智能驾驶视为必须掌握的“灵魂”,并为此投入巨额资金[2] - 地平线创始人余凯提出“反共识”的“智驾基带论”,认为智能驾驶终将演变为标准化功能模块,车企应聚焦品牌“情绪价值”而非重复自研[2][5] - 行业面临根本性问题:智能汽车下半场的产业形态是赢家通吃的“垂直帝国”,还是专业分工的“开放联盟”[3] 地平线战略定位与商业模式 - 公司战略生态位是成为行业不可或缺的“军火商”,不做争夺“灵魂”的整车玩家[6] - 生存法则是成为“另一个选择”,通过软硬协同并行开发提供高性价比、深度服务的平台[7] - “征程6”系列计算方案在理想、比亚迪、奇瑞等头部车企新车型上搭载,是其“基带理论”的关键市场验证[2] 创始人背景与公司关键转折 - 余凯学生时代便投身当时极为冷门的深度学习研究,坚信“这个世界永远是少数人创造的”[9] - 2015年创业时做出关键“反共识”决策:在所有人涌向软件算法时坚持做专用芯片[9] - 2019年是公司转折点,采纳曾鸣教授和李想建议“舍九取一”,砍掉汽车以外所有业务,一个月内将规模收缩至一半[10] 市场破局与客户合作 - 第一个突破口是长安汽车,双方团队三伏天联合开发,2020年首颗车规级芯片“征程2”在长安UNI-T上量产并成为爆款[11] - 与理想汽车联手是关键一役,因Mobileye无法本地化修改,双方仅用8个月完成理想ONE芯片替换和量产[11] - 成功归因于核心能力“一切商业的本质都是同理心”,与客户文化契合[11] 技术路线与未来愿景 - 自动驾驶技术路线图分三步走:3年内实现大规模“脱手开”,5年内实现关键场景“闭眼开”,10年内实现限定场景“随心开”[12] - 真正野望是构建“机器人时代的CUDA”或“Wintel”联盟,打造开放、软硬一体的计算平台赋能万千机器人[13] - 终极目标是推动全新计算范式,定义软硬件标准,聚焦物理世界AI,将人类从繁重劳动中解放[14] 技术挑战与行业竞争 - 未来计算架构需颠覆式创新,推倒现有冯·诺依曼架构,实现计算与存储融合以提升能效,对标人脑20瓦功耗5000T算力[15] - 面临顶级芯片供应商技术迭代和科技巨头“车-云-端”一体化生态的竞争,以及车企将数百亿研发投入转化为护城河的压力[16] - 公司已从边缘挑战者变为牌桌上不可忽视的力量,但将“基带”模式推广为行业标准的道路依然漫长[16]
Cell子刊:上海交大孙加源/熊红凯/戴文睿团队开发肺病诊断AI系统,准确率媲美专家
生物世界· 2025-07-22 15:02
胸腔内淋巴结肿大的临床挑战 - 胸腔内淋巴结肿大是肺科常见难题,表现为纵隔和肺门淋巴结异常增大,最常见恶性病因是肺癌[2] - 2022年全球新增肺癌病例约250万例,死亡约180万例,肺癌是世界第一大癌症和癌症死亡首要原因[2] - 除肺癌外,淋巴瘤、肺外肿瘤转移、结节病、结核病等良恶性疾病均可表现为胸腔内淋巴结肿大[2] AI-CEMA系统的技术突破 - 上海交大团队开发深度学习系统AI-CEMA,基于CP-EBUS多模态视频实现胸腔内淋巴结肿大诊断,准确率媲美专家[3] - 系统通过1006个淋巴结数据训练,在267个淋巴结的前瞻性多中心研究中验证,AUC达0.8490(专家AUC=0.7847)[5] - 成功迁移应用于肺部病变诊断任务,取得0.8192的AUC值[5] AI-CEMA的临床价值 - 实现胸腔内淋巴结肿大的无创诊断,诊断性能达到专家水平[6] - 提供自动化、无创且专家级的诊断方案,在胸腔内淋巴结肿大和肺部病变诊断中展现巨大潜力[8]
十年六万引,BatchNorm 封神,ICML 授予时间检验奖
36氪· 2025-07-17 16:52
论文获奖与影响力 - 论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》获ICML 2025"时间检验奖",表彰其十年间对深度学习领域的深远影响[1][3] - 论文引用量超6万次,为同时代被引用最多的深度学习文献之一[6][7] - BatchNorm成为神经网络构建的默认组件,被广泛应用于卷积层和全连接层后[7][8] 技术原理与创新 - 提出"内部协变量偏移"概念,描述神经网络训练中因参数更新导致输入数据分布变化的问题[12] - 通过小批量数据归一化(均值为0、方差为1)并引入可学习参数gamma和beta,稳定网络训练[15][17] - 使模型训练速度提升14倍(实验数据),降低对学习率和初始化的敏感性[7][20] 行业应用效果 - 在ImageNet分类任务中实现4.82% top-5错误率,超越人类评分准确率[7] - 替代Dropout起到正则化作用,减少过拟合现象[20] - 推动上百层深度网络的训练可行性,成为模型架构设计的基础组件[23][26] 后续发展与理论争议 - 激发层归一化、实例归一化等衍生技术的出现,形成归一化技术家族[25] - 理论解释从"减少协变量偏移"转向"平滑损失函数曲面"的优化视角[21] - 持续保持最广泛应用地位,成为深度学习工程实践的标准工具[26][27]
一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖
猿大侠· 2025-07-17 11:11
深度学习技术突破 - Batch Normalization论文荣获ICML 2025时间检验奖,引用量超过6万次,成为深度学习发展史上的里程碑式突破[1][2] - 该技术极大地推动了深层神经网络的训练和应用,使深度学习从小规模实验走向大规模实用化和可靠性[3] 技术原理与创新 - BatchNorm通过标准化隐藏层数据分布(均值为0、方差为1)解决"内部协变量偏移"问题,并引入可学习参数γ和β保持网络表达能力[8][12] - 实验显示使用BN后训练步数仅需原来的1/14即可达到相同精度,并在ImageNet分类任务上超越人类评估者准确率[13] 行业应用与影响 - 在BatchNorm出现前,训练深度超过几十层的网络非常困难,而ResNet等模型结合BN技术后使训练上百甚至上千层的超深度网络成为现实[16][17] - 后续几乎所有主流卷积神经网络(如ResNet, DenseNet, Inception)和其他类型模型都广泛采用BatchNorm[18] 理论发展与争议 - 2018年MIT研究挑战BN核心理论,发现其实际作用是通过平滑Optimization Landscape使梯度行为更稳定,而非解决内部协变量偏移[22][23][24] - 2022年新研究从几何视角提出BN是一种无监督学习技术,能主动适应数据内在结构并提升模型泛化能力[25][26][29] 作者动态与行业布局 - 两位作者Christian Szegedy和Sergey Ioffe先后加入马斯克团队xAI,参与开发Grok 4等产品[30][31] - Christian Szegedy后加入AI初创公司Morph Labs担任首席科学家,目标为实现"可验证的超级智能"[32][33]
一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖
量子位· 2025-07-15 16:31
Batch Normalization论文获奖及影响 - 2015年发表的Batch Normalization论文荣获ICML 2025时间检验奖,引用量超过6万次,成为深度学习里程碑式突破[1][2][4] - 该技术让深度学习从小规模实验走向大规模实用化,是深层神经网络训练和应用的关键推动力[3] BatchNorm技术原理与创新 - 提出"内部协变量偏移"概念,指训练中网络内部节点数据分布变化导致训练不稳定[8][11] - 创新性对隐藏层数据做标准化处理,引入可学习参数γ和β保持网络表达能力[12] - 实验显示使用BN后训练步数仅需原来1/14即可达到相同精度,并在ImageNet分类任务超越人类准确率[13] BatchNorm的实际应用效果 - 具有正则化效果,可替代Dropout提升模型泛化能力[15] - 使训练超深度网络成为可能,如何恺明ResNet结合BN实现上百层网络训练[16][17] - 被几乎所有主流卷积神经网络(ResNet/DenseNet/Inception)广泛采用[18] 后续研究与理论修正 - 2018年MIT研究挑战BN核心理论,发现其实际作用是使Optimization Landscape更平滑[22][24] - 2022年研究从几何视角提供新见解,认为BN是一种无监督学习技术[29] 作者现状 - 两位作者Sergey Ioffe和Christian Szegedy曾在谷歌工作十余年[30] - Christian Szegedy先后加入马斯克xAI和Morph Labs,目标实现"可验证的超级智能"[32][33][34] - Sergey Ioffe也加入xAI,可能参与Grok 4开发[32]
Cell:先导编辑+AI,全面解析ATM基因所有点突变的功能
生物世界· 2025-07-15 11:31
ATM基因研究背景 - ATM基因是调控DNA损伤应答的关键基因,其纯合功能缺失突变导致共济失调毛细血管扩张综合征,杂合功能缺失突变增加乳腺癌等多种癌症风险[5] - ATM基因包含63个外显子,突变数量随基因大小增加而显著增加,临床解读存在挑战性[2][5] - 临床遗传学面临意义未明突变(VUS)数量激增的挑战,大基因如ATM/BRCA1/2的全面功能评估尤为困难[2][6] 研究方法与技术突破 - 研究团队利用先导编辑技术对ATM基因全部27513种单核苷酸突变(SNV)进行功能评估,实验检测23092个SNV对细胞适应性的影响[7][8] - 结合PPAR抑制剂奥拉帕利处理条件,鉴定出激酶结构域中关键氨基酸残基[8] - 开发深度学习模型DeepATM,以前所未有精度预测剩余4421个SNV的功能效应[3][9] 临床价值与应用前景 - 在英国生物样本库中鉴定382个与癌症高风险相关的ATM SNV,突变功能评估可预测癌症预后[9][10] - 建立突变功能评估框架,为乳腺癌/结直肠癌/胰腺癌/前列腺癌的风险预测和精准治疗提供依据[5][10] - 研究成果为解决其他基因的VUS分类问题提供标准化技术路线[12] 数据亮点 - 全面覆盖ATM基因所有可能27513种编码SNV的功能注释[10] - 实验验证23092个SNV(占比84%)的生物学功能,深度学习预测4421个SNV(占比16%)[7][9] - 激酶结构域关键残基的发现为靶向药物开发提供新靶点[8][10]
公私募量化基金全解析
招商证券· 2025-07-13 22:35
报告行业投资评级 未提及 报告的核心观点 报告围绕公私募量化基金展开,阐述量化策略特点、国内发展历程、行业现状、运作特征与绩效表现,对比公私募差异并给出产品选择建议,助投资者了解量化基金并筛选产品[1][5][6] 根据相关目录分别进行总结 量化策略基本特点 - 量化策略基于大量历史数据,运用数据挖掘等方法发现价格规律,多因子模型是常用选股模型,因子包括基本面、量价和另类因子,近年引入机器学习因子,决策模型综合构建投资组合[10] - 量化策略严格执行模型结果,系统化挖掘投资机会,策略纪律性强,风控体系内嵌,避免主观影响,与主观投资相比,更聚焦策略广度[11][12] 国内量化投资发展历程 公募基金量化投资发展历程 - 萌芽期(2004 - 2014 年):从“主观 + 量化”探索到多因子模型初步应用,2002 年首只指数增强基金成立,2004 年首只主动量化选股公募基金成立,2006 - 2007 年牛市带动主动量化基金规模增长,此后多因子选股模型深化应用[12][15] - 加速成长期(2015 - 2021 年):多因子模型普及,量化基金规模快速扩张,指数增强策略规模增长斜率高,对冲型策略 2020 年规模达高点后萎缩[16] - 稳步发展期(2022 年至今):策略多元化,各产品线互补共进,规模增长放缓,部分管理人引入人工智能算法迭代策略,不同策略规模交替变化[19] 私募基金量化投资发展历程 - 2014 - 2015 年和 2016 - 2017 年初受益于 A 股行情增长,2019 年后在多因素作用下,2021 年新发产品数量和规模快速提升,年底备案规模达 1.08 万亿元,占比 17.1%[22][25] - 2021 - 2023 年稳步发展,2024 年面临微盘股、市场震荡、风格变化挑战,监管趋严,募资困难,2025 年备案回暖,量化私募受关注[25][26] 公私募量化基金行业发展现状 公募基金量化策略及格局分布 - 策略分类包括主动量化、指数增强、量化对冲三大权益策略,部分含权债基权益部分采用量化管理为量化固收 + 策略,但暂未纳入总体规模计算[31] - 截至 2025Q1,公募量化权益类基金数量 654 只,规模 3025.88 亿元,主动量化基金数量占比近半,规模占 28%,指数增强产品规模占比最高,对冲型基金规模最低,规模前十基金以指数增强为主,前十大管理人管理规模占比 49.6%,易方达、富国和华夏管理规模居前[32][35][37] 私募基金量化策略及管理人情况 - 量化私募参与细分策略包括量化多头、股票中性、转债策略、CTA 策略等,宏观策略部分采用主观和量化结合方法[38] - 截至 2025 年 6 月末,百亿私募量化投资基金管理人为 39 家,占比接近半数,部分成立时间早的以股票量化投资为主,博润银泰产品线多元[44] 公私募股票量化基金运作特征及绩效表现 运作特征 - 换手率高:量化基金换手率相对较高,能捕捉短期交易机会,公募量化基金年度双边换手率集中在 2 - 20 倍,高于主观股混基金,私募量化基金年双边换手 30 倍以上,高换手有佣金支出问题,技术迭代和模型更新更重要[47][48] - 持股数量多:量化基金持股数量多,分散化程度高,公募量化基金持股集中在 50 - 600 只,部分超 2000 只,高于主观基金,量化对冲型基金持股相对更多,私募量化基金持股数量往往高于公募[53][54] 绩效表现 - 指数增强产品:各年度业绩差异大,与市场情况相关,超额收益多为正值,超额获取能力中证 1000 指增 > 中证 500 指增 > 沪深 300 指增,2018 - 2023 年私募指增超额水平整体优于公募,但私募分化大[57][58] - 主动量化产品:公私募分年度收益表现差异大,2019 - 2020 年公募业绩优,2018 年、2021 - 2023 年私募业绩优,私募回撤控制整体优于公募,但业绩和回撤分化大[66] - 量化对冲产品:公募业绩波动大,2019 - 2020 年收益优,2021 年后下滑,私募收益显著跑赢公募,业绩分化大于公募,2019 - 2021 年私募回撤控制弱于公募,2022 和 2023 年相对更优[70] 公募量化与私募量化的投资运作差异 - 法规监管与合同:公募受《证券投资基金法》约束,公开募集,监管强度高,信息透明度高,合同标准化,风险等级低;私募受《私募投资基金监督管理条例》约束,非公开募集,合同定制化,风险等级高[6][79] - 管理人行为:公募依托建制化团队和标准化 IT 设施,侧重风控合规,策略统一;私募采用精英化架构,硬件投入和激励强度高,产品策略可能分化[6][81] - 投资策略与限制:公募投资范围和跟踪误差约束严格,追求稳健,换手率低;私募机制灵活,对冲工具丰富,敞口容忍度高,超额收益弹性大,近年公募引入高频量价因子,私募引入基本面因子[6][84] - 费率条款:私募费率条款复杂,采用“管理费 + 业绩报酬”,业绩报酬计提方式多元,公募条款相对简化,仅收管理费和托管费,建议关注费后收益[6][87] 量化产品如何选择 量化策略的影响机制:环境约束与收益解构 - 收益归因视角:量化策略绩效由 Alpha - Beta - 成本三角模型驱动,Beta 管理关注风格暴露度和行业偏离度,Alpha 生成靠因子挖掘,空头成本影响量化对冲产品收益,股指期货贴水率高会侵蚀收益[91][94] - 市场环境影响视角:市场走势影响量化策略系统性收益和风险敞口,市场流动性影响交易摩擦成本和定价偏差,市场分化度是 Alpha 源泉和风险温床,头部机构会动态调节策略[95][96][100] 策略定位的动态适配:风险预算与场景映射 - 投资者应结合风险偏好、投资期限、资金性质选择量化策略,锚定型产品适合跟踪指数或作底仓,进取型产品适合高风险偏好者,避险型产品适合低风险偏好者[101][102][104] 定量筛选:核心业绩指标验证 - 筛选量化产品应注意绩效与风控平衡、关注长期可持续性、注重策略适配性,可参考绝对收益/超额收益、信息比率、Calmar 比率等指标[105][107] 定性深度评判:护城河构建要素 - 选择量化产品需定性评估,考察投研团队背景、策略逻辑可解释性、策略迭代能力、策略拥挤度、软硬件投入和策略容量等因素,避免选择存在问题的产品[108][110][111]