深度学习

搜索文档
突发!美科技巨头解散上海AI研究院,首席科学家发声
是说芯语· 2025-07-23 17:38
AWS亚马逊云科技上海AI研究院解散事件 - AWS亚马逊云科技上海AI研究院于7月22日正式解散 这是AWS最后一个海外研究院 [1] - 公司回应称解散决定基于对组织、发展重点及未来战略方向的评估 目的是优化资源并持续投资创新 [1] - 解散决定以内部通知形式突然传达 团队措手不及 [2] - 研究院核心团队完整 王敏捷表示希望与本土团队合作开发世界级AI产品 [3] 研究院历史与成就 - 研究院成立于2018年世界人工智能大会期间 是AWS在亚太地区首个AI研究机构 [5] - 初期聚焦深度学习和自然语言处理 后拓展至图神经网络和智能推荐系统等前沿领域 [5] - 开发的Deep Graph Library(DGL)成为全球图神经网络领域标杆开源项目 为亚马逊电商业务创造显著价值 [5] - 累计发表论文超90篇 覆盖机器学习顶会 与卡内基梅隆大学、复旦大学等全球高校建立合作网络 [5] 员工影响与行业趋势 - 员工安置方案尚未披露 部分员工已被国内科技企业接洽 [4] - 团队在AI Agent、图神经网络等领域经验或加速本土技术突破 [4] - 2025年以来跨国科技巨头在华研发收缩成趋势 IBM关闭运营32年的中国研发中心裁员约1800人 [7] - 微软迁移上海AI实验室数百名专家至美澳等地 英特尔和高通缩减在华5G与AI芯片投资转向东南亚 [7] 院长观点与技术背景 - 首任院长张峥是开源深度学习平台MXNet和DGL的共同创始人 [6] - 张峥曾强调AI发展需兼顾创新与伦理 指出技术对齐是关键挑战 [6] - 认为ChatGPT等生成式AI的崛起标志着"世界模型"的初步形成 [6]
Cell子刊:上海交大孙加源/熊红凯/戴文睿团队开发肺病诊断AI系统,准确率媲美专家
生物世界· 2025-07-22 15:02
胸腔内淋巴结肿大的临床挑战 - 胸腔内淋巴结肿大是肺科常见难题,表现为纵隔和肺门淋巴结异常增大,最常见恶性病因是肺癌[2] - 2022年全球新增肺癌病例约250万例,死亡约180万例,肺癌是世界第一大癌症和癌症死亡首要原因[2] - 除肺癌外,淋巴瘤、肺外肿瘤转移、结节病、结核病等良恶性疾病均可表现为胸腔内淋巴结肿大[2] AI-CEMA系统的技术突破 - 上海交大团队开发深度学习系统AI-CEMA,基于CP-EBUS多模态视频实现胸腔内淋巴结肿大诊断,准确率媲美专家[3] - 系统通过1006个淋巴结数据训练,在267个淋巴结的前瞻性多中心研究中验证,AUC达0.8490(专家AUC=0.7847)[5] - 成功迁移应用于肺部病变诊断任务,取得0.8192的AUC值[5] AI-CEMA的临床价值 - 实现胸腔内淋巴结肿大的无创诊断,诊断性能达到专家水平[6] - 提供自动化、无创且专家级的诊断方案,在胸腔内淋巴结肿大和肺部病变诊断中展现巨大潜力[8]
十年六万引,BatchNorm 封神,ICML 授予时间检验奖
36氪· 2025-07-17 16:52
论文获奖与影响力 - 论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》获ICML 2025"时间检验奖",表彰其十年间对深度学习领域的深远影响[1][3] - 论文引用量超6万次,为同时代被引用最多的深度学习文献之一[6][7] - BatchNorm成为神经网络构建的默认组件,被广泛应用于卷积层和全连接层后[7][8] 技术原理与创新 - 提出"内部协变量偏移"概念,描述神经网络训练中因参数更新导致输入数据分布变化的问题[12] - 通过小批量数据归一化(均值为0、方差为1)并引入可学习参数gamma和beta,稳定网络训练[15][17] - 使模型训练速度提升14倍(实验数据),降低对学习率和初始化的敏感性[7][20] 行业应用效果 - 在ImageNet分类任务中实现4.82% top-5错误率,超越人类评分准确率[7] - 替代Dropout起到正则化作用,减少过拟合现象[20] - 推动上百层深度网络的训练可行性,成为模型架构设计的基础组件[23][26] 后续发展与理论争议 - 激发层归一化、实例归一化等衍生技术的出现,形成归一化技术家族[25] - 理论解释从"减少协变量偏移"转向"平滑损失函数曲面"的优化视角[21] - 持续保持最广泛应用地位,成为深度学习工程实践的标准工具[26][27]
一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖
猿大侠· 2025-07-17 11:11
深度学习技术突破 - Batch Normalization论文荣获ICML 2025时间检验奖,引用量超过6万次,成为深度学习发展史上的里程碑式突破[1][2] - 该技术极大地推动了深层神经网络的训练和应用,使深度学习从小规模实验走向大规模实用化和可靠性[3] 技术原理与创新 - BatchNorm通过标准化隐藏层数据分布(均值为0、方差为1)解决"内部协变量偏移"问题,并引入可学习参数γ和β保持网络表达能力[8][12] - 实验显示使用BN后训练步数仅需原来的1/14即可达到相同精度,并在ImageNet分类任务上超越人类评估者准确率[13] 行业应用与影响 - 在BatchNorm出现前,训练深度超过几十层的网络非常困难,而ResNet等模型结合BN技术后使训练上百甚至上千层的超深度网络成为现实[16][17] - 后续几乎所有主流卷积神经网络(如ResNet, DenseNet, Inception)和其他类型模型都广泛采用BatchNorm[18] 理论发展与争议 - 2018年MIT研究挑战BN核心理论,发现其实际作用是通过平滑Optimization Landscape使梯度行为更稳定,而非解决内部协变量偏移[22][23][24] - 2022年新研究从几何视角提出BN是一种无监督学习技术,能主动适应数据内在结构并提升模型泛化能力[25][26][29] 作者动态与行业布局 - 两位作者Christian Szegedy和Sergey Ioffe先后加入马斯克团队xAI,参与开发Grok 4等产品[30][31] - Christian Szegedy后加入AI初创公司Morph Labs担任首席科学家,目标为实现"可验证的超级智能"[32][33]
一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖
量子位· 2025-07-15 16:31
Batch Normalization论文获奖及影响 - 2015年发表的Batch Normalization论文荣获ICML 2025时间检验奖,引用量超过6万次,成为深度学习里程碑式突破[1][2][4] - 该技术让深度学习从小规模实验走向大规模实用化,是深层神经网络训练和应用的关键推动力[3] BatchNorm技术原理与创新 - 提出"内部协变量偏移"概念,指训练中网络内部节点数据分布变化导致训练不稳定[8][11] - 创新性对隐藏层数据做标准化处理,引入可学习参数γ和β保持网络表达能力[12] - 实验显示使用BN后训练步数仅需原来1/14即可达到相同精度,并在ImageNet分类任务超越人类准确率[13] BatchNorm的实际应用效果 - 具有正则化效果,可替代Dropout提升模型泛化能力[15] - 使训练超深度网络成为可能,如何恺明ResNet结合BN实现上百层网络训练[16][17] - 被几乎所有主流卷积神经网络(ResNet/DenseNet/Inception)广泛采用[18] 后续研究与理论修正 - 2018年MIT研究挑战BN核心理论,发现其实际作用是使Optimization Landscape更平滑[22][24] - 2022年研究从几何视角提供新见解,认为BN是一种无监督学习技术[29] 作者现状 - 两位作者Sergey Ioffe和Christian Szegedy曾在谷歌工作十余年[30] - Christian Szegedy先后加入马斯克xAI和Morph Labs,目标实现"可验证的超级智能"[32][33][34] - Sergey Ioffe也加入xAI,可能参与Grok 4开发[32]
Cell:先导编辑+AI,全面解析ATM基因所有点突变的功能
生物世界· 2025-07-15 11:31
ATM基因研究背景 - ATM基因是调控DNA损伤应答的关键基因,其纯合功能缺失突变导致共济失调毛细血管扩张综合征,杂合功能缺失突变增加乳腺癌等多种癌症风险[5] - ATM基因包含63个外显子,突变数量随基因大小增加而显著增加,临床解读存在挑战性[2][5] - 临床遗传学面临意义未明突变(VUS)数量激增的挑战,大基因如ATM/BRCA1/2的全面功能评估尤为困难[2][6] 研究方法与技术突破 - 研究团队利用先导编辑技术对ATM基因全部27513种单核苷酸突变(SNV)进行功能评估,实验检测23092个SNV对细胞适应性的影响[7][8] - 结合PPAR抑制剂奥拉帕利处理条件,鉴定出激酶结构域中关键氨基酸残基[8] - 开发深度学习模型DeepATM,以前所未有精度预测剩余4421个SNV的功能效应[3][9] 临床价值与应用前景 - 在英国生物样本库中鉴定382个与癌症高风险相关的ATM SNV,突变功能评估可预测癌症预后[9][10] - 建立突变功能评估框架,为乳腺癌/结直肠癌/胰腺癌/前列腺癌的风险预测和精准治疗提供依据[5][10] - 研究成果为解决其他基因的VUS分类问题提供标准化技术路线[12] 数据亮点 - 全面覆盖ATM基因所有可能27513种编码SNV的功能注释[10] - 实验验证23092个SNV(占比84%)的生物学功能,深度学习预测4421个SNV(占比16%)[7][9] - 激酶结构域关键残基的发现为靶向药物开发提供新靶点[8][10]
公私募量化基金全解析
招商证券· 2025-07-13 22:35
报告行业投资评级 未提及 报告的核心观点 报告围绕公私募量化基金展开,阐述量化策略特点、国内发展历程、行业现状、运作特征与绩效表现,对比公私募差异并给出产品选择建议,助投资者了解量化基金并筛选产品[1][5][6] 根据相关目录分别进行总结 量化策略基本特点 - 量化策略基于大量历史数据,运用数据挖掘等方法发现价格规律,多因子模型是常用选股模型,因子包括基本面、量价和另类因子,近年引入机器学习因子,决策模型综合构建投资组合[10] - 量化策略严格执行模型结果,系统化挖掘投资机会,策略纪律性强,风控体系内嵌,避免主观影响,与主观投资相比,更聚焦策略广度[11][12] 国内量化投资发展历程 公募基金量化投资发展历程 - 萌芽期(2004 - 2014 年):从“主观 + 量化”探索到多因子模型初步应用,2002 年首只指数增强基金成立,2004 年首只主动量化选股公募基金成立,2006 - 2007 年牛市带动主动量化基金规模增长,此后多因子选股模型深化应用[12][15] - 加速成长期(2015 - 2021 年):多因子模型普及,量化基金规模快速扩张,指数增强策略规模增长斜率高,对冲型策略 2020 年规模达高点后萎缩[16] - 稳步发展期(2022 年至今):策略多元化,各产品线互补共进,规模增长放缓,部分管理人引入人工智能算法迭代策略,不同策略规模交替变化[19] 私募基金量化投资发展历程 - 2014 - 2015 年和 2016 - 2017 年初受益于 A 股行情增长,2019 年后在多因素作用下,2021 年新发产品数量和规模快速提升,年底备案规模达 1.08 万亿元,占比 17.1%[22][25] - 2021 - 2023 年稳步发展,2024 年面临微盘股、市场震荡、风格变化挑战,监管趋严,募资困难,2025 年备案回暖,量化私募受关注[25][26] 公私募量化基金行业发展现状 公募基金量化策略及格局分布 - 策略分类包括主动量化、指数增强、量化对冲三大权益策略,部分含权债基权益部分采用量化管理为量化固收 + 策略,但暂未纳入总体规模计算[31] - 截至 2025Q1,公募量化权益类基金数量 654 只,规模 3025.88 亿元,主动量化基金数量占比近半,规模占 28%,指数增强产品规模占比最高,对冲型基金规模最低,规模前十基金以指数增强为主,前十大管理人管理规模占比 49.6%,易方达、富国和华夏管理规模居前[32][35][37] 私募基金量化策略及管理人情况 - 量化私募参与细分策略包括量化多头、股票中性、转债策略、CTA 策略等,宏观策略部分采用主观和量化结合方法[38] - 截至 2025 年 6 月末,百亿私募量化投资基金管理人为 39 家,占比接近半数,部分成立时间早的以股票量化投资为主,博润银泰产品线多元[44] 公私募股票量化基金运作特征及绩效表现 运作特征 - 换手率高:量化基金换手率相对较高,能捕捉短期交易机会,公募量化基金年度双边换手率集中在 2 - 20 倍,高于主观股混基金,私募量化基金年双边换手 30 倍以上,高换手有佣金支出问题,技术迭代和模型更新更重要[47][48] - 持股数量多:量化基金持股数量多,分散化程度高,公募量化基金持股集中在 50 - 600 只,部分超 2000 只,高于主观基金,量化对冲型基金持股相对更多,私募量化基金持股数量往往高于公募[53][54] 绩效表现 - 指数增强产品:各年度业绩差异大,与市场情况相关,超额收益多为正值,超额获取能力中证 1000 指增 > 中证 500 指增 > 沪深 300 指增,2018 - 2023 年私募指增超额水平整体优于公募,但私募分化大[57][58] - 主动量化产品:公私募分年度收益表现差异大,2019 - 2020 年公募业绩优,2018 年、2021 - 2023 年私募业绩优,私募回撤控制整体优于公募,但业绩和回撤分化大[66] - 量化对冲产品:公募业绩波动大,2019 - 2020 年收益优,2021 年后下滑,私募收益显著跑赢公募,业绩分化大于公募,2019 - 2021 年私募回撤控制弱于公募,2022 和 2023 年相对更优[70] 公募量化与私募量化的投资运作差异 - 法规监管与合同:公募受《证券投资基金法》约束,公开募集,监管强度高,信息透明度高,合同标准化,风险等级低;私募受《私募投资基金监督管理条例》约束,非公开募集,合同定制化,风险等级高[6][79] - 管理人行为:公募依托建制化团队和标准化 IT 设施,侧重风控合规,策略统一;私募采用精英化架构,硬件投入和激励强度高,产品策略可能分化[6][81] - 投资策略与限制:公募投资范围和跟踪误差约束严格,追求稳健,换手率低;私募机制灵活,对冲工具丰富,敞口容忍度高,超额收益弹性大,近年公募引入高频量价因子,私募引入基本面因子[6][84] - 费率条款:私募费率条款复杂,采用“管理费 + 业绩报酬”,业绩报酬计提方式多元,公募条款相对简化,仅收管理费和托管费,建议关注费后收益[6][87] 量化产品如何选择 量化策略的影响机制:环境约束与收益解构 - 收益归因视角:量化策略绩效由 Alpha - Beta - 成本三角模型驱动,Beta 管理关注风格暴露度和行业偏离度,Alpha 生成靠因子挖掘,空头成本影响量化对冲产品收益,股指期货贴水率高会侵蚀收益[91][94] - 市场环境影响视角:市场走势影响量化策略系统性收益和风险敞口,市场流动性影响交易摩擦成本和定价偏差,市场分化度是 Alpha 源泉和风险温床,头部机构会动态调节策略[95][96][100] 策略定位的动态适配:风险预算与场景映射 - 投资者应结合风险偏好、投资期限、资金性质选择量化策略,锚定型产品适合跟踪指数或作底仓,进取型产品适合高风险偏好者,避险型产品适合低风险偏好者[101][102][104] 定量筛选:核心业绩指标验证 - 筛选量化产品应注意绩效与风控平衡、关注长期可持续性、注重策略适配性,可参考绝对收益/超额收益、信息比率、Calmar 比率等指标[105][107] 定性深度评判:护城河构建要素 - 选择量化产品需定性评估,考察投研团队背景、策略逻辑可解释性、策略迭代能力、策略拥挤度、软硬件投入和策略容量等因素,避免选择存在问题的产品[108][110][111]
DLC中国深度学习年会正式发布!AI与PBL引领课堂创新
南方都市报· 2025-07-12 13:41
会议概况 - 2025年中国深度学习年会暨第三期优联论坛线上发布会于7月10日举行,聚焦"AI与PBL引领课堂创新"主题,探讨人工智能与项目式学习如何推动教育变革[1] - 会议由DLC深度学习中心主办,广州优联学校协办[1] - 2025年中国深度学习年会将于11月正式举行[5] 行业趋势与教育理念 - AI技术快速发展正在重塑教育生态,未来社会对人才需求结构发生根本性转变[3] - 教育核心任务从让学生"知道更多"转变为帮助他们"成为更完整的人"[3] - "深度学习"理念由美国教育基金会提出,强调以学生为中心、融合批判性思维与真实任务的课程体系[6] 项目式学习(PBL)实践 - 高质量PBL具备三大特征:真实问题驱动、协作与探究过程导向、成果公开呈现[3] - 广州优联学校将PBL系统性融入课程体系,设置G9-G10必修课并创建CTB全球青年创新项目社团[5] - 学生通过解决真实问题(如设计环保方案、分析社区经济问题)培养跨学科能力[5] 机构与项目介绍 - DLC中国深度学习中心成立于2019年,是推动深度学习教育理念在中国落地的公益性教育创新平台[6] - "深潜工作坊"提供沉浸式学习体验,内容包括AI辅助设计、跨学科项目实践等[5] - 已确认工作坊包括"HTH研究生院的AI辅助项目设计""Spark Curiosity GPT教练""定制化聊天机器人"等[5]
Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文
机器之心· 2025-07-10 18:49
核心观点 - 苹果基础模型团队负责人庞若鸣即将加入Meta,Meta开出2亿美金天价邀请其加入[2] - 庞若鸣在离职前完成苹果基础模型AXLearn的研究,该系统具有高度模块化和异构硬件支持特性[4][6] - AXLearn在代码复杂度、训练性能和推理性能上均显著优于主流系统[7][24][33] 技术架构 - AXLearn由组合器和执行框架构成,支持JAX程序生成与分布式硬件调度[16][17][19] - 系统通过严格封装实现模块化,集成RoPE和MoE功能仅需10行代码,其他系统需数百行[14][24] - 支持GPU/TPU/Trainium等异构硬件,自动优化分片策略和XLA编译选项[12][18][27] 性能表现 - 代码复杂度恒定为O(1),其他系统达O(NM)线性增长,RoPE集成代码量对比:AXLearn(0行) vs Megatron-LM(400行)[24] - 训练性能:Llama2-7B在TPU-v5p-512上MFU达66.2%,超MaxText(61.6%);70B模型在TPU-v5p-1024上吞吐量360K tokens/s[29] - 推理性能:AXLearn在70B模型上TTFT延迟仅150.5ms,较vLLM(80213.6ms)提速500倍;吞吐量超vLLM 1.6倍[33][34] 应用规模 - 支持超10,000个并行实验,部署于数十种硬件集群,训练模型参数规模达万亿级[35][36] - 已应用于智能助手、多模态生成等十亿级用户产品[37]
浙江大学最新Cell论文:AI基因组模型——女娲CE,破译脊椎动物基因组调控语言
生物世界· 2025-07-09 08:09
基因组学与深度学习 - 多细胞生物中不同细胞类型拥有相同基因组但通过基因表达差异调控实现功能特化 调控序列通过细胞类型特异性方式招募转录因子决定基因表达模式 [2] - 染色质可及性是调控DNA的通用标志 可通过DNase-seq和ATAC-seq测量 但大多数物种仍缺乏全面的细胞类型解析调控序列图谱 [2] - 深度学习模型可直接从DNA序列预测调控和表达信号 郭国骥团队开发的Nvwa模型实现单细胞分辨率基因表达预测 Huatuo模型可解码疾病相关调控序列 [3] - 当前细胞图谱数据在灵敏度或通量方面存在局限 阻碍高精度预测模型生成 [3] 技术突破与研究成果 - 郭国骥团队开发超高通量超灵敏单核ATAC测序技术UUATAC-seq 一天内可完成物种染色质可及性图谱构建 [5][8] - 在五大脊椎动物(小鼠/鸡/守宫/蝾螈/斑马鱼)中绘制候选顺式调控元件(cCRE)图谱 发现基因组大小差异影响cCRE数量但不影响其大小 [9][10] - 开发多任务深度学习模型NvwaCE 实现从基因组序列到单细胞水平调控元件图谱的直接预测 在多项指标上超越现有基因组AI模型 [5][11] 模型性能与应用验证 - NvwaCE证明调控"语法"保守性强于核苷酸序列 并将cCRE组织成不同功能模块 揭示细胞类型特异性基因表达的序列基础 [6][11] - 模型精准预测合成突变对谱系特异性cCRE功能的影响 与QTL和基因编辑结果一致 [13] - 首次预测出镰状细胞病治愈性突变位点(HBG1-68:A>G) 基因编辑验证显示胎儿血红蛋白表达量显著提升 证明AI模型预测功能性位点的性能 [13][14] 研究意义与行业影响 - UUATAC-seq技术高效构建染色质可及性图谱 NvwaCE模型为破译脊椎动物基因组调控语言提供资源 [15] - 研究成果为全面解读基因组语言和建立数字生命模型奠定基础 [6]