深度学习
搜索文档
首访上海,“AI之父”缘何掀起浪潮?
国际金融报· 2025-07-28 21:06
行业技术发展 - 杰弗里·辛顿在人工神经网络领域的长期研究为深度学习技术奠定基础 其与团队提出的反向传播方法是训练人工神经网络的关键突破 被誉为机器学习的缺失数学部分 [6] - 2012年辛顿与团队开发的AlexNet模型赢得ImageNet竞赛冠军 推动深度学习从边缘技术转变为人工智能核心 引发全球科技巨头对神经网络技术的巨额投资 [7] - GPU技术的迅猛发展为人工神经网络研究注入新生命力 成为该领域发展的关键转折点 [6] 技术突破与影响 - 反向传播技术实际应用改变世界 每日有数亿用户使用基于神经网络的聊天机器人 这些系统通过大量文本数据训练的神经网络架构生成响应 [6] - 深度学习被全球科技巨头视为人工智能发展核心引擎 学术界重新重视神经网络理论 推动人工智能进入新时代 [7][8] - 大语言模型延续了辛顿1985年构建的语言与神经联结模型框架 采用更多词汇输入 多层神经元结构和复杂特征交互模式 其语言理解方式与人类高度相似 [10] 技术范式与安全 - 人工智能存在两大主流范式:逻辑型(智能基于符号规则推理)和生物学基础型(智能基于学习与联结网络) [10] - 辛顿估计人工智能接管并摧毁人类文明的概率达10%至20% 呼吁将至少三分之一计算资源投入人工智能安全研究 [11] - 批评大型科技公司将商业利益置于监管之上 警告放松管制会加速风险积聚 [11] 行业警示与趋势 - 人工智能发展速度超越专家预测 一旦超越人类智能可能无法阻止其掌控一切 [10] - 专家共识认为人类终将创造出比自己更聪明的人工智能 智能体未来会为生存和完成任务寻求更多控制权 [11] - 辛顿将研究重心转向AI安全 呼吁建立全球性AI安全协作机制 警告通用人工智能可能带来存在性威胁 [11]
“AI大神”李沐终于开源新模型,爆肝6个月,上线迅速斩获3.6k stars!
AI前线· 2025-07-25 13:36
技术突破与创新 - 开源音频基础模型Higgs Audio v2基于Llama-3.2-3B架构,预训练数据包含1000万小时音频及丰富文本数据,Github获3.6k stars [1] - 模型创新性地将语音数据融入文本大语言模型训练,实现"能听会说"的多模态能力,而非单独训练语音模型 [2][5] - 在EmergentTTS-Eval测评中,情绪和提问类别分别以75.7%和55.7%胜率超越gpt-4o-mini-tts,并在Seed-TTS Eval等基准测试中达业界领先 [3] - 采用语义优先的tokenizer策略,实现375倍音频压缩率(1小时语音压缩至0.16MB),保留核心语义信息 [15][17] - 关键技术创新包括:自动化标注流程处理1000万小时AudioVerse数据、统一音频分词器、DualFFN架构(保留91%原始训练速度) [26] 模型架构与训练 - 沿用文本模型的"system-user-assistant"交互框架,通过多轮指令控制实现复杂语音任务(如带情感的角色对话) [8][11] - 语音信号通过离散化处理:每100毫秒片段匹配45个声学模板,1秒音频用24个token表示(64k词表) [15] - 训练采用生成模型与理解模型协同进化策略,两者输入输出互逆形成闭环训练系统 [22] - 数据来源规避版权风险,采购合规数据或清洗公开数据(1亿小时原始素材筛选出1000万小时有效数据) [19] 应用场景拓展 - 支持多语种自然对话生成、语调适配、声音克隆哼唱、语音与背景音乐同步生成等复合功能 [6] - 突破传统TTS局限,实现带场景理解的情感语音合成(如根据角色性格生成吵架对话) [11] - 语音理解方面可分析说话者性别年龄、场景类型(室内/室外)、交互状态(教学/争吵)等上下文信息 [12] - 低延迟交互能力支持实时语音聊天,实现接近人类对话的流畅体验 [13] 行业影响 - 开创性验证"文本+语音"多模态统一建模路径,打破传统单任务语音模型局限 [10][13] - 演示大语言模型通过数据扩展(1000万小时音频)实现能力边界突破的scaling law应用 [13][19] - 技术路线具有可扩展性,相同框架可延伸至音乐生成、环境音分析等更广泛音频领域 [11][12]
Nature:Meta公司开发非侵入式神经运动接口,实现丝滑人机交互
生物世界· 2025-07-24 15:31
人机交互技术革新 - Meta公司现实实验室研发了一款手腕佩戴装置,可通过手写动作实现人机交互,无需个性化校准或侵入性手术[3] - 该装置将手腕肌肉电信号转换为计算机指令,显著提升交互流畅度和可及性规模[3] 技术原理与性能 - 研究团队基于数千名受试者数据开发高灵敏度手环,结合深度学习构建泛型解码模型,性能遵循尺度定律(随模型规模和数据量提升)[5] - 装置通过蓝牙实时识别手势,支持虚拟导航和文本输入(每分钟20.9个单词,手机键盘平均36词/分钟)[6] - 个性化数据可进一步优化解码精度,为生物信号解码器广泛应用提供方向[5] 应用场景与数据共享 - 神经运动手环特别适用于行动受限群体(如肌无力、瘫痪患者),改善其计算机交互能力[8] - 团队公开了包含300名受试者、超100小时表面肌电信号记录的数据库,推动sEMG领域研究[9] 学术成果发布 - 研究成果发表于Nature期刊,标题为《A generic non-invasive neuromotor interface for human-computer interaction》[2][10]
突发!美科技巨头解散上海AI研究院,首席科学家发声
是说芯语· 2025-07-23 17:38
AWS亚马逊云科技上海AI研究院解散事件 - AWS亚马逊云科技上海AI研究院于7月22日正式解散 这是AWS最后一个海外研究院 [1] - 公司回应称解散决定基于对组织、发展重点及未来战略方向的评估 目的是优化资源并持续投资创新 [1] - 解散决定以内部通知形式突然传达 团队措手不及 [2] - 研究院核心团队完整 王敏捷表示希望与本土团队合作开发世界级AI产品 [3] 研究院历史与成就 - 研究院成立于2018年世界人工智能大会期间 是AWS在亚太地区首个AI研究机构 [5] - 初期聚焦深度学习和自然语言处理 后拓展至图神经网络和智能推荐系统等前沿领域 [5] - 开发的Deep Graph Library(DGL)成为全球图神经网络领域标杆开源项目 为亚马逊电商业务创造显著价值 [5] - 累计发表论文超90篇 覆盖机器学习顶会 与卡内基梅隆大学、复旦大学等全球高校建立合作网络 [5] 员工影响与行业趋势 - 员工安置方案尚未披露 部分员工已被国内科技企业接洽 [4] - 团队在AI Agent、图神经网络等领域经验或加速本土技术突破 [4] - 2025年以来跨国科技巨头在华研发收缩成趋势 IBM关闭运营32年的中国研发中心裁员约1800人 [7] - 微软迁移上海AI实验室数百名专家至美澳等地 英特尔和高通缩减在华5G与AI芯片投资转向东南亚 [7] 院长观点与技术背景 - 首任院长张峥是开源深度学习平台MXNet和DGL的共同创始人 [6] - 张峥曾强调AI发展需兼顾创新与伦理 指出技术对齐是关键挑战 [6] - 认为ChatGPT等生成式AI的崛起标志着"世界模型"的初步形成 [6]
地平线的“无人区”突围
华尔街见闻· 2025-07-22 20:06
行业核心观点 - 当前中国汽车行业头部玩家普遍将全栈自研智能驾驶视为必须掌握的“灵魂”,并为此投入巨额资金[2] - 地平线创始人余凯提出“反共识”的“智驾基带论”,认为智能驾驶终将演变为标准化功能模块,车企应聚焦品牌“情绪价值”而非重复自研[2][5] - 行业面临根本性问题:智能汽车下半场的产业形态是赢家通吃的“垂直帝国”,还是专业分工的“开放联盟”[3] 地平线战略定位与商业模式 - 公司战略生态位是成为行业不可或缺的“军火商”,不做争夺“灵魂”的整车玩家[6] - 生存法则是成为“另一个选择”,通过软硬协同并行开发提供高性价比、深度服务的平台[7] - “征程6”系列计算方案在理想、比亚迪、奇瑞等头部车企新车型上搭载,是其“基带理论”的关键市场验证[2] 创始人背景与公司关键转折 - 余凯学生时代便投身当时极为冷门的深度学习研究,坚信“这个世界永远是少数人创造的”[9] - 2015年创业时做出关键“反共识”决策:在所有人涌向软件算法时坚持做专用芯片[9] - 2019年是公司转折点,采纳曾鸣教授和李想建议“舍九取一”,砍掉汽车以外所有业务,一个月内将规模收缩至一半[10] 市场破局与客户合作 - 第一个突破口是长安汽车,双方团队三伏天联合开发,2020年首颗车规级芯片“征程2”在长安UNI-T上量产并成为爆款[11] - 与理想汽车联手是关键一役,因Mobileye无法本地化修改,双方仅用8个月完成理想ONE芯片替换和量产[11] - 成功归因于核心能力“一切商业的本质都是同理心”,与客户文化契合[11] 技术路线与未来愿景 - 自动驾驶技术路线图分三步走:3年内实现大规模“脱手开”,5年内实现关键场景“闭眼开”,10年内实现限定场景“随心开”[12] - 真正野望是构建“机器人时代的CUDA”或“Wintel”联盟,打造开放、软硬一体的计算平台赋能万千机器人[13] - 终极目标是推动全新计算范式,定义软硬件标准,聚焦物理世界AI,将人类从繁重劳动中解放[14] 技术挑战与行业竞争 - 未来计算架构需颠覆式创新,推倒现有冯·诺依曼架构,实现计算与存储融合以提升能效,对标人脑20瓦功耗5000T算力[15] - 面临顶级芯片供应商技术迭代和科技巨头“车-云-端”一体化生态的竞争,以及车企将数百亿研发投入转化为护城河的压力[16] - 公司已从边缘挑战者变为牌桌上不可忽视的力量,但将“基带”模式推广为行业标准的道路依然漫长[16]
Cell子刊:上海交大孙加源/熊红凯/戴文睿团队开发肺病诊断AI系统,准确率媲美专家
生物世界· 2025-07-22 15:02
胸腔内淋巴结肿大的临床挑战 - 胸腔内淋巴结肿大是肺科常见难题,表现为纵隔和肺门淋巴结异常增大,最常见恶性病因是肺癌[2] - 2022年全球新增肺癌病例约250万例,死亡约180万例,肺癌是世界第一大癌症和癌症死亡首要原因[2] - 除肺癌外,淋巴瘤、肺外肿瘤转移、结节病、结核病等良恶性疾病均可表现为胸腔内淋巴结肿大[2] AI-CEMA系统的技术突破 - 上海交大团队开发深度学习系统AI-CEMA,基于CP-EBUS多模态视频实现胸腔内淋巴结肿大诊断,准确率媲美专家[3] - 系统通过1006个淋巴结数据训练,在267个淋巴结的前瞻性多中心研究中验证,AUC达0.8490(专家AUC=0.7847)[5] - 成功迁移应用于肺部病变诊断任务,取得0.8192的AUC值[5] AI-CEMA的临床价值 - 实现胸腔内淋巴结肿大的无创诊断,诊断性能达到专家水平[6] - 提供自动化、无创且专家级的诊断方案,在胸腔内淋巴结肿大和肺部病变诊断中展现巨大潜力[8]
十年六万引,BatchNorm 封神,ICML 授予时间检验奖
36氪· 2025-07-17 16:52
论文获奖与影响力 - 论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》获ICML 2025"时间检验奖",表彰其十年间对深度学习领域的深远影响[1][3] - 论文引用量超6万次,为同时代被引用最多的深度学习文献之一[6][7] - BatchNorm成为神经网络构建的默认组件,被广泛应用于卷积层和全连接层后[7][8] 技术原理与创新 - 提出"内部协变量偏移"概念,描述神经网络训练中因参数更新导致输入数据分布变化的问题[12] - 通过小批量数据归一化(均值为0、方差为1)并引入可学习参数gamma和beta,稳定网络训练[15][17] - 使模型训练速度提升14倍(实验数据),降低对学习率和初始化的敏感性[7][20] 行业应用效果 - 在ImageNet分类任务中实现4.82% top-5错误率,超越人类评分准确率[7] - 替代Dropout起到正则化作用,减少过拟合现象[20] - 推动上百层深度网络的训练可行性,成为模型架构设计的基础组件[23][26] 后续发展与理论争议 - 激发层归一化、实例归一化等衍生技术的出现,形成归一化技术家族[25] - 理论解释从"减少协变量偏移"转向"平滑损失函数曲面"的优化视角[21] - 持续保持最广泛应用地位,成为深度学习工程实践的标准工具[26][27]
一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖
猿大侠· 2025-07-17 11:11
深度学习技术突破 - Batch Normalization论文荣获ICML 2025时间检验奖,引用量超过6万次,成为深度学习发展史上的里程碑式突破[1][2] - 该技术极大地推动了深层神经网络的训练和应用,使深度学习从小规模实验走向大规模实用化和可靠性[3] 技术原理与创新 - BatchNorm通过标准化隐藏层数据分布(均值为0、方差为1)解决"内部协变量偏移"问题,并引入可学习参数γ和β保持网络表达能力[8][12] - 实验显示使用BN后训练步数仅需原来的1/14即可达到相同精度,并在ImageNet分类任务上超越人类评估者准确率[13] 行业应用与影响 - 在BatchNorm出现前,训练深度超过几十层的网络非常困难,而ResNet等模型结合BN技术后使训练上百甚至上千层的超深度网络成为现实[16][17] - 后续几乎所有主流卷积神经网络(如ResNet, DenseNet, Inception)和其他类型模型都广泛采用BatchNorm[18] 理论发展与争议 - 2018年MIT研究挑战BN核心理论,发现其实际作用是通过平滑Optimization Landscape使梯度行为更稳定,而非解决内部协变量偏移[22][23][24] - 2022年新研究从几何视角提出BN是一种无监督学习技术,能主动适应数据内在结构并提升模型泛化能力[25][26][29] 作者动态与行业布局 - 两位作者Christian Szegedy和Sergey Ioffe先后加入马斯克团队xAI,参与开发Grok 4等产品[30][31] - Christian Szegedy后加入AI初创公司Morph Labs担任首席科学家,目标为实现"可验证的超级智能"[32][33]
一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖
量子位· 2025-07-15 16:31
Batch Normalization论文获奖及影响 - 2015年发表的Batch Normalization论文荣获ICML 2025时间检验奖,引用量超过6万次,成为深度学习里程碑式突破[1][2][4] - 该技术让深度学习从小规模实验走向大规模实用化,是深层神经网络训练和应用的关键推动力[3] BatchNorm技术原理与创新 - 提出"内部协变量偏移"概念,指训练中网络内部节点数据分布变化导致训练不稳定[8][11] - 创新性对隐藏层数据做标准化处理,引入可学习参数γ和β保持网络表达能力[12] - 实验显示使用BN后训练步数仅需原来1/14即可达到相同精度,并在ImageNet分类任务超越人类准确率[13] BatchNorm的实际应用效果 - 具有正则化效果,可替代Dropout提升模型泛化能力[15] - 使训练超深度网络成为可能,如何恺明ResNet结合BN实现上百层网络训练[16][17] - 被几乎所有主流卷积神经网络(ResNet/DenseNet/Inception)广泛采用[18] 后续研究与理论修正 - 2018年MIT研究挑战BN核心理论,发现其实际作用是使Optimization Landscape更平滑[22][24] - 2022年研究从几何视角提供新见解,认为BN是一种无监督学习技术[29] 作者现状 - 两位作者Sergey Ioffe和Christian Szegedy曾在谷歌工作十余年[30] - Christian Szegedy先后加入马斯克xAI和Morph Labs,目标实现"可验证的超级智能"[32][33][34] - Sergey Ioffe也加入xAI,可能参与Grok 4开发[32]
Cell:先导编辑+AI,全面解析ATM基因所有点突变的功能
生物世界· 2025-07-15 11:31
ATM基因研究背景 - ATM基因是调控DNA损伤应答的关键基因,其纯合功能缺失突变导致共济失调毛细血管扩张综合征,杂合功能缺失突变增加乳腺癌等多种癌症风险[5] - ATM基因包含63个外显子,突变数量随基因大小增加而显著增加,临床解读存在挑战性[2][5] - 临床遗传学面临意义未明突变(VUS)数量激增的挑战,大基因如ATM/BRCA1/2的全面功能评估尤为困难[2][6] 研究方法与技术突破 - 研究团队利用先导编辑技术对ATM基因全部27513种单核苷酸突变(SNV)进行功能评估,实验检测23092个SNV对细胞适应性的影响[7][8] - 结合PPAR抑制剂奥拉帕利处理条件,鉴定出激酶结构域中关键氨基酸残基[8] - 开发深度学习模型DeepATM,以前所未有精度预测剩余4421个SNV的功能效应[3][9] 临床价值与应用前景 - 在英国生物样本库中鉴定382个与癌症高风险相关的ATM SNV,突变功能评估可预测癌症预后[9][10] - 建立突变功能评估框架,为乳腺癌/结直肠癌/胰腺癌/前列腺癌的风险预测和精准治疗提供依据[5][10] - 研究成果为解决其他基因的VUS分类问题提供标准化技术路线[12] 数据亮点 - 全面覆盖ATM基因所有可能27513种编码SNV的功能注释[10] - 实验验证23092个SNV(占比84%)的生物学功能,深度学习预测4421个SNV(占比16%)[7][9] - 激酶结构域关键残基的发现为靶向药物开发提供新靶点[8][10]