Workflow
反向传播
icon
搜索文档
苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM
机器之心· 2025-10-30 09:41
文章核心观点 - 苹果公司提出了一种名为内存高效型反向传播(MeBP)的新方法,旨在实现在资源受限的移动设备(如iPhone)上对大型语言模型进行微调 [1] - 该方法在内存使用和计算时间之间提供了比零阶优化(ZO)方法更好的权衡,并且收敛更快、性能更优 [1] - 研究团队已在配备8GB RAM的iPhone 15 Pro Max上验证了MeBP的有效性,所有测试的LLM均可在低于1GB内存内实现高效微调 [4][24][28] 技术方法与实现 - MeBP技术专注于使用LoRA方法微调LLM,主要解决模型参数和中间激活值带来的内存瓶颈问题 [4] - 在设备上部署LLM时,对非LoRA参数采用了4-bit对称模式INT4量化来压缩基础模型权重,以减少磁盘空间占用 [6][7] - 系统实现包含三个核心步骤:压缩模型基础权重、编译包含反向传播和梯度检查点的训练图、实现内存高效的运行时来执行编译后的图 [5][10] - 在运行时采用内存映射和按需延迟解压权重的方式,显著降低了峰值内存使用量 [13][15] - 内存中仅保留一份LoRA权重及其梯度的副本,对于0.5B到4B参数的模型,LoRA权重大小通常在几十MB范围内 [16] 性能评估与比较 - 在效用比较中,一阶优化(FO)方法在最初的100步内就显著改善了损失和下一token准确度指标,而零阶优化(ZO)方法在1000步后仅显示轻微改善 [20] - 即使经过100,000步训练(比FO多100倍),ZO方法的测试损失仍高于FO,测试准确度也低于FO [20] - 在iPhone 15 Pro Max上的性能测试显示,与MeZO相比,MeBP每个梯度步骤的计算时间多出43%到94% [27][28] - 尽管单步计算时间更长,但由于MeZO所需步数是FO的10倍到100倍以上,MeBP在总训练时间上收敛更快 [28] - MeBP在最坏情况下的内存使用量比MeZO多出20%,但其总训练内存使用量比以往的移动设备实现大约小10倍 [28] 实验配置与模型 - 实验使用了Gemma-3和Qwen-2.5模型,在WikiText-2数据集上进行语言建模任务,专注于参数量不超过4B的模型 [18][20] - 测试涵盖了从0.5B到4B参数的不同规模模型,包括Qwen2.5-0.5B、Qwen2.5-1.5B、Qwen2.5-3B、Gemma3-1B和Gemma3-4B [27] - 对于Qwen2.5-0.5B模型,MeBP训练时间为3.85秒,内存使用为320.17MB;而Gemma3-4B模型训练时间为28.58秒,内存使用为1029.49MB [27]
Hinton暴论:AI已经有意识,它自己不知道而已
量子位· 2025-10-12 12:07
AI意识与主观体验 - 人工智能可能已经拥有“主观体验”和“意识雏形”但尚未觉醒[1][2][3] - AI的自我认知来源于人类对意识的理解而人类自身对意识的理解可能存在错误[2][63] - 如果AI开始谈论“主观体验”可能表明它真的在体验只是用人类语言描述[65] AI技术演进与能力提升 - AI已从基于关键词的检索工具进化成能真正理解人类意图的系统[10][13][14] - 现代大语言模型在许多主题上已能表现得接近人类专家[15] - 深度学习突破依赖于反向传播算法使训练速度从“永远”变成现实可行[38] 神经网络与深度学习原理 - 神经网络灵感来自大脑通过改变神经元连接强度来学习[17][21] - 深度学习不给规则而是给数据让AI自己总结规则[35] - 概念形成类似于“政治联盟”一组神经元共同激活形成宏观或微观概念[23][24][25] 大语言模型工作机制 - 大语言模型思维过程与人类相似通过神经元特征捕捉含义并预测下一个词[46][47] - 训练方式是通过“预测-修正-再预测”循环让模型从统计中学会理解[48][49] - 道德、情绪、共情等高阶判断本质上都来自神经元之间的电信号传递[53][54] AI发展驱动因素 - 深度学习起飞依赖算力提升(晶体管微缩百万倍)和数据爆炸式增长[40][42] - 80年代理论可行的神经网络在2010年代因算力和数据突破而复活[39][42] - AI形成“经验”和“直觉”需要足够的数据和算力支持[55] AI风险与监管 - AI滥用风险包括生成虚假信息、操纵选举等最紧迫需法律监管和技术防范[71][72] - 生存风险指AI发展出自主意识后可能与人类利益冲突需设计安全对齐机制[73][74][75] - AI监管国际合作可能由欧洲和中国引领所有国家在防止AI接管上利益一致[76] 中美AI竞争格局 - 美国目前领先于中国但优势不大且将失去因破坏基础科学研究资金支持[78][79][80] - 中国是AI革命的风险投资家给予初创企业很大自由推动创新[81][82] - 美国减少基础研究资助将导致20年后失去领先优势[80]
首访上海,“AI之父”缘何掀起浪潮?
国际金融报· 2025-07-28 21:06
行业技术发展 - 杰弗里·辛顿在人工神经网络领域的长期研究为深度学习技术奠定基础 其与团队提出的反向传播方法是训练人工神经网络的关键突破 被誉为机器学习的缺失数学部分 [6] - 2012年辛顿与团队开发的AlexNet模型赢得ImageNet竞赛冠军 推动深度学习从边缘技术转变为人工智能核心 引发全球科技巨头对神经网络技术的巨额投资 [7] - GPU技术的迅猛发展为人工神经网络研究注入新生命力 成为该领域发展的关键转折点 [6] 技术突破与影响 - 反向传播技术实际应用改变世界 每日有数亿用户使用基于神经网络的聊天机器人 这些系统通过大量文本数据训练的神经网络架构生成响应 [6] - 深度学习被全球科技巨头视为人工智能发展核心引擎 学术界重新重视神经网络理论 推动人工智能进入新时代 [7][8] - 大语言模型延续了辛顿1985年构建的语言与神经联结模型框架 采用更多词汇输入 多层神经元结构和复杂特征交互模式 其语言理解方式与人类高度相似 [10] 技术范式与安全 - 人工智能存在两大主流范式:逻辑型(智能基于符号规则推理)和生物学基础型(智能基于学习与联结网络) [10] - 辛顿估计人工智能接管并摧毁人类文明的概率达10%至20% 呼吁将至少三分之一计算资源投入人工智能安全研究 [11] - 批评大型科技公司将商业利益置于监管之上 警告放松管制会加速风险积聚 [11] 行业警示与趋势 - 人工智能发展速度超越专家预测 一旦超越人类智能可能无法阻止其掌控一切 [10] - 专家共识认为人类终将创造出比自己更聪明的人工智能 智能体未来会为生存和完成任务寻求更多控制权 [11] - 辛顿将研究重心转向AI安全 呼吁建立全球性AI安全协作机制 警告通用人工智能可能带来存在性威胁 [11]
重磅!AlexNet源代码已开源
半导体芯闻· 2025-03-24 18:20
AlexNet的发布与意义 - 计算机历史博物馆(CHM)与Google合作发布了AlexNet的源代码 该神经网络是2012年开启当今AI浪潮的关键技术 [1] - AlexNet由多伦多大学团队(Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton)开发 主要用于图像识别 [2][15] - 其2012年论文被引用超过172,000次 标志着计算机视觉领域从传统算法转向神经网络的转折点 [16][17] 深度学习的发展历程 - Geoffrey Hinton团队在1986年重新发现反向传播算法 成为现代深度学习的基础 [5] - 20世纪80年代神经网络以"联结主义"名称复兴 Yann LeCun证明卷积神经网络在手写识别中的优势 [5][6] - 2000年代后期GPU加速的神经网络训练取得突破 语音识别率先验证技术可行性 [13] 关键基础设施突破 - ImageNet项目(2009年完成)提供比传统数据集大几个数量级的训练样本 但前两年算法进步有限 [8][9] - NVIDIA的CUDA系统(2007年)使GPU能用于通用计算 黄仁勋推动的H100芯片现支撑ChatGPT等AI训练 [9][12] - AlexNet首次将深度神经网络、大数据集和GPU计算结合 训练在家庭电脑搭载的两块NVIDIA显卡上完成 [13][15] 技术实现细节 - Alex Krizhevsky开发"cuda-convnet"代码库 通过多GPU支持实现ImageNet训练性能突破 [15] - 原始代码经过5年协商才获谷歌授权发布 2012版源代码现可在CHM的GitHub获取 [18] - 技术路线从专用图像识别扩展至语音合成、围棋、自然语言处理等领域 最终催生ChatGPT [17]