Transformer模型

搜索文档
一种新型的超大规模光电混合存算方案
半导体行业观察· 2025-06-29 09:51
核心观点 - 新加坡国立大学团队提出新型2T1M光电混合存算阵列架构 通过光学位元线规避传统电位元线的IR损耗与电容负载问题 实现3750kb阵列规模 在Transformer模型上达到93.3%推理精度 超越传统CIM设计的48.3% 能效提升超3倍达167 TOPS/W [1][7][9] 架构设计与工作原理 - 2T1M架构结合电子与光子技术优势 每个存储单元由两个晶体管和一个调制器组成 采用FeFET执行乘法运算 亚阈值区域展现亚pA级截止电流 保持特性达10年 循环次数超10^7次 [2] - 相比传统RRAM FeFET具有更低截止电流 显著降低静态功耗 在±3V、100μs条件下保持稳定性能 [2] 光电转换与无损求和 - 采用铌酸锂调制器实现电光转换 利用Pockels效应改变折射率 通过MZI单臂集成实现相位偏移累加 完成向量矩阵乘法的无损求和 [4][6] - 铌酸锂波导传播损耗仅0.28dB/cm 光信号传输近乎无损 相位求和方式避免IR压降导致的误差积累 [6] Transformer应用性能 - 在ALBERT模型30000×128词嵌入层中 2T1M架构推理精度达93.3% 与GPU持平 传统CIM架构仅48.3% [9] - 阵列规模达3750kb 为传统CIM架构150倍 功耗效率164TOPS/W 比传统方案提升37倍 [9] - 通过消除矩阵分解和重复外围电路需求 能效提升至167 TOPS/W [1][9] 技术参数对比 - 2T1M架构采用FeFET亚阈值技术 关断电流低至10^-12A 阵列规模30000×128 电压降为0 传统方案需100-300子阵列才能达到同等精度 [12] - 峰值能效164TOPS/W 显著高于对比方案的9.81-13700TOPS/W [12]
信息过载时代,如何真正「懂」LLM?从MIT分享的50个面试题开始
机器之心· 2025-06-18 14:09
大语言模型(LLM)技术发展 - LLM在不到十年内将人工智能能力普及给全球数亿用户,实现自然语言创作、编程和推理[2] - LLM技术版图快速扩张,包括模型竞赛和自主执行任务的智能体发展[2] - MIT CSAIL发布的50个关键问题指南帮助深入理解LLM核心概念与技术[3][5] 核心架构与基本概念 - Token化将文本分解为更小单元,对处理多语言和稀有词汇至关重要[7][9] - 注意力机制通过查询、键和值向量分配不同重要性级别,增强上下文理解[10][12] - 上下文窗口定义模型短期记忆能力,平衡窗口大小与计算效率是关键[13] - 序列到序列模型由编码器和解码器组成,应用于机器翻译等场景[15] - 嵌入向量捕获token语义特征,通常随机初始化或使用预训练模型[17] 模型训练与微调技术 - LoRA通过低秩矩阵实现高效微调,QLoRA进一步量化至4位精度减少内存使用[34] - 模型蒸馏训练小模型复制大模型输出,实现设备端部署[38] - PEFT通过冻结大部分参数缓解灾难性遗忘,保持预训练知识[43] - 超参数如学习率直接影响模型收敛性和性能表现[45] 文本生成与推理优化 - 束搜索保留多个候选序列,相比贪婪解码产生更连贯输出[51] - 温度参数控制输出随机性,0.8通常实现创造力与连贯性平衡[53] - 提示工程通过精心设计输入显著提升零样本/少样本任务性能[56] - RAG结合检索外部知识提高生成内容的事实准确性[57][58] - 思维链提示将复杂问题分解为逻辑步骤,增强推理能力[61] 训练范式与模型类型 - 掩码语言建模通过预测隐藏token实现双向语言理解[68] - 自回归模型(GPT)与掩码模型(BERT)分别在生成和理解任务中表现突出[70] - 零样本学习利用预训练知识执行未经专门训练的任务[77] - 少样本学习仅需少量示例即可适应新任务,降低数据需求[79] 高级模型与系统演进 - GPT-4相比GPT-3在多模态处理和复杂对话方面显著进步[100] - Gemini通过统一架构处理多模态输入,上下文窗口达25000 token[101][102] - 专家混合(MoE)激活特定子网络,实现万亿参数模型高效运行[106] - 知识图谱集成提供结构化事实信息,减少模型幻觉[107][108] 应用挑战与行业影响 - LLM部署面临计算资源密集、偏见延续和隐私保护等挑战[116] - 传统统计语言模型相比LLM在长距离依赖处理能力上存在局限[115] - 修复偏见输出需分析数据模式、改进数据集和针对性微调[113][114]
哈佛新论文揭示 Transformer 模型与人脑“同步纠结”全过程,AI也会犹豫、反悔?
36氪· 2025-05-12 08:22
近日,来自哈佛大学、布朗大学以及图宾根大学研究者们,共同发表了一项关于Transformer模型与人类认知处理相关性的研 究论文: ——《Linking forward-pass dynamics in Transformers and real-time human processing》 意译过来就是:Transformer模型的"思考过程"与人类大脑实时认知的奇妙相似 问题来了:AI和人类,不只是最后的选项,连中间的"挣扎"和"转变"也能被对齐吗? 这篇论文的作者,换了个角度:不只看AI模型的输出,还要扒一扒Transformer每一层的"处理动态",与人脑处理信息的"实时 轨迹"是否能对上。 01 AI和人脑,真的在"想"同一件事吗? 换句话说,它想搞清楚一个"老问题":AI模型的内部处理过程,和人类大脑的实时认知,有多少相似? 过去我们研究AI和人类的相似性,最常见的做法是什么?"看结果":让AI做题,看它答对多少,概率分布和人的选择对不对 得上。例如,让GPT写作文、识别图片、做逻辑推理,然后对照人类的数据,得出一个"AI越来越像人了"的结论。 但这其实只是表象。 想象一个场景:在答一道不太确定的 ...
深度|英伟达黄仁勋:GPU是一台时光机,让人们看到未来;下一个十年AI将在某些领域超越人类的同时赋能人类
Z Potentials· 2025-03-01 11:53
回望来路:今天的NVIDIA因何诞生 Cleo Abram: 我已经为这次采访准备了好几个月,期间与您的许多团队成员进行了深入交流。但我并不是一名工程师,我的目标是帮助观众看到您所描绘 的未来。 图片来源: Cleo Abram Z Highlights 在过去几年中, NVIDIA 已迅速发展成为全球最有价值的公司之一。这是因为从 90 年代开始, CEO 黄仁勋与他的公司引领了计算机工作方式的根本性转变, 现在释放了技术潜力的爆炸式增长,最具未来感的技术中的大部分都依赖于 NVIDIA 设计的新芯片和软件。本文为主持人 Cleo Abram 的《 Huge If True 》节目 访谈实录,本次采访于 2025 年 1 月 7 日在拉斯维加斯的 CES 上录制。 所以我将询问三个方面。第一个是,我们是如何走到这里的?是什么关键的洞察导致了我们现在所处的这个计算领域的根本性变化?第二个是现在到底发 生了什么?已有的洞察是如何引导我们进入这个充满变动、似乎一切都在同时发生的世界的?第三个是,您对未来的愿景是什么? 为了讨论我们目前所处的这个AI时代,我认为我们需要回顾一下90年代的视频游戏。当时,我知道游戏开 ...