Workflow
Transformer模型
icon
搜索文档
Nature子刊:上海科学智能研究院漆远/曹风雷/徐丽成团队开发新型AI模型,用于化学反应性能预测和合成规划
生物世界· 2025-08-24 16:30
撰文丨王聪 编辑丨王多鱼 排版丨水成文 人工智能 (AI) 已经改变了精准有机合成领域。包括机器学习和深度学习在内的数据驱动方法在预测反应性能和合成规划方面展现出了巨大潜力。 然而, 数值回归驱动的反应性能预测与序列生成驱动的合成规划之间存在内在方法论分歧,这对构建 统一的深度学习架构 构成重大挑战。 上海科学智能研究院 / 复旦大学人工智能创新与产业研究院 漆远 教授、 上海科学智能研究院 曹风雷 研究员 、 徐丽成 研究员等在 Nature 子刊 Nature Machine Intelligence 上发表了题为: A unified pre-trained deep learning framework for cross-task reaction performance prediction and synthesis planning 的研究论文。 该研究听过整合 图神经网络 (GNN) 与 Transformer 模型 ,开发了一个用于 跨任务的反应性能预测和合成规划的统一预训练深度学习框架—— RXNGraphormer ,为化学反应预测与合成设计提供了一个通用工具。 通过将面向分子内模式识 ...
中金:一种结合自注意力机制的GRU模型
中金点睛· 2025-07-15 07:39
时间序列模型的核心架构演进 - 时间序列模型(如LSTM、GRU、Transformer)通过门控机制或自注意力结构解决长期依赖问题,其中GRU通过精简的更新门与重置门提升运算效率,更适合实时预测场景 [1][2] - Transformer通过自注意力机制和位置编码实现序列建模革新,在多维时序数据分析中展现并行化优势,但参数量大易导致过拟合 [2][5] - 公司提出AttentionGRU(Res)模型,结合轻量化自注意力、残差结构和GRU,兼顾序列学习能力与样本外稳定性,全市场年化超额收益超30% [6][40] 时序因子与截面因子的模型表现对比 - 测试159个截面因子和158个时序因子(Alpha158)显示:截面因子单因子表现更优(多头超额11% vs 时序因子1%),但时序因子在RNN/LSTM/GRU模型中样本外表现更佳(ICIR均值1.02,为截面因子模型两倍) [4][21] - 时序因子模型样本外多头超额收益达7.6%,显著高于截面因子模型的1.3%,且时序因子ICIR分布更集中 [4][21] - 时序模型的结构特性(如循环连接、门控机制)与时序因子的动态关联性高度匹配,增强了对历史序列特征的保留能力 [8][9] 时序模型优化方向与效果 - 对GRU的门结构优化(如BiGRU、GLU)提升有限:BiGRU样本外ICIR仅提升0.01,多头超额收益增加2个百分点 [27][28] - Transformer样本内效果显著但样本外过拟合,因其参数量过大;AttentionGRU(Res)通过简化自注意力结构和残差连接,样本外年化超额收益达12.6%,中证1000泛化测试超额10.8% [33][34][46] - 残差结构(Res)改善梯度传递问题,自注意力机制动态聚焦核心时序节点,两者结合使模型参数减少50%仍保持长期依赖捕捉能力 [35][36][38] 关键模型性能数据 - AttentionGRU(Res)在全市场测试中IC均值7.38%、ICIR 1.09,多头超额收益12.64%,最大回撤8.41%,胜率80.21% [41] - 传统GRU模型对比:IC均值6.51%、多头超额7.18%,最大回撤5.36%,显示优化结构显著提升收益稳定性 [34][41] - 中证1000泛化测试中,AttentionGRU(Res)多头超额10.8%,优于Transformer(9.0%)和基础GRU(3.47%) [46][47]
一种新型的超大规模光电混合存算方案
半导体行业观察· 2025-06-29 09:51
核心观点 - 新加坡国立大学团队提出新型2T1M光电混合存算阵列架构 通过光学位元线规避传统电位元线的IR损耗与电容负载问题 实现3750kb阵列规模 在Transformer模型上达到93.3%推理精度 超越传统CIM设计的48.3% 能效提升超3倍达167 TOPS/W [1][7][9] 架构设计与工作原理 - 2T1M架构结合电子与光子技术优势 每个存储单元由两个晶体管和一个调制器组成 采用FeFET执行乘法运算 亚阈值区域展现亚pA级截止电流 保持特性达10年 循环次数超10^7次 [2] - 相比传统RRAM FeFET具有更低截止电流 显著降低静态功耗 在±3V、100μs条件下保持稳定性能 [2] 光电转换与无损求和 - 采用铌酸锂调制器实现电光转换 利用Pockels效应改变折射率 通过MZI单臂集成实现相位偏移累加 完成向量矩阵乘法的无损求和 [4][6] - 铌酸锂波导传播损耗仅0.28dB/cm 光信号传输近乎无损 相位求和方式避免IR压降导致的误差积累 [6] Transformer应用性能 - 在ALBERT模型30000×128词嵌入层中 2T1M架构推理精度达93.3% 与GPU持平 传统CIM架构仅48.3% [9] - 阵列规模达3750kb 为传统CIM架构150倍 功耗效率164TOPS/W 比传统方案提升37倍 [9] - 通过消除矩阵分解和重复外围电路需求 能效提升至167 TOPS/W [1][9] 技术参数对比 - 2T1M架构采用FeFET亚阈值技术 关断电流低至10^-12A 阵列规模30000×128 电压降为0 传统方案需100-300子阵列才能达到同等精度 [12] - 峰值能效164TOPS/W 显著高于对比方案的9.81-13700TOPS/W [12]
信息过载时代,如何真正「懂」LLM?从MIT分享的50个面试题开始
机器之心· 2025-06-18 14:09
大语言模型(LLM)技术发展 - LLM在不到十年内将人工智能能力普及给全球数亿用户,实现自然语言创作、编程和推理[2] - LLM技术版图快速扩张,包括模型竞赛和自主执行任务的智能体发展[2] - MIT CSAIL发布的50个关键问题指南帮助深入理解LLM核心概念与技术[3][5] 核心架构与基本概念 - Token化将文本分解为更小单元,对处理多语言和稀有词汇至关重要[7][9] - 注意力机制通过查询、键和值向量分配不同重要性级别,增强上下文理解[10][12] - 上下文窗口定义模型短期记忆能力,平衡窗口大小与计算效率是关键[13] - 序列到序列模型由编码器和解码器组成,应用于机器翻译等场景[15] - 嵌入向量捕获token语义特征,通常随机初始化或使用预训练模型[17] 模型训练与微调技术 - LoRA通过低秩矩阵实现高效微调,QLoRA进一步量化至4位精度减少内存使用[34] - 模型蒸馏训练小模型复制大模型输出,实现设备端部署[38] - PEFT通过冻结大部分参数缓解灾难性遗忘,保持预训练知识[43] - 超参数如学习率直接影响模型收敛性和性能表现[45] 文本生成与推理优化 - 束搜索保留多个候选序列,相比贪婪解码产生更连贯输出[51] - 温度参数控制输出随机性,0.8通常实现创造力与连贯性平衡[53] - 提示工程通过精心设计输入显著提升零样本/少样本任务性能[56] - RAG结合检索外部知识提高生成内容的事实准确性[57][58] - 思维链提示将复杂问题分解为逻辑步骤,增强推理能力[61] 训练范式与模型类型 - 掩码语言建模通过预测隐藏token实现双向语言理解[68] - 自回归模型(GPT)与掩码模型(BERT)分别在生成和理解任务中表现突出[70] - 零样本学习利用预训练知识执行未经专门训练的任务[77] - 少样本学习仅需少量示例即可适应新任务,降低数据需求[79] 高级模型与系统演进 - GPT-4相比GPT-3在多模态处理和复杂对话方面显著进步[100] - Gemini通过统一架构处理多模态输入,上下文窗口达25000 token[101][102] - 专家混合(MoE)激活特定子网络,实现万亿参数模型高效运行[106] - 知识图谱集成提供结构化事实信息,减少模型幻觉[107][108] 应用挑战与行业影响 - LLM部署面临计算资源密集、偏见延续和隐私保护等挑战[116] - 传统统计语言模型相比LLM在长距离依赖处理能力上存在局限[115] - 修复偏见输出需分析数据模式、改进数据集和针对性微调[113][114]
哈佛新论文揭示 Transformer 模型与人脑“同步纠结”全过程,AI也会犹豫、反悔?
36氪· 2025-05-12 08:22
Transformer模型与人类认知处理相关性研究 核心观点 - Transformer模型的内部处理动态与人类大脑实时认知过程存在显著相似性,不仅体现在最终输出结果,更体现在中间层的"思考路径"上 [1][4][24] - 研究通过量化模型各层处理指标(不确定性、信心值、修正行为等),首次系统性验证了AI与人类在认知纠偏机制上的同步性 [7][10][17] 实验设计方法论 - 采用多模态任务测试:包括首都回忆题(自由回答)、动物分类(鼠标轨迹追踪)、三段论逻辑推理、分布外图像识别等 [9] - 关键指标: - 处理负载(Processing Load):通过模型各层输出的熵值变化量化认知难度 [10] - 信心轨迹(Confidence Trajectory):记录模型对正确/错误选项的概率波动 [10][13] - 修正行为(Boosting):测量模型在后层对初始错误倾向的主动纠正幅度 [10][19] 关键发现 认知偏差同步性 - 首都回忆任务中,Llama-2 7B模型在中间层将最高概率分配给错误答案(如芝加哥而非斯普林菲尔德),与人类常见错误完全一致 [13][15] - 澳大利亚首都测试中,模型与人类均出现悉尼→堪培拉的修正过程,错误率偏差不超过15% [13] 决策路径重合度 - 动物分类任务中,模型前几层对"鲸鱼是鱼"的错误判断与人类鼠标移动轨迹呈现相同犹豫模式,修正时间差<300ms [18][19] - 视觉Transformer处理模糊图像时,初期层级信心分散度达人类反应时间的1.2倍,后期聚焦速度与人类认知提速曲线吻合 [23] 逻辑陷阱敏感性 - 三段论推理中,当题目包含常识干扰(如"有翅膀→能飞"),模型与人类在中间层错误率同步上升47%,需额外3-5层处理才能纠正 [21] 行业应用启示 - 过程可解释性:模型内部动态可映射人类认知瓶颈,为教育/心理实验设计提供量化工具 [24] - 架构优化方向:中间层处理指标可成为评估模型认知效率的新标准,替代单一准确率指标 [7][24] - 多模态协同:鼠标轨迹等行为数据与模型信心变化的关联性达0.82,预示新型人机交互监测方式 [18][23]
深度|英伟达黄仁勋:GPU是一台时光机,让人们看到未来;下一个十年AI将在某些领域超越人类的同时赋能人类
Z Potentials· 2025-03-01 11:53
回望来路:NVIDIA的技术演进路径 - 90年代通过解决游戏图形处理的并行计算需求,开创现代GPU架构,观察到10%代码完成99%可并行处理的关键技术突破[3][4] - 选择游戏作为突破口因市场规模庞大(预计成为最大娱乐市场),形成研发投入与市场扩张的良性循环[5] - 2006年推出CUDA平台降低并行计算使用门槛,促使GPU应用从游戏扩展至医疗影像、科学计算等领域[7][8][9] - 2012年AlexNet在GPU上实现图像识别突破,验证深度学习潜力,推动公司全面转向AI计算架构重构[11][12][13] 当前技术革命的核心驱动力 - 两大核心信念:加速计算(CPU+GPU协同)的可扩展性、深度学习网络(DNN)对多模态数据的无限学习能力[17][18] - 计算效率8年内提升10,000倍,DGX-1(2016年)到当前原型性能提升6倍而能耗仅为1/10,000[31][32] - 物理限制突破方向聚焦能源效率,通过半导体工艺改进(与台积电合作)、冷却系统创新(液体/空气动力学设计)持续突破[36] 未来战略布局 - Omniverse+Cosmos构建物理世界数字孪生系统,实现机器人训练效率指数级提升(虚拟环境日训练量超物理世界数年)[22][24][25] - 三大重点领域:人形机器人(5年内商业化)、数字生物学(分子/细胞语言解码)、区域气候精准预测[37][38][39] - 生成式AI演进路径:从基础模型(如ChatGPT)→事实约束模型→物理世界模型(Cosmos),解决AI幻觉问题[23][24] 产业影响与产品迭代 - GeForce RTX 50系列实现800万像素图像中仅需处理50万像素,AI补全剩余部分,图形处理效率提升16倍[43] - AI超级计算机从25万美元(DGX-1)降至3000美元消费级产品,推动AI研发民主化[44] - 预测所有移动物体将自动化(自动驾驶车辆、服务机器人等),物理AI将重构物流、农业等产业[26][27] 技术哲学与创新方法论 - 坚持第一性原理:基于物理定律/数学限制推演技术路径,非短期市场导向[15][16] - 硬件设计保持通用性,反对固化特定算法架构(如Transformer),保留支持未来未知创新的灵活性[33][34] - 创新"混合体"模式:30%用户需求(游戏开发者)+30%内部需求(虚拟世界物理模拟)+40%前沿研究启发(医疗影像)[7][8] 社会应用展望 - AI导师系统将降低各领域学习门槛,形成"人类+AI"的增强智能范式[41][42] - 工作范式变革:创意实现周期从周级缩短至分钟级,重复劳动近乎消失[41] - 安全体系构建:借鉴航空业三重冗余设计,建立AI安全社区架构应对偏见/幻觉/系统故障[29][30]