Workflow
Transformer模型
icon
搜索文档
直击CES|黄仁勋:80%的初创公司都在采用开放模型
新浪财经· 2026-01-06 09:17
行业变革与平台更迭 - 计算机行业每隔10到15年就会发生一次变革 每次变革行业都会为新的平台构建新的系统 [1][3] - 当前两种变革同时发生 应用程序现在都基于人工智能构建 软件的开发方式也发生了改变 [1][3] 人工智能技术发展历程 - 2015年出现了第一个有趣的模型 2017年Transformer模型问世 之后OpenAI推出了更多令人印象深刻的模型 [1][3] - 当前正在探讨智能体模型的潜在用途 这种模型可以自主处理人工智能任务并随时间不断学习 [1][3] - 宇宙中凡是有信息的地方 凡是有结构的 都可以用来训练人工智能 [1][3] 开源与闭源模型现状 - 截至本月 开源人工智能模型比大型人工智能公司昂贵的尖端模型落后大约六个月 [1][3] - 80%的初创公司都在采用开放模型 [1][3]
机器学习应用系列:强化学习驱动下的解耦时序对比选股模型
西南证券· 2025-12-25 19:40
量化模型与构建方式 1. 模型名称:DTLC_RL (解耦时序对比学习强化学习模型) **模型构建思路**:构建一个兼具深度学习非线性预测能力与良好可解释性的选股框架。通过特征空间解耦,分别构建面向市场系统风险(β空间)、个股特异特征(α空间)和个股基本面信息(θ空间)的编码器,并通过对比学习与正交约束提升各空间表征的区分度与互补性,最后引入强化学习近端策略优化(PPO)算法以实现自适应调整各空间权重进行动态融合[2][11][12]。 **模型具体构建过程**: 1. **多层次因子解耦与表征学习**:构建三个在数学上正交的潜在表征空间[11]。 * **Beta空间(市场系统风险)**:使用时间卷积网络(TCN)作为编码器,输入为5个市场相关特征的60个交易日时序数据[67][68]。TCN采用因果卷积和扩张卷积来捕捉时序依赖关系[13][17][19]。因果卷积确保输出只依赖于当前及历史输入,其约束为: $$y_{t}=f(x_{t},x_{t-1},\dots,x_{t-k+1})$$ 其中$y_t$为t时刻输出,$x_{t-j}$为历史输入,$k$为卷积核大小[17]。扩张因果卷积操作定义为: $$H_{l}=\mathrm{ReLU}\left(\mathrm{BatchNorm}\left(\mathrm{CausalConv1d}(X_{l},k,d_{l})\right)\right)$$ 完整残差块为: $$B l o c k(X)=A c t i v a t i o n\left(X+F(X)\right)$$ $$F(X)=W_{2}*\sigma(W_{1}*X)$$ * **Alpha空间(个股特异特征)**:使用多尺度Transformer模型作为编码器,输入为13个日频量价时序特征[76][77]。模型区分20日、40日、60日三个尺度,分别用Transformer层编码后进行上采样和门控融合[78][80]。Transformer核心的自注意力机制计算如下: $$Q\;=\;X W_{Q}\;,\;\;K\;=\;X W_{K}\;,\;\;V\;=\;X W_{V}\;,$$ $$Z=A t t e n t i o n(Q,K,V)=s o f t m a x\left({\frac{Q K^{T}}{\sqrt{d_{k}}}}\right)V$$ 多头注意力机制为: $$M u l t i h e a d\left(Q\ ,\ K\ ,\ V\right)=C o n c a t\left(h e a d_{1}\ ,\ \ldots\ \ ,\ h e a d_{h}\right)W_{o}$$ * **Theta空间(个股基本面信息)**:使用门控残差多层感知机(GRN)作为编码器,输入为8个核心财务指标[88][92]。GRN包含特征变换、门控机制和残差连接[38][39][43][45]。其计算过程包括: $$\tilde{x}=\;W_{1}x\;+\;b_{1}$$ $$s\;=\;E L U(W_{2}\tilde{x}+\;b_{2})$$ $$g\;=\;\sigma\bigl(W_{g}\,x\;+\;b_{g}\bigr)$$ $$\tilde{x}=s\odot g\,+\,x$$ 最终输出为层归一化结果:$G R N\left(x\right)=\ L a y e r N o r m\left({\tilde{x}}\right)$[47]。 2. **对比学习增强表征稳健性**:在每个子空间内部引入对比学习机制,通过构建基于未来收益率相似性的正负样本对,驱使编码器学习到的表征能够拉近同类样本、推远异类样本[12][52]。使用InfoNCE损失函数: $$L_{\mathrm{InfotNCE}}=-E\left[l o g~\frac{e x p\left(f(x)^{\top}f(x^{+})/\tau\right)}{e x p\left(f(x)^{\top}f(x^{+})/\tau\right)+\sum_{i=1}^{N-1}~e x p\left(f(x)^{\top}f(x_{i}^{-})/\tau\right)}\right]$$ 其中相似度计算采用余弦相似度:$\sin(\mathbf{u},\mathbf{v})={\frac{\mathbf{u}^{\mathrm{{T}}}\mathbf{v}}{|\mathbf{u}||\mathbf{v}|}}$[55]。正样本为未来20日收益率相关系数大于80%的样本,负样本为相关系数小于0%的样本[104]。 3. **正交约束保障因子独立性**:设置正交化损失函数,强制要求三个子空间输出的表征向量在统计上接近相互独立,缓解多重共线性问题[12]。损失函数为三空间输出编码信息的协方差矩阵非对角线元素平方和[104]。 4. **强化学习驱动空间融合**:在三个编码器后引入强化学习动态复权的空间融合机制[116]。将三个子空间编码与市场环境特征拼接成状态$s_t$,输入策略网络(Actor)生成三维空间权重[120]。策略网络采用PPO算法进行优化,其目标是最大化期望累积回报: $$J(\theta)=E_{\tau^{-\pi_{\theta}}}[R(\tau)]=E_{\tau^{-\pi_{\theta}}}\left[\sum_{t=0}^{T}\gamma^{t}r_{t}\right]$$ PPO通过裁剪目标函数稳定策略更新: $$\mathrm{CLIP}\left(\theta\right)=E_{t}\left[mi\ n(r_{t}\left(\theta\right)\overline{A_{t}},\mathrm{clip}(r_{t}\left(\theta\right),1-\epsilon,1+\epsilon)\overline{A_{t}}\right]$$ 其中$r_t(\theta)$为新旧策略概率比:$r_{t}\left(\theta\right)=\frac{\pi_{\theta}\left(a_{t}\left|s_{t}\right.\right)}{\pi_{\theta_{\mathrm{old}}}\left(a_{t}\left|s_{t}\right.\right)}$[61][63]。优势函数$\hat{A_t}$通过广义优势估计(GAE)计算: $$A_{t}^{\widehat{\mathrm{GAE}\,(\gamma,\lambda)}}=\sum_{l=0}^{\infty}(\gamma\lambda)^{l}\delta_{t+l}$$ $$\delta_{t}=r_{t}+\gamma V(s_{t+1})-V(s_{t})$$ $$\widehat{A_{t}}=\delta_{t}+\gamma\lambda\widehat{A_{t+1}}$$ 奖励函数$r_t$由预测收益与实际收益的相关系数奖励$R_t^{IC}$、权重稳定性奖励$R_t^{stable}$和权重分散性奖励$R_t^{div}$组成: $$r_{t}=R_{t}^{I C}\big(\widehat{y_{t}},y_{y}\big)+\lambda_{s}R_{t}^{s t a b l e}+\lambda_{d}R_{t}^{d i v}$$ 加权融合后的特征通过预测头网络输出个股未来收益率预测$\hat{y_t}$[120][121]。 **模型评价**:该模型为深度学习在量化选股中的应用提供了一条兼具“非线性能力”与“可解释性”的路径[159]。 2. 模型名称:DTLC_Linear (线性融合模型) **模型构建思路**:作为强化学习融合版本的基准模型,将三个空间的编码信息进行合并,并通过单层线性层进行处理并接入预测头进行收益率预测[2][98]。 **模型具体构建过程**:将Beta、Alpha、Theta三个空间经过对比学习优化后的高维编码直接进行拼接,输入一个包含线性层和Softmax激活的轻量网络,动态生成空间权重,进而对编码进行加权融合,最终通过预测头输出收益率预测[98]。训练过程采用以信息系数(IC)最大化为核心目标的多任务损失函数,并同样引入了对比学习损失和正交约束损失[98][102]。 **模型评价**:为科学评估强化学习融合机制的实际贡献提供了可对比的基准[98]。 3. 模型名称:DTLC_Equal (等权融合模型) **模型构建思路**:作为简单的融合对照组,直接对三个空间独立训练出的因子进行等权求和[2][98]。 **模型具体构建过程**:分别训练Beta_TCN、Alpha_Transformer、Theta-ResMLP三个因子,然后将每个因子的值进行等权相加,得到最终的合成因子[98][103]。 4. 因子名称:Beta_TCN **因子构建思路**:捕捉市场系统性风险,量化个股对市场风险因素的不同敏感度[67]。 **因子具体构建过程**:选取5个市场相关特征:收益率暴露(beta_mkt)、波动率敏感度(beta_vol)、流动性beta(beta_liq)、大小盘暴露(beta_size)、市场情绪敏感度(beta_sent)[67][72]。将这5个特征的60个交易日时序数据输入TCN编码器(结构如DTLC_RL模型中的Beta空间编码器),输出一个32维向量作为Beta空间编码,并进一步通过预测头输出收益率预测,形成因子[68][73]。 **因子评价**:可以挖掘出个股暴露在beta中的相关信息,具备一定的选股效果[73]。 5. 因子名称:Alpha_Transformer **因子构建思路**:挖掘个股特异性信息(Alpha)[76][81]。 **因子具体构建过程**:选取13个日频量价时序特征,如量价背离度(pvo)、压力支撑效率(sse)、波动率偏度(skew)等[77]。将这些特征的时序数据输入多尺度Transformer编码器(结构如DTLC_RL模型中的Alpha空间编码器),输出收益率预测,形成因子[78][80]。 **因子评价**:可以学习到一定程度的个股特异性信息,且与beta空间编码器学习的信息重合度相对适中[82]。 6. 因子名称:Theta-ResMLP **因子构建思路**:系统性地挖掘个股的财务安全边际与抗风险能力,基于价值投资理论中的安全边际原则[88][95]。 **因子具体构建过程**:选取8个核心财务指标特征:市盈率(pe)、市净率(pb)、ROE均值比标准差(roemeantostd)、股息率(dividendyield)、ROE环比(roemom)、EPS同比(epsyoy)、营业利润率(operatingprofit)、ROIC(roic)[88]。将这些截面特征输入门控残差MLP编码器(结构如DTLC_RL模型中的Theta空间编码器),输出收益率预测,形成因子[92][94]。 **因子评价**:可以学习到一定程度的个股基本面信息,且与beta、alpha空间编码器学习的信息重合度较低,边际信息提供量较大[96]。 模型的回测效果 (回测区间:2019年1月至2025年11月,全A范围,Top10%多头组合) 1. **DTLC_RL模型**,IC: 0.1250,ICIR: 4.38,年化收益率: 34.77%,年化波动率: 25.41%,信息比率: 1.37,最大回撤率: 40.65%,单边月均换手率: 0.71X[122][123]。 2. **DTLC_Linear模型**,IC: 0.1239,ICIR: 4.25,年化收益率: 32.95%,年化波动率: 24.39%,信息比率: 1.35,最大回撤率: 35.94%,单边月均换手率: 0.76[103][105]。 3. **DTLC_Equal模型**,IC: 0.1202,ICIR: 4.06,年化收益率: 32.46%,年化波动率: 25.29%,信息比率: 1.28,最大回撤率: 40.65%,单边月均换手率: 0.71[103][105]。 因子的回测效果 (回测区间:2019年1月至2025年11月,全A范围,Top10%多头组合) 1. **Beta_TCN因子**,IC: 0.0969,ICIR: 3.73,年化收益率: 27.73%,年化波动率: 27.19%,信息比率: 1.02,最大回撤率: 45.80%,单边月均换手率: 0.79X[2][73]。 2. **Alpha_Transformer因子**,IC: 0.1137,ICIR: 4.19,年化收益率: 32.66%,年化波动率: 23.04%,信息比率: 1.42,最大回撤率: 27.59%,单边月均换手率: 0.83X[2][80][81]。 3. **Theta-ResMLP因子**,IC: 0.0485,ICIR: 1.87,年化收益率: 23.88%,年化波动率: 23.96%,信息比率: 0.99,最大回撤率: 37.41%,单边月均换手率: 0.41X[2][94][95]。
谷歌TPU强势破局,海外AI算力泡沫担忧下的景气密码
每日经济新闻· 2025-12-09 09:29
AI行业现状与商业模式争议 - 市场存在AI泡沫的说法 主要基于两个问题:一是AI领域缺乏大规模应用落地与转化 被比喻为“路修了但行人寥寥” [1];二是部分大厂被指责通过延长折旧年限等方式虚增利润 [1] - 尽管大规模应用尚未出现 但AI赋能已在多个行业和场景中发生 例如云厂商收入因企业使用小范围AI服务而增长迅猛 搭载AI的搜索软件效率提升 AI在创作领域的应用增加了用户停留时间 [2] - 从国家战略层面看 中国与美国均在大力推动人工智能发展 其投入并非由短期市场化结果决定 而是具备长远的战略价值 因此持续投入仍是大概率事件 [2] 行业竞争格局与技术发展 - 谷歌在AI领域技术实力雄厚 其推出的Transformer模型是ChatGPT的核心基础 2023年谷歌全面发力 从基础硬件、云计算、大模型到应用均推出顶尖技术成果 例如Gemini 3 Pro性能几乎碾压同类模型 [3] - 谷歌TPU在硬件方面取得较大进展 其推出可能挑战英伟达在AI GPU市场的主导地位 当前英伟达市场份额约占90%以上 AMD约占4%多 [3] - 企业间的竞争(如谷歌TPU与英伟达GPU)可能加快计算芯片的放量速度 并促使效率提升 目前许多AI训练已采用万卡集群甚至更高规格的算力配置 [4] 产业链影响与投资逻辑 - 对于中国光模块产业而言 上游订单无论是来自英伟达还是谷歌 对国内光模块厂商影响不大 均为上游需求的拉动 [4] - 上游光模块企业作为“卖铲人”的逻辑依然成立 无需过度担忧上游厂商的竞争格局变化 [4] - 2026年技术趋势明确 光模块将向1.6T升级 [5] 投资方向与市场观点 - 北美算力端通信ETF确定性较高 [5] - 国产算力端可关注高弹性的科创芯片ETF与确定性较高的半导体设备ETF [5] - 应用端当前估值偏低 可根据自身风格择机布局 大规模应用爆发后将进一步拉动上游算力需求 [5]
预测下一个像素还需要几年?谷歌:五年够了
机器之心· 2025-11-26 15:07
文章核心观点 - 研究重新审视了基于下一像素预测的生成式图像预训练范式,探讨其大规模扩展的可行性与规律 [2][4][6] - 研究发现,下一像素预测的扩展趋势与文本类似但效率低得多,需要比语言模型多10–20倍的token-per-parameter比例才能达到有效学习 [6][15][16] - 不同下游任务(如图像分类与生成)的最优扩展策略存在显著差异,且策略随图像分辨率提升而改变 [7][18][22][23] - 尽管当前计算成本高昂,但研究预测基于原始像素的建模在未来五年内将变得可行,主要瓶颈是计算量而非训练数据 [8][26] 研究方法与实验设置 - 研究从32×32分辨率的图像出发,在多种等算力配置下训练了一系列Transformer模型,最大计算量达到7e19 FLOPs [10] - 采用四种规模的Transformer架构,参数从2800万到4.49亿不等 [11] - 在包含3亿张图像的JFT-300M数据集上进行预训练,在32×32分辨率下完整遍历一遍相当于处理超过3000亿个像素 [12] - 通过下一像素预测目标、ImageNet分类准确率以及Fréchet Distance衡量生成质量这三个指标评估模型性能 [10][13] 关键研究发现 - 像素的语义信息极低,单个像素几乎不包含语义,其颜色值可能对应多种物体的一部分 [10][19] - 像素之间的空间关系非常复杂,不易用序列方式表示,且随着图像分辨率升高,下一像素预测的计算量会急剧增加 [10] - 在32×32分辨率下,图像生成任务需要比分类任务更大的token-parameter比例,其数据规模增长速度是分类任务的三到五倍 [7][18] - 随着图像分辨率从16×16提升至64×64,最优扩展策略明显偏向更大的模型而非更多的数据 [23][24] 未来展望与可行性分析 - 训练算力正以每年四到五倍的速度增长,为逐像素建模的未来可行性提供了基础 [8] - 研究预计在未来五年内,基于原始像素的学习将成为一条可行的发展方向,并能达到具有竞争力的性能 [26] - 像素级模型的主要瓶颈是计算量,而非训练数据的可获得性 [18][26]
AI大家说 | 哈佛&MIT:AI能预测,但它还解释不了“why”
红杉汇· 2025-10-22 08:06
实验核心发现 - 哈佛与MIT的实验表明,当前AI模型在预测行星轨迹时,虽能达到高精度,但并未编码出如牛顿定律般的“世界模型”,而是依赖特定情境的经验法则[3][8] - 模型预测的受力向量与真实的万有引力定律毫无关联,且其错误模式在不同测试样本(如不同银河系)中不一致,说明其无法构建稳定的、可推广的定律体系[10] - 该“预测与解释脱节”的缺陷在“晶格问题”和“黑白棋”等其他测试场景中同样存在,模型仅根据“下一个token可能性”对状态进行分类,而非理解底层规律[11] 实验设计与背景 - 研究选择轨道力学作为测试场景,因其在科学史上具代表性,旨在观察AI是否能重演从开普勒(经验规律)到牛顿(深层原理)的科学发现过程[4][5] - 实验使用1000万个模拟太阳系坐标序列(总计200亿个token)训练一个1.09亿参数的小型Transformer模型,以探究其预测逻辑[3][8] - 研究将AI模型统称为“基础模型”,其核心是数据驱动的“输入-预测输出”映射,与能刻画数据隐含状态结构的“世界模型”存在本质区别[6] 对AI行业发展的启示 - 研究结果并非否定AI价值,但指出以当前形态,大语言模型尚不足以实现真正的科学发现,需探索新路径[12][13] - 行业未来发展的一种思路是结合“晶化智力”(已有知识)与“流动智力”(经验迁移能力),例如通过JEPA框架等新方法进行探索[13] - 行业需共同解答的核心命题是如何让AI从“预测机器”进阶为能理解世界运行逻辑的“思考者”,这决定了AI在科学史上的最终地位[14]
27亿美元天价回归,谷歌最贵“叛徒”、Transformer作者揭秘AGI下一步
36氪· 2025-09-22 16:48
大模型核心需求 - 大模型最核心需求是算力 具体表现为更多FLOPS意味着更好性能 [5][9][21] - 内存容量和带宽对模型结构灵活性至关重要 不足会限制非线性层添加 [24][26] - 网络带宽是关键但常被忽视因素 影响分布式训练和推理时参数访问速度 [27][28] 硬件资源需求 - 计算资源需求急剧增长 从2015年32个GPU训练发展到需要数十万个GPU [12] - 内存系统需要多层次优化 包括片上SRAM、HBM和DRAM等中高速缓存 [14][26] - 集群需要更大更快设备 更大内存带宽直接决定推理速度 [15][28] 精度与性能平衡 - 低精度运算成为趋势 可使用8-bit甚至4-bit换取更多FLOPs [32][33] - 需确保训练精度足够和推理误差小 accumulator使用更高精度或进行裁剪防止溢出 [34][40] - 可重复性至关重要 除非获得10倍性能否则不应牺牲确定性 [35][39] AI技术发展路径 - AI发展处于早期阶段 当前LLM只是单步预测引擎 [47] - 未来将加入持久记忆和长期预测能力 发展为具备完整规划能力的行动型AI [48] - 技术飞跃可能在2026年底前实现 一切都将发生深刻变化 [49] 行业影响与社会挑战 - AI将导致大规模失业潮 未来20年内白领认知劳动将被高效替代 [52] - 需要政府通过税收等再分配机制缓冲社会巨变 [52] - 面临"遏制困境"挑战 当执行想法成本趋近零时可能引发大量冲突 [54][55] 安全与治理框架 - 设定四条不可逾越红线:递归式自我改进、自主设定目标、获取自身资源、在世界上自主行动 [56] - AI存在于物理数据中心 可通过"拔掉电源"方式控制 [56] - 需要建立识别和集体决策机制来应对可能出现的失控情况 [56]
Mamba一作预告新架构!长文论述Transformer≠最终解法
量子位· 2025-07-09 12:57
序列模型架构比较 - Mamba作为状态空间模型(SSMs)代表,在语言任务上3B规模超越同等Transformer,匹敌两倍规模Transformer [2] - SSMs工作方式类似人类大脑,通过压缩历史信息形成固定大小隐藏状态,适合处理长序列且计算成本呈线性增长 [15][16] - Transformer通过KV缓存完整记录所有token信息,具备精确记忆能力但计算成本呈二次复杂度 [23][25] 模型性能优势 - SSMs在语言/音频/DNA序列模态实现SOTA,计算效率高且内存需求固定 [16] - Mamba通过三大关键改进提升性能:扩大状态维度至RNN的N倍/引入选择性记忆机制/优化训练效率 [17][18][19][20] - Transformer依赖tokenization预处理,在多语言多模态场景存在局限性且违背端到端学习原则 [28][29][30] 架构融合趋势 - 混合架构中SSM层与注意力层最佳比例介于3:1至10:1之间 [37] - 注意力机制二次复杂度并非Transformer主要缺陷,新架构将保持兼容性 [5][7] - 未来方向是结合SSMs的在线处理能力与Transformer的精确检索优势,直接处理原始数据 [36][40] 行业技术发展 - Mamba作者预告几天后将发布架构领域重大进展 [3] - 当前共识可能被推翻,Transformer被视为阶段性最优解而非最终方案 [8] - 架构设计核心指标是FLOPs利用率,需快速转化为模型能力 [39]
心智×算法 如何“共舞”(瞰前沿·人工智能如何改变科研范式)
人民日报· 2025-06-14 05:43
人工智能与心理学融合 - 全球AI for Science论文发表年均增长率达27.2%(2019-2023年)[1] - 心理学原理如条件反射和强化学习启发了AI技术(如AlphaGo的强化学习机制)[2] - 认知心理学的注意力机制被应用于AI模型(如ChatGPT的注意力权重分配)[2] 技术应用与效率提升 - 通过社交媒体和可穿戴设备捕获10亿级行为数据流,心理学研究进入"数据海洋"时代[2] - AI自动评估人格的相关系数达0.5,显著高于传统问卷效率[3] - 情感计算技术通过声波震颤识别孤独指数,深度学习框架分析口语特征以筛查抑郁[3] 研究范式革新 - 大型语言模型开发自助心理支持工具,采用"零样本学习"和"思维链提示"策略提升情感互动能力[5] - AI生成大规模危机文本训练数据,突破敏感数据获取瓶颈,模型识别微弱求助信号的能力增强[5] - 谷歌DeepMind通过"心智进化"实验模拟自然选择,AI推理任务表现超越传统算法[6] 未来发展方向 - 心理学启发的决策机制将提升AI在开放环境中的判断力,多模态整合能力适应复杂情境[7] - 具身智能仿真平台(如"格物")采用进化式学习算法,机器人训练周期从数周压缩至分钟级[6] - AI情感慰藉可能改善人类心理状态,需重新定义情感边界并制定伦理规范[8]