Workflow
自监督学习
icon
搜索文档
模型「漂移」新范式,何恺明新作让生成模型无须迭代推理
机器之心· 2026-02-08 18:37
文章核心观点 - 何恺明研究团队提出了一种名为“漂移模型”的全新生成建模范式 该范式在概念上不同于依赖微分方程的扩散模型与流模型 其核心是通过训练过程中不断演化的推送映射来实现单步推理 从而在保证生成质量的同时大幅提升效率 [3][5][7] - 漂移模型在ImageNet 256×256图像生成任务上取得了突破性性能 在潜空间协议下实现了单步生成FID 1.54 在像素空间协议下实现了单步生成FID 1.61 这两项指标均达到了当前单步生成方法的新SOTA 并且与多步扩散模型相比具有竞争力 [14][24][25] - 该方法通过引入“漂移场”来控制训练过程中样本的移动和分布的演化 其训练目标简单有效 并且对模式坍塌问题表现出良好的鲁棒性 即使在初始化状态不佳时也能稳健收敛到多模态目标分布 [8][11][16][17] - 漂移模型在效率上优势显著 其像素空间模型仅需87G FLOPs即可达到1.61 FID 而性能相近的StyleGAN-XL则需要1574G FLOPs 这为解决生成式AI中质量与效率的权衡问题提供了新路径 有望推动实时应用的发展 [25][26] 生成模型的技术演进与挑战 - 传统生成模型如扩散模型和流模型 其训练和推理过程通常是迭代式的 计算成本高昂 行业为提升效率进行了诸多探索 例如通过蒸馏将多步模型压缩为单步模型 或从零训练单步模型如VAE和正则化流 [2] - 然而 上述方法仍无法完全摆脱迭代训练过程的限制 漂移模型的提出标志着一种概念上的根本性转变 它不依赖于微分方程表述 天然支持一步推理 [2][3] 漂移模型的核心机制 - 漂移模型的核心在于其“推送”映射由一个单次前向的网络表示 该映射在训练过程中不断演化 从而避免了迭代式推理 训练过程通过不断更新网络参数来演化推送分布 使其逼近真实数据分布 [7] - 研究团队引入了一个“漂移场”来控制训练过程中样本的运动 该漂移场依赖于生成分布和数据分布 当两者一致时漂移场为零 系统达到平衡 样本停止漂移 [8] - 漂移场由正样本的均值偏移向量和负样本的均值偏移向量共同决定 生成样本被正样本吸引 同时被负样本排斥 通过最小化生成样本漂移的简单目标函数 驱动分布的演化 [10][11] 实验设计与关键发现 - 在二维玩具示例中 漂移模型能够在不同初始化条件下 稳健地逼近双峰目标分布 且不出现模式坍塌 这直观解释了该方法对模式坍塌的鲁棒性机制 [16][17] - 消融实验表明 漂移场必须满足反对称性设定 破坏此性质会导致性能灾难性下降 例如仅使用吸引力项时FID高达177.14 而默认反对称设置下FID为8.46 [19] - 实验发现 使用更大的正负样本数有助于更准确地估计漂移场 从而提升生成质量 当正负样本数从8增加到64时 FID从11.82改善至8.46 [20] - 特征编码器的质量至关重要 使用更宽的网络或更长的自监督学习训练周期能显著提升性能 例如将编码器宽度从256提升至640 并将训练周期从192延长至1280 FID从8.46大幅改善至4.28 [21] 性能表现与行业对比 - 在ImageNet 256×256潜空间生成任务中 漂移模型的最大尺寸变体取得了单步生成FID 1.54 超过了此前所有基于扩散/流轨迹近似的单步方法 其Base尺寸模型性能即可与之前的XL尺寸模型竞争 [14][23][24] - 在更具挑战性的像素空间生成任务中 漂移模型取得了单步生成FID 1.61 性能超过或可与多步扩散方法竞争 并显著优于其他单步像素空间方法如GAN [14][25] - 效率对比优势明显 漂移模型的像素空间L/16变体仅需87G FLOPs即达到1.61 FID 而达到2.30 FID的StyleGAN-XL需要1574G FLOPs 计算需求大幅降低 [25] 方法意义与行业前景 - 漂移模型解决了生成式AI中质量与效率之间的基本权衡问题 表明在大幅降低计算需求的情况下可以达到与传统优质模型相似的质量 这有可能使以前受推理速度限制的实时应用成为可能 [26] - 该方法强调了鲁棒特征表示在生成建模中的重要性 预训练特征提取器的关键作用表明 自监督学习的进步直接有益于该范式 在表示学习和生成之间建立了协同效应 [21][26] - 该方法在不同领域的成功表明 通过漂移场进行分布演变的核心原理可能广泛适用于各种生成任务 为高效生成建模开辟了新的研究方向 [26]
量化专题报告:“机器学习”选股模型系列研究(一):量价指纹模型的构建与应用初探
国盛证券· 2026-01-16 21:34
量化模型与构建方式 1. 量价指纹生成模型 * **模型名称**:量价指纹生成模型[1][8] * **模型构建思路**:借鉴大语言模型的语义理解思想,将市场分钟级交易数据视为一种特殊“语言”,通过自监督学习框架,迫使模型理解日内量价行为中蕴含的动态语义与因果结构,最终生成一个低维、高信息密度的日度语义表征向量(即“量价指纹”)[1][8][9]。 * **模型具体构建过程**: 1. **输入数据**:每只股票每日的分钟级特征序列 $X \in \mathbb{R}^{T \times D}$,其中 $T=237$(交易分钟数),$D=32$(特征维度,包括4维价格特征和28维交易特征)[16]。 2. **特征预处理**: * **价格特征标准化**:除价格位置外,其余价格特征用当日开盘价进行标准化。$$ \tilde{p}_{t,d} = \frac{p_{t,d}}{p_{\mathrm{open}}} - 1 $$[16] * **交易特征标准化**:将每分钟特征值除以该特征过去20日所有分钟数值之和的均值。$$ {\tilde{f}}_{t,d} = {\frac{f_{t,d}}{S_{d}}}, \quad S_{d} = {\frac{1}{N_{\mathrm{hist}}}} \sum_{i=1}^{N_{\mathrm{hist}}} \sum_{t=1}^{T} f_{t,d}^{(i)} $$[17] 3. **模型架构**:采用编码器-双分支解码器架构的因果Transformer模型[26]。 * **固定正交投影层**:将输入 $X$ 投影到隐藏维度 $d_{\mathrm{model}}=128$,投影权重 $W_p$ 正交初始化并永久冻结。$$ H^{(0)} = X W_{p}, \quad W_{p}^{T}W_{p}=I $$[27][28] * **因果Transformer编码器**:共4层($L=4$),每层包含带因果掩码的多头自注意力机制和前馈网络[30][33]。 * 多头注意力($h=4$头):$$ \mathrm{MultiHead}(Q,K,V) = \mathrm{Concat}(\mathrm{head}_{1}, \mathrm{head}_{2}, \ldots, \mathrm{head}_{h}) W_{O} $$ $$ \mathrm{head}_{i} = \mathrm{softmax}\left( \frac{Q_{i}K_{i}^{T}}{\sqrt{d_{k}}} + M \right) V_{i} $$ 其中因果掩码矩阵 $M$ 确保只能关注过去信息[30][31]。 * 前馈网络:$$ \mathrm{FFN}(x) = \mathrm{GELU}(xW_1 + b_1)W_2 + b_2 $$[33] * **双分支输出**: * **日度指纹生成分支**:提取编码器最后一层最后一个时间步的输出作为128维日度指纹向量 $e$。$$ e = H_{:,T}^{(L)} \in \mathbb{R}^{B \times d_{\mathrm{model}}} $$[35] * **序列重建分支**:对编码器输出进行层归一化后,通过线性层重建原始输入序列 $\widehat{X}$[37]。 4. **损失函数设计**:采用双任务自监督学习损失与防坍缩正则项相结合的总损失函数[42][47]。 * **前向损失(价格特征因果预测)**:$$ {\mathcal{L}}_{\mathrm{forward}} = {\frac{1}{N_{forward}}} \sum_{b=1}^{B} \sum_{t=1}^{T} \sum_{k=1}^{D_{r}} M_{f}[b,t,k] \cdot {\frac{(r_{b,t,k} - {\hat{r}}_{b,t,k})^{2}}{\sigma_{k}^{2}}} $$[42] * **后向损失(交易特征重建)**:$$ {\mathcal{L}}_{\mathrm{backward}} = {\frac{1}{N_{backward}}} \sum_{b=1}^{B} \sum_{t=1}^{T} \sum_{k=1}^{D_{f}} M_{b}[b,t,k] \cdot {\frac{(x_{b,t,k} - {\hat{x}}_{b,t,k})^{2}}{\sigma_{k}^{2}}} $$[42] * **防坍缩正则化**: * **多样性损失**:鼓励嵌入向量在特征空间中分散。$$ {\mathcal{L}}_{\mathrm{diversity}} = \lambda_{d} \cdot \mathbb{I}(\sigma_{e} < 0.1) \cdot (-\mathrm{log}(\sigma_{e} + \epsilon)) $$[44] * **正交性约束**:防止特征维度间冗余。$$ \mathcal{L}_{\mathrm{orthogonality}} = \lambda_{o} \cdot \parallel C - I \parallel_{F} $$[45] * **均匀性损失**:避免嵌入向量过度相似。$$ \mathcal{L}_{\mathrm{uniformity}} = \lambda_{u} \cdot \mathbb{I}(\bar{s} > \tau) \cdot \bar{s} $$[46] * **总损失**:$$ {\mathcal{L}}_{\mathrm{total}} = \lambda_{f}{\mathcal{L}}_{\mathrm{forward}} + \lambda_{b}{\mathcal{L}}_{\mathrm{backward}} + {\mathcal{L}}_{\mathrm{diversity}} + {\mathcal{L}}_{\mathrm{orthogonality}} + {\mathcal{L}}_{\mathrm{uniformity}} $$[47] 5. **训练细节**:采用滚动训练框架,每年年初使用过去三年的数据对模型进行微调,以维持嵌入空间的连续性[48]。具体参数如batch_size=512,学习率1e-4,使用Adam优化器等[49]。 2. 单流GRU预测模型 (模型1与模型2) * **模型名称**:单流GRU预测模型[51] * **模型构建思路**:使用过去20个交易日的日频特征(基础价量特征+量价因子或量价指纹),通过双层GRU网络捕捉时序依赖,预测股票未来5日的收益率,以生成选股因子[51][52]。 * **模型具体构建过程**: 1. **输入特征**: * **模型1(量价因子)**:过去20个交易日的每日高开低收、成交量、成交额(共6个基础特征)以及137个量价因子[51][52]。 * **模型2(量价指纹)**:过去20个交易日的每日高开低收、成交量、成交额(共6个基础特征)以及128维量价指纹[52]。 2. **特征预处理**: * **价格类特征**:采用对数变化率的时序标准化(样本内每个价格除以最新价格取对数)[52]。 * **成交量/额**:每日值除以20日均值[52]。 * **量价因子**:进行时序标准化、MAD去极值、截面zscore标准化[52]。 * **量价指纹**:作为预训练生成的语义表征,无需标准化[52]。 3. **模型结构**:双层GRU + 全连接层 + LayerNorm + ReLU激活 + dropout + 全连接输出层[53]。 4. **训练细节**:使用可微分RankIC作为损失函数,每年年初使用过去数据训练,并行训练3个不同随机种子的模型并集成预测,以提升稳健性[53]。 3. 双流GRU融合预测模型 (模型3) * **模型名称**:双流GRU融合预测模型[67] * **模型构建思路**:为了融合量价因子和量价指纹两类异构特征,采用双流GRU设计,让两个GRU流分别处理各自擅长的特征,最后将两个流的隐藏状态进行加权融合,再通过全连接层预测收益率,以充分利用信息的互补性[67]。 * **模型具体构建过程**: 1. **输入特征**:两个独立的数据流,一流输入基础特征+量价因子,另一流输入基础特征+量价指纹[67]。 2. **模型结构**:两个独立的单流GRU模块(结构与上述单流GRU相同)并行处理两个特征流,将两个GRU的最终隐藏状态通过可配置的权重进行融合,然后将融合后的特征输入全连接预测层[67][69]。 3. **训练与集成**:训练策略与单流GRU模型一致,每年训练3个集成模型[68]。 量化因子与构建方式 1. 模型1因子 * **因子名称**:基于量价因子的GRU预测因子[51] * **因子构建思路**:将预处理后的历史量价因子序列输入单流GRU预测模型,模型输出的预测值即为该因子[51][52]。 * **因子具体构建过程**:如上述“单流GRU预测模型 (模型1)”所述,模型每日根据过去20日数据生成的预测信号即为因子值[52]。 2. 模型2因子 * **因子名称**:基于量价指纹的GRU预测因子[52] * **因子构建思路**:将历史量价指纹序列输入单流GRU预测模型,模型输出的预测值即为该因子[52]。 * **因子具体构建过程**:如上述“单流GRU预测模型 (模型2)”所述,模型每日根据过去20日数据生成的预测信号即为因子值[52]。 * **因子评价**:该因子与市值风格因子的相关性极低,表明其捕捉的市场语义信息与传统市值维度存在差异,可能更多与日内资金节奏、多空博弈等动态特征相关[54][55]。 3. 模型3因子 (融合因子) * **因子名称**:量价因子与量价指纹融合预测因子[67] * **因子构建思路**:将量价因子和量价指纹分别输入双流GRU融合模型,模型融合两类信息后输出的预测值即为该因子[67]。 * **因子具体构建过程**:如上述“双流GRU融合预测模型 (模型3)”所述,模型每日生成的预测信号即为因子值[67]。 * **因子评价**:融合因子结合了量价因子的显式统计规律与量价指纹的隐式语义模式,提升了预测能力和模型稳定性[68][86]。 模型的回测效果 (回测期:2017/01/01-2025/12/31,全市场A股,周度换仓,暂不考虑交易费用)[59][68] | 模型 | 周度RankIC均值 | 年化RankICIR | 多空对冲年化收益 | 多空对冲年化波动率 | 多空对冲IR | 多空对冲周度胜率 | 多空对冲最大回撤率 | 多头超额年化收益 | 多头超额年化波动率 | 多头超额IR | 多头超额周度胜率 | 多头超额最大回撤率 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | **模型1 (量价因子)** | 0.106[65] | 6.64[65] | 81.23%[65] | 15.25%[65] | 5.33[65] | 74.95%[65] | 12.66%[65] | 19.00%[65] | 8.46%[65] | 2.24[65] | 65.01%[65] | 15.09%[65] | | **模型2 (量价指纹)** | 0.106[65] | 6.62[65] | 83.88%[65] | 15.50%[65] | 5.41[65] | 73.87%[65] | 11.65%[65] | 21.35%[65] | 7.45%[65] | 2.87[65] | 69.76%[65] | 12.09%[65] | | **模型3 (融合因子)** | 0.109[68] | 6.85[68] | 90.89%[68] | 15.27%[68] | 5.95[68] | 76.46%[68] | 11.54%[68] | 28.09%[74] | 不适用 | 不适用 | 不适用 | 不适用 | 因子的回测效果 (回测期:2017/01/01-2025/12/31,全市场A股,周度换仓,暂不考虑交易费用)[59][68] | 因子 | 周度RankIC均值 | 年化RankICIR | 多空对冲年化收益 | 多空对冲年化波动率 | 多空对冲IR | 多空对冲周度胜率 | 多空对冲最大回撤率 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | **模型3融合因子** | 0.109[68] | 6.85[68] | 90.89%[68] | 15.27%[68] | 5.95[68] | 76.46%[68] | 11.54%[68] | 指数增强组合表现 (基于模型3融合因子构建,回测期:2017/01/01-2025/12/31)[75][78][82] | 指数增强组合 | 超额年化收益 | 跟踪误差 | IR | 月度胜率 | 最大回撤 | | :--- | :--- | :--- | :--- | :--- | :--- | | **沪深300指数增强** | 7.12%[75] | 1.74%[75] | 4.10[75] | 86.11%[75] | 1.85%[75] | | **中证500指数增强** | 11.38%[78] | 3.47%[78] | 3.28[78] | 83.33%[78] | 4.76%[78] | | **中证1000指数增强** | 14.84%[82] | 3.45%[82] | 4.30[82] | 83.33%[82] | 2.95%[82] |
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
机器之心· 2026-01-15 12:31
文章核心观点 - 一项由哥伦比亚大学胡宇航博士团队主导的突破性研究,成功开发出具备仿生面部结构的人形机器人,该机器人通过自监督学习机制,实现了与语音和歌曲同步的真实、自然的唇部运动,标志着人形机器人在面部表情交互领域取得了关键进展,有助于跨越“恐怖谷”效应,为机器人在依赖情感沟通的领域应用奠定了基础 [2][7][22][25] 研究背景与重要性 - 研究显示,人类面对面交流时近一半注意力集中在唇部运动上,轻微不自然的面部表情会立刻引发不适,即“恐怖谷”效应 [5] - 面部表情,尤其是唇部自然运动,是当前人形机器人能力中的“缺失环节”,对于需要面对面交流的场景至关重要 [22] - 经济学家预测,未来十年全球或将制造超过**10亿台**人形机器人进入生活场景,面部表达将成为重要需求 [23] 技术核心与创新 - **硬件设计**:机器人面部在一层柔性硅胶皮肤下隐藏了**20余个微型电机**,能快速、安静且协同地驱动唇部形变 [8] - **自我建模学习**:机器人通过观察镜子中自己面部在不同电机驱动下的变化,构建Facial Action Transformer模型,学会控制自己的脸,这是一种“视觉—动作”的自监督学习 [12] - **纯声音驱动**:机器人通过观看合成的视频学习声音与唇部运动的对应关系,最终能将接收的声音信号直接转化为连续、自然的唇部运动,无需理解语义 [14] - **多语言泛化能力**:测试显示,机器人在多种语言、不同语音环境及歌曲中均能完成连贯的唇部同步,所有非英语语言的同步误差均保持在英语误差范围内 [18][21] 应用前景与行业意义 - 随着人形机器人进入娱乐、教育、医疗、陪护等高度依赖情感沟通的领域,一张温暖、自然、可信的“脸”将从加分项变为“入场券” [23] - 当唇部同步能力与对话型大模型结合时,机器人与人类之间的情感连接将发生质变,因为大量情感信息存在于面部和身体语言中 [25] - 该研究展示了中国学者在国际人形机器人领域具备独特的创新能力 [25]
医学影像诊断或将告别“手工标注时代”
环球网资讯· 2026-01-07 09:18
核心观点 - 中国科学院深圳先进技术研究院等机构联合开发出一种名为AFLoc的人工智能模型 该模型无需医生预先标注病灶 即可在多种医学影像中自动定位病灶并诊断疾病 有效减少了对大规模人工标注数据的依赖 为临床影像AI迈向自监督学习提供了新路径 [1][3][5] 技术原理与创新 - 模型通过“对照学习”同时学习医学影像本身和医生撰写的临床报告 从而理解疾病描述对应的影像区域 最终实现无需人工标注的病灶定位 [3] - 该技术有效规避了传统深度学习方法对大规模人工标注数据的依赖 显著提升了医学影像数据的利用效率与模型的泛化能力 [5] 模型性能验证 - 研究团队在胸部X光 眼底影像和组织病理图像三种典型医学影像模态上对AFLoc进行了系统验证 模型均表现出优异性能 [3] - 在胸片实验中 AFLoc在覆盖34种常见胸部疾病 涉及8个主流公开数据集的测试中 其病灶定位指标优于现有方法 并在多个病种中达到甚至超越人类专家水平 [3] - 在眼底影像和病理图像任务中 AFLoc同样展现出稳定的病灶定位能力 其定位精度优于当前主流模型 [3] 疾病诊断能力 - 除病灶定位外 AFLoc还展现出强大的疾病诊断能力 在胸部X光 眼底和组织病理图像的零样本分类任务中 其整体表现均优于现有方法 [3] - 尤其在眼底视网膜病变诊断中 AFLoc的零样本分类性能甚至超越了部分依赖人工标注数据微调的模型 [3] 行业影响与未来计划 - 该模型为临床影像AI从“依赖手工标注”迈向“自监督学习”提供了可行路径 也为构建更智能 更具通用性的医学人工智能系统提供了新的技术范式 [5] - 研究团队未来计划进一步推动AFLoc在多中心真实临床场景中的验证与应用 加速其向临床辅助诊断系统的转化落地 [5]
自回归也能做强视觉模型?NEPA开启「下一嵌入预测」时代,谢赛宁参与
机器之心· 2026-01-02 13:00
研究背景与范式转变 - 视觉预训练的核心传统目标是学习表征,将原始像素映射到固定维度表征以供下游任务微调[8][9] - 自然语言处理领域的成功建立在根本不同的范式上,其预训练目标是作为生成式和预测式系统,通过因果目标对数据分布本身进行建模[13] - 研究表明,生成式预测而非表征学习,可能为扩展预训练提供更直接的途径[15] NEPA核心方法与架构 - 研究团队提出“下一嵌入预测自回归”方法,核心是让模型以过去图块嵌入为条件,学习预测未来的图块嵌入,类似于语言模型的下一词预测[2][16] - 该方法采用带有因果注意力掩码的标准视觉Transformer主干网络,无需单独的解码器,使用单个主干同时进行上下文编码和预测[22] - 训练中对目标嵌入使用停止梯度以创建稳定的预测任务,方法极简,无需像素级解码器、视觉分词器或对比学习中的工程化组件[17][20] 性能表现与实验结果 - 仅在ImageNet-1K上预训练,NEPA的ViT-B和ViT-L模型分别达到83.8%和85.3%的Top-1准确率,优于MoCo v3、BEiT,与MAE和JEPA处于同一水平[29][31] - 在ADE20K语义分割任务上,NEPA的ViT-B和ViT-L模型分别取得48.3%和54.0%的mIoU,证明了纯粹嵌入预测的强大迁移能力[31][32] - 可视化分析显示,模型自动学会了长距离且以对象为中心的注意力模式,预测出的嵌入在语义上与同一物体的其他图块高度相似[37] 研究意义与影响 - 该方法实现了从学习表征到学习模型的范式转变,是视觉预训练领域的一种新探索[2] - NEPA证明了极简的因果预训练可以产生强大的视觉学习器,为跨模态的统一预训练范式提供了无需复杂手工设计的通用视角[16][37] - 该论文在发布时成为arXiv上热度第一的论文,显示了学术界对此方向的关注[4]
LeCun在Meta的最后一篇论文
36氪· 2025-11-14 11:04
LeJEPA方法核心创新 - 提出潜在欧几里得联合嵌入预测架构(LeJEPA),通过使嵌入空间遵循特定统计分布来提升预测性能[2] - 核心创新是草图化各向同性高斯正则化(SIGReg),这是一种可处理、可证明正确的正则化方法,通过单变量方向检验结合Epps-Pulley测试判断嵌入分布匹配程度[6] - 研究表明各向同性高斯分布是嵌入空间的最佳分布,可在没有任务信息情况下保证最小化偏差和方差,提高下游任务表现[5] 技术优势与实验验证 - 等向高斯分布能够最小化训练过程中的偏差和方差,在总方差相同情况下,非等向分布会导致更高偏差和方差[3] - 在ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等大型架构上进行实验,模型规模接近10亿参数[8] - 实验显示LeJEPA在这些架构上表现超越现有方法,在Galaxy10、Food101等特定领域数据集上直接预训练时超越了基于DINOv2的迁移学习方法[10] JEPA架构发展历程 - JEPA(联合嵌入预测架构)是自监督学习框架,旨在通过嵌入空间联合预测方法提升模型表达和推理能力,与生成式模型不同,仅捕捉依赖关系而不显式生成预测[16] - JEPA可进一步通过分层架构(H-JEPA)增强抽象能力,低层处理短期预测,高层用于长期预测,提高可预测性和减少信息损失[18] - JEPA架构与世界模型密切相关,通过学习状态与动作转移训练世界模型,从当前状态表示推断未来状态表示[20] JEPA系列模型演进 - I-JEPA充分利用Transformer架构灵活性,上下文编码器是ViT仅处理可见上下文块,预测器根据位置标记预测特定位置目标块表示[24] - V-JEPA是I-JEPA在视频领域扩展,将视频视为3D图像,通过屏蔽视频序列token进行训练,V-JEPA 2进一步提升了动作预测和世界建模能力[26][28] - MC-JEPA是JEPA扩展,使其包含运动信息,在视频中使用光流估计学习运动,通过图像视角联合嵌入学习内容,以多任务方式共享编码器[30] 行业影响与人物动态 - LeCun在Meta期间个人被引次数大幅增长至406,919次,占总引用数的93%,深度学习爆发期个人学术影响力显著提升[37] - LeCun已离开Meta并筹集资金创办初创公司,继续推进在世界模型方面的工作,尽管面临从学术研究向商业环境转型的挑战[33] - LeCun2013年加入Meta后推动了公司AI转型,成为行业金字招牌,Meta也为其提供了自由的研究环境,这段合作促进了整个AI领域发展[40]
LeCun在Meta的最后论文?还是共同一作,LeJEPA:JEPAs理论拼图补完
机器之心· 2025-11-14 09:33
文章核心观点 - LeCun团队为联合嵌入预测架构提出了一个全面的理论框架LeJEPA,旨在解决当前JEPA训练方法缺乏理论指导、过程脆弱且易出现表征崩溃的问题[2][4] - 该理论证明各向同性高斯分布是基础模型的最佳嵌入分布,并基于此引入了名为概略各向同性高斯正则化的新型分布匹配目标,使LeJEPA成为一个具有统计最优性且能消除表征崩溃的解决方案[5][6][8] - 实验表明,LeJEPA在超过10个数据集和60多种架构上达到或超过了最先进方法的性能,并在特定领域数据集上显示出优于迁移学习的效果,同时具有理论合理、计算高效、架构稳定等优势[9][10][23] JEPA架构的现有挑战与LeJEPA的理论基础 - 当前JEPA训练方法依赖复杂的启发式方法以防止表征崩溃,这些机制使训练过程复杂、脆弱且对超参数敏感,缺乏理论保证[2][3] - 研究团队证明了各向同性高斯分布是基础模型的最佳嵌入分布,该分布在广泛的下游任务族中能唯一地最小化下游预测风险,为JEPA设计提供了明确的理论优化目标[5] - 基于该理论引入的SIGReg目标通过随机投影和特征函数匹配来高效强制嵌入服从理想的各向同性高斯分布,独特地结合了可证明的正确性与大规模计算效率[6][7] LeJEPA框架的设计与实现 - LeJEPA框架由SIGReg损失和预测损失结合而成,其实现不依赖原型、停止梯度和教师-学生网络,整个PyTorch实现仅需约50行代码,且只包含一个用于平衡预测项与各向同性高斯项的超参数[11][19] - 框架移除了许多传统上用于防止坍塌的启发式方法,如预测器和教师-学生架构,而不会遭受表征崩溃,显示出架构无关的设计优势[27] - 研究指出LeJEPA与现有SSL框架存在理论联系,但通过使用特定的检验避免了可能导致捷径解的设置[20][21] LeJEPA的实证性能表现 - 在ImageNet-1K上预训练并进行线性评估,LeJEPA达到79%的准确率,在特定领域数据集如Galaxy10、Food101上,其领域内预训练效果优于基于DINOv2的迁移学习[10] - 实验涵盖接近10亿参数的模型规模,LeJEPA在不同架构和超参数下均保持高度稳定性,例如在ImageNet-1K上使用小至128的批量大小即可达到有竞争力性能[10][24] - 研究在ImageNet-10上预训练了约50种来自8个不同族的架构,所有模型通过线性探测均达到91.5%到95%的top 1准确率,证明了其架构无关的稳定性[26] LeJEPA的训练特性与扩展性 - LeJEPA的训练损失与下游任务准确率表现出高相关性,斯皮尔曼相关性约为85%,通过简单缩放定律可使相关性达到近99%,为无标签的SSL模型选择提供了可能[30][31][32] - 框架在数据和模型规模上均显示出良好的可扩展性,在ViT-gigantic等大型模型上的训练曲线稳定平滑,且在更大预训练数据集和主干网络上的迁移学习性能持续优于IJEPA等基线[38][39] - 学习到的表示中涌现出具有语义意义的注意力模式,能够实现无监督视频分割,显示出对空间语义和时间结构的捕捉能力[41][43]
LeCun在Meta的最后一篇论文
量子位· 2025-11-13 19:52
论文核心观点 - 论文提出了一种名为LeJEPA的新型自监督学习方法,其核心是通过引入SIGReg正则化,使嵌入空间遵循各向同性高斯分布,从而有效解决表示崩溃问题并提升模型泛化能力[5][6] - LeJEPA是Yann LeCun在Meta任职期间以Meta身份发表的最后一篇公开研究成果,于11月11日在arXiv提交,被视为他在Meta的告别之作[2][4][69] 技术原理与创新 - 传统JEPA框架面临表示崩溃问题,即模型将所有输入映射到单一低维空间,导致嵌入空间样本不可区分[6] - LeJEPA通过最小二乘回归分析表明,各向同性高斯分布能够最小化训练过程中的偏差和方差,在总方差相同的情况下,非等向分布会导致更高偏差和方差[8][9] - 研究提出的SIGReg正则化方法将分布匹配转化为统计假设检验,通过Epps-Pulley测试判断嵌入分布与目标分布的匹配程度[15][16][17] - SIGReg通过两条机制解决高维计算挑战:嵌入函数的Sobolev平滑性保证仅需O(K)个方向切片即可约束整个空间;SGD迭代特性使方向数量很少时也能快速收敛[21][22] 实验验证结果 - 实验在ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等多种大型架构上进行,模型规模接近10亿参数[20] - LeJEPA在这些架构上表现超越现有方法,保持了训练的简便性和鲁棒性[23] - 在领域特定数据集如Galaxy10、Food101上,LeJEPA在直接目标数据预训练时超越了基于DINOv2的迁移学习方法[24] JEPA架构发展历程 - JEPA是LeCun于2022年提出的自监督学习框架,旨在通过嵌入空间的联合预测提升模型表达和推理能力[28][31] - 与生成式模型不同,JEPA仅捕捉x和y之间的依赖关系而不显式生成y的预测[32] - JEPA可通过分层架构增强抽象能力,低层处理短期预测,高层用于长期预测,提高可预测性和减少信息损失[34][35][36] - JEPA架构发展三年来已产生多个变体:I-JEPA充分利用Transformer架构灵活性处理图像[43][45];V-JEPA将其扩展至视频领域[49][51];V-JEPA 2进一步提升了动作预测和世界建模能力[58][60];MC-JEPA使其能够包含运动信息[61][63] 行业影响与人物背景 - LeCun自2013年加入Meta以来个人被引次数飙升,达到406919次,占总数的93%,其中与三巨头合写的《深度学习》综述贡献超10万次[77][78] - 尽管JEPA架构提供新路径,但毁誉参半,被批评过于抽象难以应用到主流模型,与生成式AI的背离也被部分人归咎于Meta的AI研究失利[67][68] - LeCun已开始筹集资金创办初创公司继续推进世界模型工作,但其过于学术的风格在商业世界的适应性受到关注[72][73]
备受Meta折磨,LeCun依旧猛发论文,新作:JEPAs不只学特征,还能精准感知数据密度
36氪· 2025-10-09 19:39
研究核心发现 - Yann LeCun团队发现自监督模型JEPAs在训练过程中自动掌握了感知数据常见程度的能力,即学习数据的“密度” [1] - 这一发现打破了学界长期认为JEPAs仅学习特征、与数据密度无关的认知 [3] - 研究证明,学习数据密度是JEPAs训练过程中的必然结果,而非偶然 [8] JEPAs模型技术背景 - JEPAs是LeCun团队重点推进的自监督学习框架,核心优势在于无需人工标注即可从海量数据中学习特征规律 [6] - 模型训练包含两个核心目标:latent空间预测和反坍缩 [11] - 反坍缩原本被视为避免特征失效的保障手段,但本研究揭示了其隐藏价值,即能精准学习数据密度 [7][8] JEPA-SCORE工具与应用 - 团队提出关键工具JEPA-SCORE,用于从JEPAs中提取数据密度并量化样本常见度 [10] - JEPA-SCORE计算逻辑简洁高效,仅需获取雅可比矩阵并计算其特征值对数求和,分数越高表示样本越典型 [10] - 该工具具备极强通用性,不限制数据集和JEPAs架构,在ImageNet、MNIST及陌生星云图集上均能精准计算 [11] - 在数据筛选和异常检测的实用测试中,JEPA-SCORE效果优于传统方法 [13] 实验验证 - 在ImageNet数据集中,不同JEPAs模型对典型样本和罕见样本的JEPA-SCORE判定高度重合,证明此为模型共性能力 [11] - 面对未参与预训练的星系图像数据集,其JEPA-SCORE显著低于ImageNet数据,表明模型能精准识别陌生数据 [11] 研究团队 - 此项研究由Yann LeCun与三位Meta FAIR研究员共同完成 [20] - 团队成员包括布朗大学计算机科学助理教授Randall Balestriero、FAIR研究科学家Nicolas Ballas以及FAIR创始成员Michael Rabbat [22][23][25]
自动驾驶基础模型应该以能力为导向,而不仅是局限于方法本身
自动驾驶之心· 2025-09-17 07:33
基础模型在自动驾驶感知领域的革命性变革 - 基础模型正将自动驾驶感知从特定任务深度学习模型转变为海量多样化数据集训练的多功能通用架构 [2] - 这些模型通过自监督或无监督学习策略在大规模数据集上预训练 基于Transformer等架构构建 能有效建模数据中的复杂交互关系 [4] - 基础模型展现出广泛泛化能力、高效迁移学习能力和对特定任务标注数据集依赖降低等显著优势 [4] 全新分类框架与核心能力 - 提出围绕动态驾驶环境中稳健性能需求的四项核心能力分类框架:通用知识、空间理解、多传感器鲁棒性和时序推理 [5] - 与传统"基于方法"的综述不同 该框架优先关注概念设计原则 提供"以能力为导向"的模型开发指导 [6] - 框架更清晰地揭示了基础模型的核心特性 为研究人员识别和解决特定缺陷提供系统性指导 [6] 通用知识能力 - 通用知识使模型能适应广泛驾驶场景 包括罕见或未见情况 并能合理推断可能结果和对未知智能体进行逻辑推理 [5] - 通过特征级蒸馏、伪标签监督和直接集成三种核心机制将基础模型集成到自动驾驶技术栈中 [37] - 视觉基础模型(VFMs)可直接集成到2D图像流水线 也能扩展至3D感知流水线 提供高层语义理解 [40] 空间理解能力 - 空间理解让自动驾驶车辆构建环境的连贯3D表示 捕捉物体身份、几何形状与上下文关系 [63] - 体积模型通过将传感器输入解读为3D场景的投影 构建密集、整体的环境表示 [65] - 3D掩码自动编码器通过"掩码输入-重建输出"策略 迫使模型学习场景级结构、物体边界和空间关系 [73] 多传感器鲁棒性 - 多传感器鲁棒性指系统在环境变化、传感器噪声或硬件性能下降时仍能保持感知精度与稳定性的能力 [80] - 跨模态对比学习构建统一表示空间 整合相机、激光雷达、毫米波雷达等不同传感器类型的互补信息 [82] - 多模态掩码自动编码器扩展至处理多模态输入 通过自监督重建任务让模型捕捉互补线索 [97] 时序推理能力 - 时序理解是对场景随时间演变过程进行推理 包括捕捉物体运动、跟踪遮挡物以及预测未来事件 [109] - 时序一致的4D预测模型从传感器观测序列中预测复杂动态环境的演变过程 [113] - 扩散概率模型能够表示复杂的多模态概率分布 成为解决未来场景不确定性问题的理想方案 [115] 技术实现与方法创新 - 知识蒸馏通过训练学生模型模仿教师模型的输出或内部行为 实现三类实现方式:输出级蒸馏、特征级蒸馏和关系级蒸馏 [17] - 神经辐射场(NeRF)采用隐式表示将场景建模为连续函数 通过可微体素渲染方程实现照片级真实感渲染 [24] - 3D高斯溅射(3DGS)采用显式表示将场景建模为一组3D高斯椭球体集合 通过可微前向光栅化器大幅提升渲染速度 [25] 模型对比与特性分析 - 基础模型相较于传统深度学习模型 在自动驾驶感知中的核心优势在于更优的泛化性和适应性 [36] - 视觉语言模型(VLMs)融合视觉基础模型与大语言模型的优势 实现视觉内容与文本语义对齐的联合表征 [35] - 大语言模型(LLMs)基于Transformer架构在海量文本语料上训练 具备强大的抽象、推理与指令遵循能力 [51] 当前挑战与未来方向 - 域间隙问题是核心挑战之一 需弥合基础模型预训练通用知识与自动驾驶感知特定需求之间的间隙 [59] - 幻觉风险带来严重安全风险 需深入探究故障根源并开发主动缓解策略 [60] - 延迟与效率问题与自动驾驶实时处理需求存在直接冲突 需通过模型优化技术构建更小、更高效的模型变体 [61]