变分自编码器(VAE)
搜索文档
从千问变动到 “AI 英雄传”,与 DINQ 高岱恒聊传奇 AI 研究员们丨晚点播客
晚点LatePost· 2026-03-16 21:32
通义千问团队人事变动后的市场反应 - 阿里通义千问团队人事震动后,在AI人才平台DINQ上的相关搜索量直接翻了3倍,大约有2000到3000条查询在搜索千问候选人[5][7] - 搜索方主要为HR和猎头群体,甚至包括Meta的高管搜寻负责人也在搜索千问候选人[7] - 搜索方向主要集中在大语言模型、强化学习和Agent等热门方向[7] 通义千问在开源领域的地位与影响力 - 通义千问在开源模型托管平台Hugging Face和ModelScope上的模型下载量远超法国公司Mistral的开源模型,已成为开源模型领域的霸主[10] - 通义千问模型的总下载量比国内其他开源模型(如DeepSeek、Kimi、MiniMax)加起来的还要多[11] - 其模型家族生态完善,拥有从0.6B、1B等各种尺寸的小模型,以及图像、视频、推理、Embedding等多种模型,推动了AI学术界和工业界发展[10][11] - 自2023年下半年起,学术界许多团队在论文中将Qwen模型作为标准实践,行业心智占据重要[11] AI人才市场的趋势与特点 - 顶尖AI人才流动频繁,预计千问离职人员会被Meta、OpenAI、xAI等公司疯抢,xAI与SpaceX合并后可能在2026年进行大规模IPO,财富效应极强[12] - AI研究员的核心特质是追求代表作(如顶会论文、开源项目),而非传统的工作经历或学历,学历和工作经历贬值速度非常快[16][20] - 公司招聘越来越看重具体作品(论文、代码、项目),并倾向于在GitHub或顶会论文中直接寻找人才,呈现“英雄不问出处”的趋势[16][21] - 这一波AI浪潮的核心推动者大多是30岁以下的年轻人,例如CLIP的作者Alec Radford、旋转位置编码提出者苏剑林、MoE的Albert Jiang等在做出重要成果时均未满30岁[23] AI行业的生产关系与组织形态演变 - AI顶尖人才与大型商业组织的关系,近期类似文艺复兴时期的工作室与金主的关系,研究员的目标是做出自己的作品[14] - 行业正从公司“体内”建立组织,转向出现更多“体外”组织,这些组织在大模型产业链中专注于特定环节(如代工Agent RL训练),未来可能出现完全独立的模型公司[15] - 全球AI领域的PhD和教授大部分是华人,人才供给越来越多,他们将自己视为“演艺圈”人士,目标是用顶会论文建立个人门槛[16] - 大模型公司和团队的核心工作常由实习生完成,在厂工作几年的经验已无优势,技术迭代迅速(如从GAN/VAE到扩散模型)[17] AI基础设施与平台的战略价值 - ModelScope(魔搭社区)和Hugging Face类似AI时代的GitHub,其战略意义在于汇聚模型、数据集和应用,形成Hub,通过积累“学习信号”反向指导公司行为,战略价值远大于直接收入[12] - 魔搭社区的成长证明了华人AI从业者和开发者的数量在快速增长[11] AI技术发展对人才需求与招聘的影响 - 行业进入“收敛状态”,公司可能减少开源投入,更关注提升模型表现和Agent的工具调用能力,并招募更多有后训练和强化学习经验的人才[13] - 新的细分行业正在诞生,例如对强化学习环境、第三方数据提供商或强化学习提供商的需求增加[14] - 国内外招聘差异明显:国外企业按具体论文精准搜索作者;国内企业偏好按范围(如特定会议、热门项目)并附加年龄(如95后、00后)和名校标签进行筛选[42] - 未来招聘将更快、更零散,忠诚度和长期雇佣关系减弱,可能出现“智力劳动的外卖化”,匹配指标将收敛于代码工具token消耗量、AI交互频率等具体数据[46] AI时代对个人职业发展的启示 - 在AI能直接写代码的时代,传统靠读书、学历带来的安全感正在消失,核心价值转向创造力、沟通与协作能力[44][47] - “Build in Public”(公开构建)模式上限高,但下限低,适合极少数高能动性者;对大多数人而言,走升学、进名校的稳健路线仍是主流选择[43][44] - 保持身心健康、情绪稳定,享受与AI共同创造的过程变得尤为重要,因为人的核心价值将更回归于人本来的价值[47]
无预训练模型拿下ARC-AGI榜三!Mamba作者用压缩原理挑战Scaling Law
量子位· 2025-12-15 18:33
文章核心观点 - 研究提出了一种名为“最小描述长度”的新智能配方,挑战了智能必须源于大规模预训练和数据的假设[1][48] - 该方法通过一个仅76K参数、未经预训练的模型,在推理阶段最小化目标谜题的描述长度,成功在ARC-AGI-1基准上解决了20%的问题[3][7] - 这项研究被视为一条通往通用人工智能的可能的、互补的替代路径[48] 研究方法与原理 - 核心思想源自最小描述长度理论,旨在为特定谜题寻找能用最少比特信息表述的最短计算机程序,该程序即揭示了谜题的本质规律和解法[7][8][10] - 该方法不依赖训练集或预训练,仅使用谜题本身(两个示例输入/输出对和测试输入)进行推理[12] - 通过设计一个固定的“程序模板”,并将寻找最短程序的问题转化为寻找最短的种子和神经网络权重的问题[25][29] - 借鉴变分自编码器原理,将程序长度最小化转化为可微分的优化问题,使用KL散度和交叉熵损失来近似种子的预期长度,从而可用梯度下降求解[30][33][34] 模型架构与设计 - 模型参数极少,仅有76K参数[3][43] - 架构内置了强大的归纳偏置,包括对旋转、翻转、颜色置换等常见变换的等变性处理[38][39] - 使用“多张量”数据结构来存储不同粒度的信息,以支持更有效的抽象推理[40][41] - 核心骨干是类Transformer结构,但核心操作是一系列针对谜题规则高度定制的、无参数的自定义操作,而非传统注意力机制[42][44][46] 性能表现与对比 - 在ARC-AGI-1基准的公开评估集上,准确率达到20%,在训练集上达到34.75%[3][7][48] - 是目前唯一一个只在单个样本上运行的深度学习方法[4] - 相比其他方法:未使用训练集的暴力规则搜索准确率为40%,使用测试谜题训练的HRM变体为31%,使用训练和测试谜题训练的HRM为40.3%,基于互联网数据预训练的OpenAI o3模型则达到87.5%[4][19][20][21] - 该研究获得了ARC Prize 2025的第三名,且仅使用一张GPU完成[5] 实验与意义 - 为评估每个谜题提供2000个推理时训练步骤,每个谜题约花费20分钟[47] - 研究作为一个概念证明,展示了现代深度学习框架与最小描述长度理论结合的可能性[48] - 所针对的ARC-AGI-1基准由François Chollet提出,旨在评估AI处理新颖问题、习得技能的能力,是衡量通用人工智能能力的核心标尺之一[51][52]
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖
量子位· 2025-10-29 10:39
技术突破与核心优势 - 提出名为EPG的新训练框架,通过自监督预训练与端到端微调相结合的方式,彻底消除了生成模型对变分自编码器的依赖[1] - 在ImageNet-256数据集上仅需75次模型前向计算即可达到2.04的FID分数,在ImageNet-512数据集上达到2.35的FID,生成质量优于主流模型[3] - 首次在不依赖VAE及预训练扩散模型权重的前提下,成功在像素空间中端到端训练一致性模型,在ImageNet-256上单步生成即可取得8.82的FID[5] 传统VAE范式的局限性 - VAE训练过程复杂,需要在图像压缩率与重建质量之间取得精妙平衡,极具挑战性[6] - 当需要在新的领域微调生成模型时,若预训练的VAE表现不佳,必须连同生成模型一起微调,这会显著增加训练成本和开发周期[6] 训练效率与成本 - EPG框架总训练开销显著低于主流模型DiT,预训练/VAE训练时间为57小时,而DiT为160小时;微调时间为139小时,而DiT预估为506小时[7] - 训练方法借鉴计算机视觉的经典范式,将复杂生成任务解耦为两个更易处理的阶段:自监督预训练和端到端微调,极大简化了训练流程[7][14] 两阶段训练方法详解 - 第一阶段自监督预训练专注于解耦表征学习与像素重建,模型仅训练编码器部分,通过对比损失和表征一致性损失从带噪图像中提取高质量视觉特征[8][9] - 第二阶段端到端微调将预训练好的编码器与随机初始化的解码器拼接,直接使用扩散模型或一致性模型的损失函数进行微调,无缝衔接下游生成任务[13] 性能基准对比 - 在ImageNet-256任务上,EPG/16模型的FID为2.04,优于隐空间模型如DiT-XL/2的2.27和SiT-XL/2的2.06,也优于其他像素空间模型[16] - 在ImageNet-512任务上,EPG/32模型在800个周期后FID达到2.35,优于对比的隐空间和像素空间模型[16] - 在一致性模型训练上,EPG在像素空间单步生成FID为8.82,显著优于隐空间模型如Shortcut-XL/2的7.80[17] 推理性能与可扩展性 - 基于EPG训练的扩散模型在推理时仅需75次模型前向计算即可达到最优效果,步数远低于其他方法[18] - 模型在256x256和512x512分辨率图像上均能保持一致的生成速度,展现了优异的可扩展性[18]