Transformer

搜索文档
谢赛宁回忆七年前OpenAI面试:白板编程、五小时会议,面完天都黑了
机器之心· 2025-08-29 17:53
AI大厂面试特点分析 - Meta研究者Lucas Beyer发起关于AI大厂面试体验的投票 选项包括Google/Meta/MS、OpenAI/Anthropic、xAI和Old DeepMind [1] - 投票结果显示Old DeepMind以32.1%的得票率被评为最佳面试体验 [20] 顶尖研究人员职业轨迹 - Lucas Beyer拥有超过94,000次学术引用 h-index达40 2020年以来引用量达93,147次 [2][4] - 2024年6月与Alexander Kolesnikov和Xiaohua Zhai三位研究者共同从OpenAI转入Meta [2] 各公司面试模式比较 - Old DeepMind采用两小时高强度面试 包含100多个数学统计和机器学习问题 [6] - Meta FAIR面试侧重学术讨论和编码 曾由Piotr Dollar、Ross Girshick和何恺明担任面试官 [6] - Google面试采用"教职面试"模式 包含编程题和研究讨论 知名AI学者Noam Shazeer曾参与面试 [7] - OpenAI面试采用5小时白板编程和研究报告形式 由联合创始人John Schulman亲自设计强化学习问题 [7] 面试过程典型案例 - 谢赛宁在OpenAI面试时讨论强化学习中的方差崩溃问题 尽管当时对该领域了解有限但仍需现场研究解决 [7] - Omar Shams回忆DeepMind面试涵盖代码数学统计和机器学习 面试官Jacob Menick给予满分评价 [12] - Rishabh Agarwal被Christian Szegedy面试时 需解决概率分布相关的飞镖游戏问题 并在餐巾纸上完成数学计算 [18] - Felipe Mello在谷歌面试中被要求编写单元测试并分享最难解决的bug [14] - Ashwinee Panda在xAI联合创始人张国栋的面试中获得研究灵感 最终扩展为正式研究成果 [16] 行业人才流动趋势 - 知名研究人员频繁在顶级AI机构间流动 包括OpenAI、DeepMind、谷歌大脑和Meta等 [2][6] - 行业顶尖人才如Ross Girshick(超过60万引用)和何恺明已从企业转向学术或创业领域 [6]
新一轮智驾PK,迈入实战时刻
虎嗅· 2025-08-27 18:38
新一轮智驾技术竞赛背景 - 中国头部智驾公司近期集中落地最新智驾能力 包括理想汽车推送VLA司机大模型 Momenta与智己合作R6飞轮大模型 元戎启行发布VLA大模型 小鹏发布全新VLA大模型 华为计划9月推送ADS 4系统 [2][5] - 行业动作集中源于四大驱动力:监管加强推迟部分公司节奏 AI底层创新突破时间相近 技术适配需要固定训练周期 公司担心竞品抢先选择先发布基础版再优化策略 [3][6] VLA模型技术突破 - VLA模型相比传统端到端模型取消感知/定位/预测/规划等独立环节 实现从传感器到控制端的单一完整模型架构 [7] - 模型底层技术从CNN升级为Transformer 显著提升对人类大脑模仿学习能力 [8] - VLA模型具备思维链(CoT)能力 通过语言媒介模仿人类驾驶思考 将决策分解为连贯推理步骤 [9] - 相比VLM模型 VLA在输入输出和应用层面更贴合智驾需求 输入包含图像/文本/历史状态 输出为可执行动作 应用领域涵盖机器人控制和自动驾驶 [9] VLA模型核心优势 - 增强决策逻辑性:面对校车/儿童等复杂路况时能分步推理 显著提升可靠性及安全性 [11] - 提升系统可解释性:以人类可理解语言展现决策依据 助力研发调试与事故追溯 [11] - 强化泛化能力:通过海量数据学习推理逻辑 实现应对未知新场景的能力 [11] - 实际测试显示防御性驾驶能力突出 在立交桥辅道主动降速至安全范围 在视线遮挡路口预判电瓶车风险主动降速 在丁字路口提前分析并缓速汇流 [12][14][15][16] 技术应用体验升级 - 驾驶体验实现综合性飞跃 包括更顺滑控车/更果断反应/全程安全感提升 极端场景仍需人工接管但信任感显著增强 [17] - 支持语音指令交互 可响应"加速/减速"等基础操作 并能直接读取交通标识文字执行优化驾驶 [17] 行业发展趋势 - VLA模型当前尚未完全实现思维链能力 自评仅达6分(满分10分) 需持续收集测试数据并优化后训练 [18][19] - 成本差异主要集中于芯片 15万元以上车型可适配 10万元级别车型经优化也有搭载可能 [20] - 智驾芯片将加强Transformer支持 重点优化FP4/FP6精度算力 [21] - 车企自研辅助驾驶系统需经历规则算法/端到端1.0/VLA的完整技术演进过程 无法完全跳过特定阶段 [21]
DiT突遭怒喷,谢赛宁淡定回应
量子位· 2025-08-20 15:48
文章核心观点 - DiT(Diffusion Transformers)作为扩散模型领域的核心架构受到质疑,但原作者谢赛宁强调科学验证的重要性并回应质疑,同时指出DiT的技术优势及改进方向 [4][5][6][9][27][29][32] DiT的技术地位与影响 - DiT将Transformer与扩散模型融合,在计算效率和生成效果上超越基于U-Net的经典模型ADM和LDM,并将Transformer扩展到图像视频领域 [9] - 若DiT存在根本性错误,大量依赖DiT的生成模型可能需重新评估,对整个领域产生重大影响 [10] 质疑者的核心论点 - 质疑依据来源于论文《TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training》,提出Tread策略可将早期层token传递至更深层,无需修改架构或引入额外参数 [12][13][14] - DiT架构可能隐含特性导致FID迅速降低,Tread模型比DiT在40万次训练迭代快14倍,在700万次迭代时快37倍 [15][16] - 质疑者认为大幅性能提升可能否定原有方法,并批评训练中禁用部分网络的做法 [17][19] - 指出DiT后置层归一化可能导致动态范围输出问题,需使用对数尺度处理信噪比差异 [23] - 质疑DiT的条件处理仅通过普通MLP流程,未体现Transformer特性 [25][26] 谢赛宁的回应与技术说明 - 强调Tread策略与"DiT是错的"无直接关联,认为Tread类似随机深度,通过正则化提升特征稳健性 [27][28] - 推荐使用经过验证的Lightning DiT版本(含swiglu、rmsnorm、rope等技术),并指出后置层归一化目前无证据表明存在问题 [29][30] - 提出DiT的核心改进集中于内部表征学习,包括REPA方法、tokenizer修正、语义token拼接、解耦架构及正则化方法 [32] - 训练中采用随机插值/流分配提升效果,SiT作为基准评估方法,时间嵌入需使用adaln-zero并共享参数以避免浪费30%参数 [33] - 指出sd-vae是DiT当前症结,处理256×256分辨率图像需445.87 GFlops且非端到端架构,va-vae和repa-e仅能部分解决问题 [34]
DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
机器之心· 2025-08-20 12:26
文章核心观点 - 一篇X平台帖子质疑DiT架构存在根本性缺陷 认为其训练效率低且存在隐性设计问题 而TREAD训练策略的提出暴露了这些问题 [1][4][8] - DiT作者谢赛宁回应质疑 承认架构存在改进空间但强调需通过科学实验验证 而非纯理论推测 同时指出DiT当前真正问题是sd-vae模块的低效性 [29][33][36] - TREAD方法通过令牌路由机制显著提升训练效率 在DiT骨干网络上实现14/37倍训练加速 并达到更低FID分数(生成质量更高) [2][6] DiT架构争议点 - 帖子指出DiT使用后层归一化(Post-LayerNorm)处理数值剧烈变化的扩散任务 可能导致不稳定 [11][13] - 批评adaLN-zero机制用简单MLP替代Transformer处理条件数据 限制注意力操作表达力 [12][16] - 引用早期研究认为LayerNorm的偏置参数可能虚假改善性能而非真正优化梯度 [17] TREAD技术优势 - 采用令牌路由机制 训练时使用部分令牌集减少计算成本 推理时恢复完整设置 [6] - 在A100 GPU训练100-10000小时范围内 FID分数显著降低(质量提升)[2][3] - 方法架构无关 可与MaskDiT等技术兼容但更高效 [6] 谢赛宁的技术回应 - 强调TREAD实际更接近随机深度(Stochastic Depth)的正则化效应 而非架构缺陷证明 [36] - 推荐Lightning DiT作为升级版(含swiglu/rmsnorm/rope等技术)[36] - 指出sd-vae模块是真正硬伤:处理256×256图像需445.87 GFlops 低效且非端到端 [36] DiT行业地位 - DiT为扩散模型与Transformer结合的首个工作 替代U-Net成为图像/视频生成主流架构 [20][22][23] - 已成为Sora和Stable Diffusion 3的基础架构 具备学术与工业应用双重价值 [25]
端到端VLA的起点:聊聊大语言模型和CLIP~
自动驾驶之心· 2025-08-19 15:20
大语言模型技术发展 - 大语言模型近五年发展迅速,Transformer架构是核心技术基础 [3][5][7] - Transformer核心模块包括注意力机制和多头注意力,通过8个head增强编解码能力 [11][12] - 位置编码采用正弦/余弦函数实现顺序表征,公式为PE(pos,2i)=sin(pos/10000^(2i/d_model)) [9][13] - BPE分词算法通过合并高频字符逐步构建词表,流程包括统计频次、迭代合并等步骤 [8][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的典型代表,实现跨模态特征匹配 [18] - 多模态技术栈涵盖BEV感知、扩散模型、强化学习等方向 [48] - VLA(Vision-Language-Action)成为自动驾驶前沿方向,整合VLM、BEV和强化学习技术 [50] 端到端自动驾驶课程体系 课程结构 - 第一章概述端到端发展史,对比模块化与端到端范式差异 [40] - 第二章重点讲解大语言模型、BEV感知、扩散模型等关键技术 [41][48] - 第三章分析二段式端到端方案,涵盖PLUTO、CarPlanner等经典算法 [42] - 第四章深入一段式端到端,包括UniAD、DiffusionDrive等前沿工作 [43][47] - 第五章设置RLHF微调实战,强化VLA技术迁移能力 [52] 技术亮点 - 覆盖CVPR'25最新成果CarPlanner和AAAI'25世界模型Drive-OccWorld [42][45] - 实战项目包括Diffusion Planner和ORION开源框架复现 [47][50] - 课程目标使学员达到1年经验算法工程师水平,掌握40-70K岗位核心技术 [31][57] 行业应用与人才需求 - VLA算法专家岗位薪资达40-70K-15薪,需求集中在3-5年经验硕士 [31] - 技术栈要求涵盖多模态大模型、BEV感知、模型量化部署等方向 [34][48] - 主机厂加速布局端到端量产方案,推动世界模型、扩散模型等技术落地 [26][50]
马斯克:谷歌最有可能成为AI行业领先者
36氪· 2025-08-15 09:21
马斯克对谷歌AI的评价 - 马斯克罕见称赞谷歌,认为其目前最有可能成为AI行业领导者,因谷歌拥有最大的计算和数据优势 [1] - 马斯克预测行业格局可能在几年内变化,但大型AI公司(包括其旗下xAI)将继续蓬勃发展 [1] - 谷歌在AI领域具有技术积淀,2017年发表Transformer架构论文,该技术支撑ChatGPT等大模型 [1] - 谷歌通过投资Anthropic(持股14%)和Safe Superintelligence等初创公司强化AI布局 [1] 谷歌的AI投入 - 谷歌计划将2024年资本支出提高100亿美元至850亿美元,重点投入芯片和AI产品 [2] - 资本支出增加旨在满足市场对谷歌AI产品的需求增长 [2] 马斯克与OpenAI的纠纷 - 马斯克与OpenAI CEO奥尔特曼矛盾升级,双方互相指控平台推广不公 [3] - 纠纷源于2018年马斯克因理念不合离开OpenAI董事会,2023年其起诉OpenAI违反非营利使命 [3] - 马斯克2023年成立xAI并推出Grok聊天机器人,2024年通过三轮融资筹集超120亿美元 [3] 特斯拉与xAI的关联 - 马斯克表示特斯拉将交由股东投票决定是否投资xAI,但未公布具体时间表 [4] - 马斯克称个人倾向早已推动特斯拉投资xAI [5]
又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同
搜狐财经· 2025-08-10 12:21
模型性能突破 - 2700万参数小模型HRM在ARC-AGI测试中达到40.3%准确率,超越o3-mini-high(34.5%)和Claude 3.7 8K(21.2%) [16] - 仅用1000个训练样本就实现极端数独任务近乎完美准确率,而现有思维链模型准确率为0% [16] - 在30x30迷宫任务中表现稳定,对比1.75亿参数Transformer模型准确率不足20% [18] 技术创新 - 采用仿脑设计的双层循环模块:高层模块负责慢节奏抽象规划,低层模块处理快节奏细节计算 [4][5] - 分层收敛机制避免过早收敛问题,通过高阶模块更新设定新目标 [9][11] - 近似梯度技术实现内存需求恒定且计算高效,仅需根据最终状态反推优化方向 [12] - 深度监督机制引入阶段性测试,及时纠正偏差 [13][14] - 自适应计算时间动态分配思考资源,简单任务快速响应,复杂任务延长计算 [14] 架构优势 - 克服标准Transformer的计算局限,能有效利用计算深度提升性能 [7] - 在需要大量树搜索和回溯的任务中,增加深度可提升准确率而非出现性能饱和 [7] - 对过拟合具有极强抵抗力,通过高低模块设计避免过早收敛 [18] 开发者背景 - 开发者王冠为00后清华校友,8岁开始编程,GitHub开源项目OpenChat独立开发者 [20][22] - 多次拒绝xAI等一线机构邀请,目标为颠覆Transformer架构 [22] - 2024年创办Sapient Intelligence并融资数千万美元,致力于开发全新大模型架构 [22]
自动驾驶之心技术交流群来啦!
自动驾驶之心· 2025-07-29 15:53
自动驾驶技术交流平台 - 公司是国内领先的自动驾驶技术交流平台 专注于自动驾驶产业 学术与职场成长等领域 [1] - 平台提供技术交流群 涵盖大模型 端到端 VLA BEV感知 多模态感知等前沿技术方向 [1] - 交流范围包括感知 规划控制 仿真测试 硬件配置等自动驾驶全产业链环节 [1] - 平台面向企业 高校研究人员开放 需提供公司/学校 昵称和研究方向信息加入 [1]
Grok4全网玩疯,成功通过小球编程测试,Epic创始人:这就是AGI
猿大侠· 2025-07-12 09:45
Grok-4性能展示 - 成功通过六边形小球编程测试 展示对物理规律的理解能力 小球穿墙为设计者故意行为[2][3][4] - 动态生成"Hello World""I am grok"等文字及笑脸符号的复杂动画 体现高级模式识别与生成能力[6] - 在8项综合测试中全部通过 对比产品仅通过2项 优势体现在法律推理 代码翻译 安全测试等领域[12][15][16][18][20][23] 技术突破 - 处理未见过的学术论文时展现类AGI特质 获得Epic创始人Tim Sweeney认可 马斯克附议该观点[9][10][11] - 四轮对话内完成欧拉恒等式可视化网页开发 核心功能仅需两轮交互 显著提升数学概念传达效率[25][26][27][31] - 采用专家调度器(Expert Conductor)提示工程 模拟多领域专家协作环境 52秒内完成复杂任务[55][56][59][60][65] 多模态能力测试 - SVG绘图测试中 美国地图绘制优于部分竞品 避免区块重叠等基础错误[32] - 自主设计专辑封面时保持结构合理性 显著优于抽象化输出的竞品[40] - 三羧酸循环图示准确性不及竞品 但自画像创作体现独特想象力[44][46][50][53] 开发者生态反馈 - 提示词工程师通过对比测试验证其在法律 编程 教育等场景的实用性[12][16][20] - 开源社区积极开发新应用场景 包括宝可梦游戏等潜在方向[66] - Reddit等平台形成系统性评测体系 覆盖视觉推理 知识储备等维度[32][35][40][44]
「Tokens是胡扯」,Mamba作者抛出颠覆性观点,揭露Transformer深层缺陷
机器之心· 2025-07-09 17:52
状态空间模型与Transformer的权衡 - 状态空间模型(SSM)通过固定大小的隐藏状态压缩历史信息,实现流式处理,而Transformer需要缓存所有历史token导致内存线性增长[24] - SSM在字节级建模任务中表现优于Transformer,即使后者使用更多计算资源,表明Transformer存在建模能力局限[53][55][56] - SSM与Transformer结合使用时(比例3:1到10:1)表现更优,类似人类智能通过大脑与外部数据库协同工作[29][30] Transformer的局限性 - Transformer需要数据预处理如tokenization或图像切块,本质上是对其建模缺陷的补偿[35][38][41] - 注意力机制对噪声token处理效率低下,计算量仍随token增加而增长,无法有效过滤冗余信息[69][70] - Transformer的归纳偏置使其过度关注单个token,在低语义密度数据(如字符/DNA序列)上表现较差[62][64][65] 现代循环模型技术演进 - Mamba通过动态转移矩阵、并行扫描算法和内存管理三大技术要素整合,实现与Transformer相当的语言建模性能[13][14][16] - 现代循环模型研究呈现爆发式增长,包括RWKV、xLSTM等变体,共享SISO线性递归和状态扩展核心特征[17][19] - SSM类模型在DNA建模等任务中展现优于Transformer的扩展能力,预示其在处理原生数据方面的优势[60][61] 架构设计哲学 - SSM类似大脑的压缩记忆机制可能促进抽象学习,而Transformer类似数据库的精确召回各有利弊[27][78] - 理想架构应具备处理噪声能力而不增加计算负担,当前模型均未完全解决此问题[71][72] - 扩展定律显示Transformer并非计算效率最优方案,存在改进空间以更好利用FLOP资源[87][88]