RoBERTa
搜索文档
被拒≠失败!这些高影响力论文都被顶会拒收过
具身智能之心· 2025-12-12 09:22
Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客,阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上分享了该博客,并重点介绍了Waymo使用的蒸馏方法,该方法与创建Gemini Flash模型的思路类似,旨在基于更大模型创建可机载运行的高计算效率模型[1] 同行评审制度的历史局限性 - 回顾AI发展史,许多支撑起万亿级产业的基石技术在最初问世时,都曾被顶级学术会议拒之门外[6] - 同行评审制度虽为质量守门人,但在面对过于超前或离经叛道的研究时,存在系统性认知滞后,包括简单性陷阱、范式惯性和对理论严谨性的过度要求[41] - 科学发展的非线性表明,同行评审善于识别错误,但往往拙于鉴别天才,真正决定研究生命力的是其解决问题的能力与时间检验[43] 曾被拒稿的里程碑式技术与论文 LSTM (长短期记忆网络) - 论文《Long Short-Term Memory》于1996年被NIPS会议拒稿[7][8] - 在当时神经网络寒冬的背景下,其门控机制被认为参数过多、过于复杂且缺乏生物学合理性[9] - 该论文目前引用量已超过139,707次,并在2010年代随算力与数据爆发,于语音识别和机器翻译中展现出统治级表现[8][10] SIFT (尺度不变特征变换) - David Lowe提出的SIFT算法在1997年和1998年先后被ICCV和CVPR会议拒稿[12] - 拒稿理由是算法被认为过于繁琐、不够优雅,不符合当时学术界对严密数学推导的偏好[12] - 该算法最终以海报形式发表,统治计算机视觉领域长达15年,其论文引用量超过27,389次[13][16] Dropout - Geoffrey Hinton团队关于Dropout的论文在2012年投稿NIPS时被拒[17] - 评审认为随机“删除”神经元的方法过于激进、缺乏数理逻辑,并将作者使用的生物学隐喻视为不够科学的工程技巧[17] - 该技术后来成为AlexNet赢得ImageNet比赛的关键,论文引用量超过60,231次,并获得了NeurIPS时间检验奖[17][21] Word2Vec - Tomas Mikolov等人(包括Jeff Dean)关于Word2Vec的论文在首届ICLR会议上被“强烈拒绝”[20][22] - 评审意见尖锐,认为工作“不科学”、“定义模糊”,且过度关注工程优化而缺乏理论解释[20] - 作者通过开源代码使其迅速普及,成为NLP领域基石,论文引用量超过50,855次,并在2023年获得NeurIPS时间检验奖[20][22] 知识蒸馏 (Knowledge Distillation) - 由Geoffrey Hinton、Oriol Vinyals和Jeff Dean合著的论文在2014年被NeurIPS拒稿,理由是其“不太可能产生重大影响”[3][4][31] - 评审未能认识到“暗知识”概念的深远意义,即知识隐含在错误类别的概率分布中[25] - 该论文最终在研讨会上发表,开启了模型压缩领域,目前引用量已超过28,600次,并成为大模型落地的重要方法[4][27][31] YOLO (You Only Look Once) - 论文《You Only Look Once: Unified, Real-Time Object Detection》在2015年被ICCV会议拒稿[29][32] - 在R-CNN系列主导的时代,评审因其定位精度(mAP)不如当时最优方法而拒绝,忽视了其实现45 FPS实时检测的速度突破[29] - YOLO系列已成为工业界最受欢迎的检测框架,其论文引用量超过69,782次[30][32] RoBERTa - 论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》在投稿ICLR 2020时被拒[34] - 评审认为其新颖性和技术贡献有限,只是证明了“仔细调参”和“更多数据”的有效性[34] - 该工作成为后续NLP研究的标准基线,论文引用量超过23,479次,揭示了优化训练细节的实战价值[34] Mamba - 论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》在ICLR 2024的评审中折戟[35][38] - 评审认为与其前作相比增量不足,且未能在所有任务上全面超越Transformer[37] - 尽管被拒,该架构在社区引发巨大反响,基于Mamba的变体大量涌现,成为2024年最具影响力的架构创新之一,论文引用量已超过6,799次[38][39] 跨领域的启示与案例 - 即使是阿尔伯特·爱因斯坦关于引力波的论文也曾被《Physical Review》送审并收到尖锐的匿名评审意见,尽管该意见后来被证实指出了论文中的一个错误[44][47] - 这些案例表明,一项研究的最终价值取决于其解决问题的能力及历史回响,而非短暂的评审决定[47] - 许多具有深远影响的研究者,包括图灵奖和诺贝尔奖得主,都曾经历过论文被拒[48]
被拒≠失败!这些高影响力论文都被顶会拒收过
机器之心· 2025-12-11 10:47
Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客,详细阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上重点介绍了Waymo使用的知识蒸馏方法,该方法借鉴了创建Gemini Flash模型的经验,旨在基于更大模型创建可机载运行的高计算效率模型[1] - 知识蒸馏技术由Geoffrey Hinton、Oriol Vinyals和Jeff Dean在2014年提出,其论文虽被NeurIPS 2014以“不太可能产生重大影响”为由拒稿,但如今已成为模型压缩和大模型落地的标配方法,论文引用量超过28,000次[3][4][29] 被顶级会议拒稿但影响深远的AI技术 - **LSTM**:由Sepp Hochreiter和Jürgen Schmidhuber提出,在1996年被NIPS拒稿,拒稿理由包括参数过多、过于复杂且缺乏生物学合理性,如今引用量达139,707次,并在2010年代后于语音识别和机器翻译中展现出统治级表现[8][13] - **SIFT算法**:由David Lowe提出,在1997年和1998年先后被ICCV和CVPR拒稿,理由是被认为“过于繁琐”、“不够优雅”,最终以Poster形式发表,曾统治计算机视觉领域长达15年,如今引用量达27,389次[11][14] - **Dropout**:由Geoffrey Hinton团队提出,在2012年投稿NIPS时被拒,评审认为其核心思想过于激进且缺乏数理逻辑,但该技术迅速成为AlexNet夺冠ImageNet的关键,如今引用量达60,231次[17] - **Word2Vec**:由Tomas Mikolov等人提出,在首届ICLR会议上收到“Strong Reject”评价,评审认为其“比较不科学”、“定义模糊”,但通过开源代码迅速成为NLP领域基石,并于2023年获NeurIPS“时间检验奖”,如今引用量达50,855次[19][20] - **YOLO**:由Joseph Redmon等人提出,在2015年被ICCV拒稿,评审因其定位精度不如R-CNN系列而拒绝,但忽视了其实现45 FPS实时检测的速度优势,如今YOLO系列已迭代至v13,成为工业界最受欢迎的检测框架,引用量达69,782次[27][28][30] - **RoBERTa**:由Meta AI研究人员提出,在投稿ICLR 2020时被拒,评审认为其新颖性和技术贡献有限,只是“仔细调参”和“使用更多数据”,但该模型超越了原始BERT,成为后续NLP研究的标准基线,如今引用量达23,479次[32] - **Mamba**:由Albert Gu和Tri Dao提出,在ICLR 2024评审中折戟,评审理由包括与其前作S4相比增量不足、未全面超越Transformer等,但该架构在社区引发热烈讨论,基于其的变体大量涌现,成为2024年最具影响力的架构创新之一,如今引用量达6,799次[35][36][37] 科研评价体系的局限与反思 - 顶会评审系统在面对颠覆性创新时存在系统性认知滞后,表现为“简单性陷阱”,即倾向于将数学复杂性等同于研究贡献,从而质疑如Dropout或Word2Vec等简单有效的方法[40] - 评审作为旧范式的维护者,存在“范式惯性”,当YOLO或Deep Image Prior等新思想出现时,旧范式的标准会成为阻碍新思想的壁垒[40] - 在深度学习领域,过度要求理论证明的“严谨性的暴政”可能会扼杀具有巨大实用价值的工程突破,例如Adam优化器初期面临的收敛性质疑[40] - 同行评审虽然是科学共同体的基石,但难以摆脱人类认知的局限性,它善于识别错误,却往往拙于鉴别天才,真正决定研究生命力的是其是否解决问题以及在时间长河中的回响[41][45]
扩散不死,BERT永生,Karpathy凌晨反思:自回归时代该终结了?
36氪· 2025-11-05 12:44
文章核心观点 - 基于RoBERTa的掩码语言模型可通过引入动态掩码率改造为文本扩散模型,实现从表示学习到文本生成的转变 [1][13][26] - 实验证明改造后的RoBERTa Diffusion能生成视觉连贯的文本,表明BERT系模型本质上是固定掩码率训练的文本扩散模型 [21][24][26] - 文本扩散模型采用在整个Token画布上迭代重采样的双向注意力机制,与自回归模型的单向生成机制形成对比 [27][28] 技术原理与实验 - 文本扩散通过在前向过程逐步添加<MASK>噪声,在反向过程训练模型迭代去噪,将掩码语言建模目标扩展为生成过程 [11][13] - 实验使用10个扩散步骤,每个训练批次随机采样从1.0到0.1的掩码比例,推理时从240个<MASK>开始逐步减少掩码比例 [17][18] - 在H200显卡上训练30分钟后,模型基于256长度提示词生成了连贯文本,尽管存在数据集格式化导致的异常 [21][22] 行业影响与前景 - 该方法表明生成领域仍存在优化创新空间,结合AR-Diffusion等技术可进一步提升生成质量与推理速度 [25][28] - 谷歌DeepMind已发布实验性Gemini Diffusion模型,业界认为扩散语言模型在速度上有优势且是下一代AI发展方向 [30] - 扩散模型采用双向注意力机制迭代更新整个Token画布,与自回归模型的单向追加机制形成技术路径差异 [28]
陈丹琦,入职Thinking Machines Lab了?
机器之心· 2025-08-28 08:55
陈丹琦职业动向推测 - 陈丹琦GitHub主页邮箱已更新为thinkingmachines.ai后缀 [2] - Thinking Machines Lab内部邮箱命名规则为firstname.lastname@thinkingmachines.ai 与陈丹琦邮箱格式一致 [4] - 该公司首席科学家John Schulman邮箱同样采用thinkingmachines.ai后缀 [5] Thinking Machines Lab背景 - 由前OpenAI CTO Mira Murati于2025年2月创立 [1] - 团队成员包含多位前OpenAI员工 当前规模约数十人 [1] - 公司专注于前沿多模态AI模型与技术研发 [1] 陈丹琦学术成就 - 现任普林斯顿大学计算机科学系副教授 领导NLP研究小组 [16] - 论文总引用量达75,149次 其中RoBERTa论文引用36,574次 [17] - 曾获ACL 2022杰出论文奖、2016 ACL杰出论文奖等学术荣誉 [19] - 2019年博士论文成为斯坦福大学近十年最热门毕业论文之一 [18] 行业合作模式推测 - 可能存在类似何恺明兼职谷歌DeepMind的学术与产业界双重任职模式 [10] - 目前个人主页未更新职业变动信息 仍需进一步确认 [11]