Glyph
搜索文档
「我受够了Transformer」:其作者Llion Jones称AI领域已僵化,正错失下一个突破
36氪· 2025-10-27 07:24
文章核心观点 - Transformer架构的联合创造者Llion Jones对当前AI领域过度集中于单一架构表示厌倦,并指出巨大的投资和竞争压力导致研究狭隘化,抑制了根本性创新 [1][2] - AI行业面临资源投入与创造力下降的悖论,研究者因害怕被“抢先”而选择低风险项目,整个领域陷入过度“利用”现有技术而非“探索”新可能的局部最优状态 [8][11] - 解决方案是调高“探索”的比重,创造允许自由研究的宽松环境,这种环境在吸引顶尖人才方面可能比高薪更具竞争力,并可能催生下一个类似Transformer的突破 [13][14][15] AI行业现状与问题 - AI领域获得了前所未有的关注、资源、资金和人才,但这反而导致了研究视野变得狭隘 [2] - 研究者普遍面临巨大压力,需要假设有三到四个其他团队在做完全相同的研究,导致仓促发表论文,降低了科学创造力 [11] - 行业当前的状态是过度“利用”现有Transformer架构,而“探索”不足,这可能导致错失更优越的替代方案 [11] Transformer的成功与局限 - 论文《Attention is all you need》自2017年发表以来,已获得超过20万次引用,是本世纪最具影响力的计算机科学论文之一 [4][5] - Transformer架构的成功和强大,本身可能阻碍了人们去寻找更好的替代技术,因为如果当前技术更差,会有更多人积极寻找替代品 [16] - 尽管在现有Transformer技术上仍有重要工作可做,但行业拥有的人才和资源完全有能力进行更多探索性研究 [18] 创新环境与解决方案 - Transformer的诞生源于“非常有机的、自下而上”的环境,源于午餐交谈或白板涂鸦,研究者当时拥有自由时间且没有来自管理层的发表压力 [12] - Sakana AI试图重现这种环境,进行受自然启发的研究,并将追逐论文发表或直接竞争的压力降至最低,其理念是“只做那些如果你不做就不会出现的研究” [14] - 为研究者提供探索自由是吸引顶尖人才的一种非常有效的方式,其吸引力可能胜过百万美元年薪 [15] 未来展望与风险提示 - 有证据表明,单纯构建更大的Transformer模型可能正接近收益递减的瓶颈,持续进步可能需要架构创新而不仅仅是规模扩大 [19] - 下一个Transformer规模的突破可能近在咫尺,但正因成千上万的研究人员竞相对现有架构进行增量改进,而可能被忽视 [20]
「我受够了Transformer」:其作者Llion Jones称AI领域已僵化,正错失下一个突破
机器之心· 2025-10-25 11:20
文章核心观点 - Transformer架构的创造者之一Llion Jones表示已厌倦该架构,并指出AI行业因过度投资和竞争压力而僵化于单一架构,导致创造力下降和探索不足,可能错失下一个重大突破 [2][3][23][29][31] AI行业现状与挑战 - AI领域面临悖论:资源投入前所未有,但创造力却在下降,研究者因害怕被竞争对手抢先而选择安全、易于发表的项目,而非高风险变革性项目 [11][16] - 行业竞争导致研究同质化,例如有四篇不同论文几乎同时提出与表征自编码器类似的思想,以及两家公司在OCR token化方法上撞车 [12] - 当前AI研发模式过度“利用”现有Transformer架构,而“探索”不足,导致陷入局部最优解,可能错过更优越的替代方案 [16][29] Transformer的成功与局限 - 论文《Attention is all you need》发表于2017年,已获得超过20万次引用,是本世纪最具影响力的计算机科学论文之一 [7] - Transformer自身的成功和强大灵活性,反而可能阻碍人们去寻找更好的替代技术 [24] - 简单地构建更大的Transformer模型可能正接近收益递减的瓶颈,持续进步可能需要架构创新而不仅仅是规模扩大 [29] 创新环境与解决方案 - Transformer的诞生源于自由、自下而上的研究环境,如午餐交谈和白板涂鸦,没有来自管理层的项目或论文发表压力 [19] - 倡导调高“探索旋钮”,公开分享研究成果,即使会带来竞争代价,以合作而非竞争的方式共同推动技术进步 [21][26] - 在研究机构中提供探索自由比高薪更能吸引顶尖人才,例如Sakana AI给予研究员一周时间自由探索,最终成果被NeurIPS接收为Spotlight论文 [21][22] 未来展望与风险 - 下一个Transformer规模的突破可能正由拥有探索自由的研究人员追寻,但可能因当前行业追逐增量改进而被忽视 [31] - 每年数百亿美元流入AI研发,但激烈的竞争和保密倾向使得探索性研究环境渐行渐远,可能需要颠覆现有的激励机制以找到根本性创新 [29]
智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了
量子位· 2025-10-22 23:27
行业技术动态 - 智谱AI在DeepSeek发布DeepSeek-OCR后不到一天即开源了自家的视觉Token方案Glyph,显示出行业在视觉压缩技术领域的激烈竞争[1][2] - 视觉Token技术正成为AI领域的新趋势,截至10月22日,抱抱脸上最受欢迎的前四个模型全部支持OCR功能[70] 长上下文处理的技术挑战 - 随着大语言模型能力提升,用户和厂商对长上下文的需求日益迫切,但扩充上下文会导致算力消耗呈指数级增长,例如从50K扩展到100K,算力消耗约为原来的四倍[8][9] - 单纯增加Token数量并不能保证模型表现线性提升,输入过长可能导致模型受到噪声干扰和信息过载[12][13][14] - 当前主流解决方案包括扩展位置编码、改造注意力机制和检索增强RAG,但各自存在推理成本高、效率提升有限或响应速度慢等局限性[15][18][21][23] Glyph技术方案的核心创新 - Glyph采用将文本渲染成图像的新范式,利用图像更高的信息密度实现Token压缩,仅需一个视觉Token就能容纳原先需要好几个文本Token的内容[25][26][30] - 该方案使固定上下文的视觉语言模型能够处理超长文本,例如将240K文本Token的《简·爱》压缩至约80K视觉Token,让128K上下文的模型可以处理完整内容[32][34][36] - 训练流程分为持续预训练、LLM驱动的渲染搜索和后训练三个阶段,通过遗传算法优化渲染参数,并在SFT和RL阶段加入辅助OCR对齐任务[37][39][43][44] 技术性能表现 - Glyph在多项长上下文基准测试中实现了3-4倍的Token压缩率,同时保持与主流模型相当的准确度[49] - 该技术带来约4倍的prefill与解码速度提升,以及约2倍的SFT训练加速,显著减轻算力负担[51] - 在极端压缩情况下,128K上下文的视觉语言模型能够应对相当于百万Token级的文本任务[60] 视觉Token的行业影响 - 视觉Token技术大幅提升处理效率,DeepSeek-OCR仅用100个视觉Token就能在原本需要800个文本Token的文档上取得97.3%的准确率[72] - 效率提升显著降低AI应用门槛,单张NVIDIA A100-40G GPU每天可处理超过20万页文档,仅需一百多张卡即可完成一次完整的模型预训练[74][75] - 视觉Token可能从底层重塑大语言模型的信息处理方式,未来像素可能取代文本成为下一代AI的基本信息单元[76][77]