Workflow
next-token prediction
icon
搜索文档
突破单token预测局限!南洋理工首次将多token预测引入微调,编程任务准确率提升11.67%
量子位· 2025-07-24 15:28
CAFT团队 投稿 量子位 | 公众号 QbitAI 告别Next-token,现在模型微调阶段就能直接多token预测! 从GPT到Claude,当前主流LLM都依赖 next-token prediction (下一token预测) 进行训练,但它却让AI很难真正理解跨越多token的完 整概念。 于是南洋理工大学最近提出了一项新技术—— 概念感知微调 (CAFT) ,首次实现将 multi-token prediction (多token预测) 引入微调 阶段,让模型能够像人类一样理解和学习完整概念。 原来LLM只能碎片化理解每个token,现在CAFT可以为模型添加额外的 辅助头 ,在主模型学习下一个词的同时,帮助学习后续token,并通 过 动态调整权重 ,确保模型始终优先优化主要任务的损失。 最终LLM可以兼顾多token概念学习,形成更为完整的认知,在推理和生成能力增强的同时,既不会影响模型本身,也不会额外增加多余成 本。 Next-token将会在预训练里的大规模语料上学习语言统计规律与通识知识,然后在微调中通过特定任务数据学习具体行为模式,决定模型实 际表现。 但无论是预训练还是微调,nex ...
前 OpenAI 研究员 Kevin Lu:别折腾 RL 了,互联网才是让大模型进步的关键
Founder Park· 2025-07-11 20:07
核心观点 - 互联网是推动人工智能进步的核心技术,而非Transformer等模型架构,互联网提供了海量、多样化的数据,是next-token预测的完美补充 [1][5][55] - 自GPT-4以来,基础模型能力未显著提升,优化模型结构或手工制作数据集难以带来质的飞跃,研究者应转向互联网数据研究而非RL [1][13][16] - 互联网具备四大关键特性:数据多样性、自然学习路径、产品市场契合度、经济可行性,这些特性使其成为AI训练的终极数据源 [54][60] Transformers的局限性 - Transformer架构并非AI进步的关键,自GPT-4后更好的架构(如SSMs、Mamba)未带来显著性能提升,因当前范式已转向数据受限时代 [11][13][14] - 若无互联网,仅依赖书籍或教科书训练模型会导致知识面狭窄,如phi模型虽在小规模任务表现优异,但世界知识储备和创造性不足 [28][30][31] - 数据质量与数量之争:教科书代表高质量但窄领域数据,互联网则提供行星级规模的自然数据分布,后者更利于模型泛化能力 [23][24][28] 互联网作为AI训练基石的四大优势 数据多样性 - 互联网包含多语言、多文化、多视角数据,去中心化结构保障了数据多样性,删除特定数据会导致模型认知版图缺失 [36][43][52] - 对齐研究显示,预训练需同时接触对齐与非对齐数据(如4chan有毒数据),模型才能理解边界,纯净化数据反而损害性能 [37][38][39] 自然学习路径 - 互联网数据天然形成难度梯度(如从Khan Academy到arXiv),为模型提供渐进式学习课程,避免手动设计数据集的低效 [43][44][47] - RL依赖密集课程学习,互联网用户贡献行为(如点赞、创作)自发形成类似AlphaZero自我博弈的进化压力 [44][46][47] 产品与研究的协同 - 互联网用户真实需求驱动数据生产,与研究者手动策划数据集存在本质差异,决定模型能力的应是用户而非研究者 [48][51][52] - AGI应记录人类完整文化演变(如Wikipedia、GitHub、社交媒体),而非理想化片段,模型偏差反映的是真实人类认知偏差 [52][53] 经济可行性 - 互联网低成本特性使其规模化成为可能,高昂订阅费会抑制用户数据贡献,经济可行性是数据扩展的前提条件 [51][54][60] RL与next-token预测的对偶性 - next-token预测与互联网存在隐喻性对偶关系(如序列数据对应HTML文件,推理成本对应经济可行性),RL尚未找到类似对偶 [55][57] - RL当前数据源(人类偏好、可验证奖励)存在噪声大、领域窄等问题,需探索如机器人学、推荐系统等新场景,但均面临规模化挑战 [61][62][63] - 用RL优化困惑度是方向性错误,应寻找全新数据源而非改造旧目标,RL流形(对偶系统)的发现将是重大突破 [58][65][67]