Workflow
谱性质
icon
搜索文档
比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快
机器之心· 2025-07-15 08:59
POET:基于第一性原理的大型语言模型全新训练范式 Zeju Qiu和Tim Z. Xiao是德国马普所博士生,Simon Buchholz和Maximilian Dax担任德国马普所博士后研究员,Bernhard Schölkopf是德国马普所所 长,Weiyang Liu是香港中文大学计算机系助理教授。 随着大型语言模型( LLM)推动人工智能领域取得突破性进展,如何实现高效、稳定的超大规模模型训练,始终是该领域最富挑战性的核心议题之一。 针 对 这 一 关 键 问 题 , 研 究 者 们 提 出 了 一 种 基 于 第 一 性 原 理 的 全 新 方 法 —— POET ( Reparameterized Training via Orthogonal Equivalence Transformation),该方法通过重参数化优化策略,旨在从第一性原理出发提升训练效率与稳定性。 Paper: Reparameterized LLM Training via Orthogonal Equivalence Transformation Project page: https://spherelab.ai/p ...