Physics of Language Models

搜索文档
Z Tech|独家解读Meta朱泽园开源新基线,用10%算力跑赢Llama3-8B,科学方法引领新范式,语言模型物理学迈入新时代
Z Potentials· 2025-08-02 10:19
01 物理学式的 AI 科学革命 即便是最顶尖的大模型,依然会在简单推理和常识问题上犯错。这是算法极限,还是训练范式出了问题? 我们能否像物理学家一样,用客观、可控的实验 揭示"AGI"本质? 《Physics of Language Models( 语言模型 物理学)》 ,正是将AI研究带入"物理学范式"的项目,由Meta FAIR研究院的朱泽园概念化发起 ,并统筹设 计。朱泽园是LoRA技术合作者、Katyusha优化算法发明者、清华本科,麻省理工博士、Google Codejam全球编程大赛第二名、IOI两届国际金牌,论文引 用超三万。他从优化理论深耕多年,现专注于AI基础理论和智能本质的科学探索。 02 用物理学方法追寻智能的普适规律 将"智能"拆解为 原子化 、可控的任务维度(推理、知识、结构理解等) ,为每个维度设计合成实验,最大限度减少"现实世界数据"的噪音; 用可控实验,揭示不同模型架构的极限与短板 ,不仅看"刷分",更追溯"为何如此""如何突破"; 坚持客观、可验证的科学精神和学术思想传承 ,推动AI从工程走向基础科学。 本次开源, 是Physics of Language Models自诞 ...
挖人上瘾的Meta又被员工吐嘈:不帮忙宣传项目,开源只会越来越糟
机器之心· 2025-08-01 09:30
Meta AI战略与资源投入 - 公司CEO马克・扎克伯格公开信提出「AI系统自我改进」概念并强调「谨慎选择开源内容」[1] - 为追赶AI顶级研究阵地,公司投入逾140亿美元重注Scale AI并组建Meta Superintelligence Labs (MSL),以百万至上亿美元签约金吸引OpenAI、DeepMind等团队人才[2] 内部管理问题与组织文化 - 研究科学家朱泽园披露内部审批流程低效:申请官方账号转发研究项目耗时近一年,且触达量不足个人推文10%[5] - 前员工Tijmen Blankevoort公开批评内部文化失调现象,朱泽园证实该批评「基本属实」并暗示存在更严重未披露问题[9] - 内部资源分配矛盾突出:Physics of Language Models项目未获公司层面支持,研究者需自行争取GPU资源[18][20] 开源策略争议与研究成果 - 朱泽园发布Physics of Language Models第一阶段代码,包含42k GPU小时预训练的8B基础模型全量数据与权重,仅用10%训练资源即超越Llama3-8B[11] - 开源效果引发质疑:项目关注度低迷使研究者反思「完全开源的必要性」,行业意见两极分化(Hugging Face CEO支持开源 vs 部分从业者认为特定场景下开源效率低)[12][14][16] - 公司开源政策存在矛盾:虽公开宣称减少开源,但同期批准Physics of Language Models、MetaCLIP2、VGGT等项目以Apache 2.0协议发布[21] 研究推广机制缺陷 - FAIR研究团队缺乏统一成果推广体系,依赖研究者个人社交账号宣传且未提供X Premium+等推广支持[18] - 法务流程严重拖累研究效率:公共数据集使用批准耗时超两月,模型权重发布需与法务部门反复沟通,协议审批耗时超一周[20] 行业人才动态 - AI从业者普遍存在职业焦虑,朱泽园建议主动把握跳槽时机,并透露自身离职意向(暂因项目优先级延迟)[8] - 公司外部对Meta边缘化研究项目的兴趣高于内部,暗示人才流失风险[6][8]