Gemma3
搜索文档
小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟
量子位· 2026-01-11 12:02
研究背景与作者 - 研究由知名开源项目OpenEvolve的作者Asankhaya Sharma及其团队进行,该作者在AI/ML领域有显著成就,包括率先关注大语言模型的“推理时计算”并发表论文,以及开源了OptiLLM、OpenEvolve、Adaptive Classifier等知名项目 [7][8] 核心发现:模型“形状”比架构更重要 - 对于约70M参数的小模型,架构的重要性远低于普遍想象,相比之下,模型的“形状”(即深度与宽度的比例)更为关键 [1] - 在70M参数模型范围内,测试了包括LLaMA3、Qwen3、Gemma3在内的12种不同现代架构,发现它们的平均性能差异不到2%,表现惊人地相似 [26] - 现代架构的改进(如RMSNorm、RoPE、GQA)是为70亿以上参数的模型设计的,在70M参数规模下无法带来可衡量的优势 [27] - 这意味着对于小模型,精心调整的“深度-宽度配比”比选择具体的架构变体更重要 [27] 层数“玄学”与隐藏维度的关键作用 - 研究发现模型层数存在“玄学”:12层、32层、64层效果良好,而16层、24层、48层效果糟糕,其中最佳层数为32层 [2][15] - 效果“好”的层级(12L、32L、64L)平均得分约38%,效果“糟”的层级(16L、24L、48L)平均得分约32%,两个层级阵营之间的平均差距超过6个百分点 [15][16] - 这一现象背后的关键因素是“隐藏维度”,模型的隐藏维度必须大于或等于512,这是一个基础门槛 [3][18] - 当隐藏维度小于512时,模型性能会显著下降,除非其深度处于特定的“补偿”位置 [20] - 32层是“黄金补偿点”,在隐藏维度为384的情况下,32层配置取得了所有测试配置中的最高平均得分38.50%,甚至略胜于标准的12层设计(隐藏维度512,得分38.15%) [16][20][23] - 64层则属于“暴力补偿”,通过极深的层数来弥补宽度(隐藏维度256)的不足,从而也取得了约38.21%的高分 [20][16] 扩散模型的竞争优势 - 在测试的架构中,扩散模型(如dLLM, Dhara)的平均准确率(约31%-32%)略低于自回归模型(约32%-33%) [28][29] - 但扩散模型在推理速度和事实准确性(幻觉率低)方面具有显著优势 [30] - 扩散模型的推理速度比传统自回归模型快3.8倍,非常适合批量任务处理 [31] - 在所有测试架构中,扩散模型在衡量真实性的TruthfulQA基准上得分最高,dLLM-Canon模型达到了49.27% [33][34] - 通过一种称为“Canon层”(一种精心设计的卷积层)的特殊结构,可以进一步提升模型的事实准确性,为普通模型提升约1%,为扩散模型提升超过2%,而参数开销仅增加0.13% [35][36] 高效模型转换方法与新模型发布 - 利用LLaDA 2.0论文中的Warmup-Stable-Decay方法,可以将现有的自回归模型高效转换为扩散模型,所需数据量、成本和训练时间仅为从头训练的十分之一 [38][39] - 这种转换方法不仅结果与从头训练相当,而且在多项基准测试上超越了后者 [39] - 基于所有研究发现,团队推出了集大成的Dhara-70M模型,该模型参数为71.34M,采用32层(黄金深度)和384隐藏维度的最佳形状配置 [41][44] - Dhara-70M的构建方法是:首先采用最佳的自回归架构,然后使用WSD方法将其转换为扩散模型,从而兼具自回归模型的知识储备和扩散模型的吞吐量与事实性优势 [42][43] 对小模型构建者的实践启示 - 对于资源有限的小语言模型构建者,不应盲目追求最新的架构改进,而应首先关注基础的“深度-宽度配比”,确保模型不落入性能低下的“死亡区域” [45] - 如果应用场景需要高速处理且对事实准确性要求高,那么扩散模型是一个极具竞争力的选择 [45]
剑桥揭开大模型翻车黑箱,别再怪它不懂推理,是行动出错了
36氪· 2025-10-13 18:46
研究核心观点 - 大模型在长时任务中表现不佳的根本原因并非推理能力不足,而是执行能力存在缺陷 [1][6] - 剑桥大学等机构的研究表明,问题出现在执行计划的稳定性上,而非规划或推理本身 [1][6][20] - 通过将规划与执行解耦的实验设计,研究人员纯化出“长视界执行能力”这一关键指标进行测量 [11][15][16] 长时任务执行能力评估 - 研究定义了多个量化指标:步骤准确率、轮次准确率、轮次复杂度、任务准确率和视界长度 [7] - 视界长度定义为模型在特定步骤处的平均任务准确率降至低于成功率阈值s的位置 [7] - 实验显示,单步准确率超过70%后,模型可执行的任务长度随单步准确率增加呈现快于指数的增长 [9] - 在软件工程任务上,前沿模型在s=0.5时的视界长度呈指数增长,每7个月翻一番 [14] 模型规模与执行能力关系 - 扩大模型规模能显著提升长视界执行能力,收益并未递减 [32] - 更大的模型能在更多轮次上保持更高的任务准确率,拥有显著更长的视界长度 [31][32] - 即便移除了规划和知识需求,长视界执行本身依然极具挑战性,小模型如Qwen3-4B与Gemma3-4B在第一步准确率未达100%,而表现最好的Qwen3-32B在15轮内准确率也跌至50%以下 [25][26][27][28] 自条件化效应 - 研究发现随着轮次增加,模型准确率下降存在“自条件化效应”,即当上下文包含模型先前错误时,会导致后续更容易犯错 [3][33] - 自条件化效应与长上下文问题是导致性能退化的两个独立因素 [35] - 扩大模型规模能缓解长上下文引起的退化,但无法缓解自条件化效应,即使参数规模达到200B以上的前沿模型仍受其影响 [36] 思考模型的作用 - 具备“思考”或推理链能力的模型能显著修复自条件化效应 [38][40] - 思考模型如Qwen3的思考版不再发生自条件化,无论上下文错误率如何,其在第100轮的准确率保持稳定 [40][41] - 基准评测显示思考模型“抗翻车能力”更强,单轮可执行的任务长度大幅提升,例如DeepSeek-V3的思考版R1能执行200步,而非思考版跑2步都困难 [43]
计算机ETF(512720)涨超1.6%,国产大模型技术突破或催化算力需求
每日经济新闻· 2025-08-11 11:56
计算机ETF表现 - 8月11日计算机ETF(512720)涨幅超过1 6% [1] - 该ETF跟踪CS计算机指数(930651) 覆盖沪深市场计算机硬件 软件及服务领域的上市公司证券 [1] - CS计算机指数具有高成长性和波动性特征 反映计算机相关上市公司的整体表现 [1] Kimi K2模型技术突破 - Kimi K2模型以320亿激活参数实现万亿级规模扩展 采用自研MuonClip优化器突破训练稳定性瓶颈 [1] - 在代码 数学 工具调用三大核心赛道全面超越Gemma3和Llama4等国际开源模型 跻身大模型竞技场总榜TOP5 [1] - 通过ACEBench启发的智能体数据合成技术覆盖数千种工具场景 显著提升任务泛化能力 [1] - 可自主生成复杂前端代码并精准拆解指令为结构化序列 [1] 商业化与应用前景 - 开源策略将降低AI Agent开发成本 推动应用层创新爆发 [1] - B端企业级API与C端多模态Kimi-VL形成全栈产品矩阵 验证长文本 视觉交互等场景落地潜力 [1] - 同等性能下 Kimi K2推理成本优势明显 有望加速智能体从概念验证向商业化盈利过渡 [1] 相关基金产品 - 无股票账户的投资者可关注国泰中证计算机主题ETF联接A(160224)和国泰中证计算机主题ETF联接C(010210) [2]
OpenAI将启动5000万美元基金,支持非营利组织和社区组织;Kimi K2登顶全球开源模型冠军丨AIGC日报
创业邦· 2025-07-20 09:15
Manus联合创始人总结经验教训 - Manus联合创始人季逸超发布技术解析长文 复盘公司从年初爆火至今的开发思路与教训 [1] - 公司近期被曝裁员、清空国内多平台账号等消息 [1] 中国开源模型全球领先 - 全球开源模型排行榜中 Kimi K2、DeepSeek R1、Qwen3等3个中国模型排名前三 [2] - Kimi K2成为全球最强开源模型 领先谷歌Gemma3和Meta旗下Llama4 [2] - 榜单由数千位开发者通过动态盲测进行投票 [2] OpenAI启动5000万美元基金 - OpenAI宣布启动5000万美元初始基金 支持非营利组织和社区组织 [3] - 基金将用于教育、经济机遇、社区组织和医疗保健等领域 扩大AI影响力并促进创新 [3] - 公司还将支持社区主导的研究和创新 利用AI促进公共福祉 [3] Perplexity挑战谷歌移动市场地位 - Perplexity正与移动设备制造商洽谈 希望在智能手机上预装Comet AI移动浏览器 [4] - 公司CEO表示说服OEM将默认浏览器从Chrome改为Comet并不容易 [4] - 强调了移动平台上用户惯性带来的挑战 [4]
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
量子位· 2025-06-09 17:27
视觉语言模型(VLM)技术突破 - 视觉语言模型正经历从「感知」到「认知」的关键跃迁,实现多模态交互的全新可能 [1][2] - 传统VLM依赖文本token间接翻译视觉信息,导致在高清图像微小物体、视频动态细节等场景中表现不足 [2] - 研究团队提出「像素空间推理」范式,将推理战场从文本空间拓展到像素空间,实现原生视觉操作 [2][3] 像素空间推理的核心优势 - 模型可自主触发视觉变焦、时空标记等原生操作,在像素矩阵上直接完成闭环推理,避免信息衰减 [6] - 视觉主导推理机制使模型能捕捉传统方法难以处理的空间关系与动态细节,如具身视觉导航、复杂视频理解等场景 [6] - 打破文本对视觉语义的「翻译牢笼」,实现与人类视觉认知同构的推理能力 [7] 学习陷阱与激励机制 - 指令微调模型面临「认知惰性」挑战,表现为负面反馈循环和路径依赖惯性 [8] - 研究团队设计内在好奇心激励配合外在正确性激励的强化学习方案,鼓励模型练习视觉操作 [9][10] - 通过像素推理率约束和操作效率约束,在探索与计算成本间找到平衡 [10][11] 性能表现与行业影响 - 基于Qwen2.5-VL-7B构建的Pixel-Reasoner在四大视觉推理基准测试中表现优异:V* Bench 84.3%准确率,超越GPT-4o和Gemini-2.5-Pro [13][15] - 在TallyQA-Complex、InfographicsVQA、MVBench等测试中均实现显著性能提升,展现「小模型大能力」特性 [19][20] - 像素空间推理为VLM开启「第二思维通道」,推动多模态模型真正理解世界复杂性 [21]
三星芯片,大搞AI
半导体芯闻· 2025-05-09 19:08
三星电子DS部门AI战略调整 - 公司DS部门近期宣布将内部AI运营模式改为"开放的多模型环境",打破此前以自主技术构建的封闭式AI系统"DS Assistant"为主的策略 [1] - 该调整旨在将AI应用扩展到半导体设计和开发领域,以提升工作效率 [1] - 继上月引入Meta模型后,本月新增谷歌"Gemma3"和微软"Phi-4"模型,形成包含不同参数版本的开源模型组合 [1][2] 外部AI模型应用细节 - 公司采用轻量级小型语言模型(sLM)作为内部AI主要架构 [1] - 根据不同工作场景灵活调用模型:处理数字数据时优先使用Phi-4,分析图像信息时采用Gemma3 [2] - 对Meta的Llama4评估显示其在语言混合问题改进、知识推理及代码生成等任务中表现优异 [2] 技术路线演变背景 - 2023年3月曾短暂允许使用ChatGPT,但因半导体数据泄露风险在三周内叫停 [2] - 同年12月推出自研DS Assistant解决安全问题,但封闭架构导致外部数据利用受限 [2] - 内部反馈指出需要整合外部AI以增强半导体设计等核心业务竞争力 [2] 数据安全实施方案 - 所有外部AI模型均采用内部部署(On-premise)方式运行,通过在工作场所安装数据服务器避免信息外泄 [3] - 公司表示将按工作类型持续评估并引入有助于效率提升的开源模型 [3]