非推理模型

搜索文档
智谱 GLM-4.5 团队深夜爆料:上下文要扩、小模型在路上,还承诺尽快发新模型!
AI前线· 2025-08-29 16:25
技术发展重点 - 扩展上下文长度是GLM-4.5未来研发重点 目前正在推进相关工作[6][9] - 防幻觉能力源于有效的RLHF流程 显著降低幻觉发生几率[6][11] - 架构选择GQA而非MLA 因MLA在解码阶段计算量更大且可能成为性能瓶颈[6][12] - 权重初始化采用标准差0.02的正态分布 注意力块和MLP输出层权重额外进行1/sqrt(2.0*num_layers)缩放[12] - 未来重点发展MoE模型并发布更小参数版本 稠密模型将专注于边缘设备场景[6][31] - 下一代模型优先提升推理 编程和智能体能力[6][50] 模型参数规模策略 - 前沿实验室模型参数规模已达万亿级别 但实际部署会精简成更小版本[14] - 活跃参数量在代码写作等现实任务中很重要 需根据设计任务决定[25] - 大规模模型在智能体任务和知识储备上更具优势[27] - 计划训练规模与gpt-oss-20b相当的较小MoE模型[28] - 小模型在封闭领域有效但在复杂领域难与大模型媲美[29] - 稠密模型聚焦小规模和边缘设备 目前无大于32B稠密模型计划[31] 多模态与架构探索 - 有多模态模型但未达SOTA水平 GLM-4.5V刚发布未来会提升[22] - 构建全模态模型技术复杂 目前专注LLM和VLM[23] - 探索文本扩散模型但未发现超越自回归Transformer架构的可能[24] - 图像生成功能无法增加大模型智能 厂商探索动力不足[24] - 高效注意力机制随上下文变长越来越重要 线性注意力对超参数更敏感[40] - 非文本模态转换为离散分词可能无法实现最佳性能[41] 数据工程与训练 - 预训练数据规模取决于数据过滤流程 算力资源和项目截止时间[13] - 最大差异在于原始训练token总量和数据工程技巧[34] - 更细致的数据工程是关键 包括丰富数据源 强大解析器和更好分类器[35] - 使用BF16精度训练 发布FP8量化版本且量化几乎不影响准确率[33] - 考虑扩展至MXFP4但FP4精度训练可能带来风险[33] 开源策略与行业定位 - 开源权重让更多人以喜欢方式使用模型 2022年发布首个开源大模型GLM-130B[36] - 开放权重模型与商业模型主要差距在于算力和数据资源[36] - 开源模型与商业模型差距将继续缩小 甚至有望在某些领域反超[36] - 中国开源权重模型落后闭源模型但差距正在缩小[53] - 许多有价值创新来自开源社区 如GLM-4.5训练使用的"slime"框架[53] 推理技术优化 - 推理模型可运用更多算力资源但会带来更严重延迟[17] - 理想情况应整合推理和非推理模式到同一模型中[18] - 缩短CoT长度是待办事项 可能加入与CoT长度反比的奖励信号[18] - GLM-4.5-Air已包含MTP层加速推理[19] - 已向vLLM和SGLang提交PR实现MTP 欢迎开发者适配ollama和llamacpp[20] 应用工具开发 - PPT生成器目前支持PDF导出 内部有PPTX导出测试版[45] - PPT生成结合搜索和HTML页面整理工具 模型具备内部化能力[46] - 推荐Open Code+GLM-4.5或Claude Code+GLM-4.5组合[47] - 将推出月度订阅套餐在Claude Code上订阅GLM-4.5[47] - AutoGLM是中国市场独立产品 高需求可能推出国际版[48]
马斯克旗下xAI:Grok 3,全球最强的非推理模型,在需要现实世界知识如法律、金融和医疗保健等任务中表现出色。
快讯· 2025-04-19 03:25
公司技术进展 - 马斯克旗下xAI推出Grok 3模型 被公司称为全球最强的非推理模型 [1] - 该模型在需要现实世界知识的任务中表现突出 包括法律 金融和医疗保健等领域 [1]