Workflow
大模型研发
icon
搜索文档
突发!Anthropic全面封禁中国控股公司使用Claude:无论你在哪,都别想绕过!
菜鸟教程· 2025-09-05 15:04
政策限制范围 - 政策于2025年9月5日公布并立即生效 适用范围包括中国大陆公司 中资控股超过50%的海外子公司 通过云服务中转或第三方平台间接使用Claude的中资背景实体 [1][9] 技术外流风险 - 企业通过子公司访问Claude可能开发军事或情报应用 并通过模型蒸馏技术获取Claude能力 加速自家大模型研发 与美国及盟国科技公司直接竞争 [5] 企业战略调整 - Anthropic选择限制收入以彻底阻断访问 并呼吁美国政府加强出口管制 加速本土能源和算力基础设施建设 严格评估AI模型安全性 [6] - 跨国业务线因API关停可能导致项目停摆 国内大模型生态需加快研发投入 布局国产模型替代方案 优先考虑合规与安全 [10] 限制执行方式 - 限制不仅针对直接购买客户 还包括通过云平台间接调用的方式 注册在新加坡或美国等地的中资企业若由中国资本控股多数也将被禁止 [9]
智谱 GLM-4.5 团队深夜爆料:上下文要扩、小模型在路上,还承诺尽快发新模型!
AI前线· 2025-08-29 16:25
技术发展重点 - 扩展上下文长度是GLM-4.5未来研发重点 目前正在推进相关工作[6][9] - 防幻觉能力源于有效的RLHF流程 显著降低幻觉发生几率[6][11] - 架构选择GQA而非MLA 因MLA在解码阶段计算量更大且可能成为性能瓶颈[6][12] - 权重初始化采用标准差0.02的正态分布 注意力块和MLP输出层权重额外进行1/sqrt(2.0*num_layers)缩放[12] - 未来重点发展MoE模型并发布更小参数版本 稠密模型将专注于边缘设备场景[6][31] - 下一代模型优先提升推理 编程和智能体能力[6][50] 模型参数规模策略 - 前沿实验室模型参数规模已达万亿级别 但实际部署会精简成更小版本[14] - 活跃参数量在代码写作等现实任务中很重要 需根据设计任务决定[25] - 大规模模型在智能体任务和知识储备上更具优势[27] - 计划训练规模与gpt-oss-20b相当的较小MoE模型[28] - 小模型在封闭领域有效但在复杂领域难与大模型媲美[29] - 稠密模型聚焦小规模和边缘设备 目前无大于32B稠密模型计划[31] 多模态与架构探索 - 有多模态模型但未达SOTA水平 GLM-4.5V刚发布未来会提升[22] - 构建全模态模型技术复杂 目前专注LLM和VLM[23] - 探索文本扩散模型但未发现超越自回归Transformer架构的可能[24] - 图像生成功能无法增加大模型智能 厂商探索动力不足[24] - 高效注意力机制随上下文变长越来越重要 线性注意力对超参数更敏感[40] - 非文本模态转换为离散分词可能无法实现最佳性能[41] 数据工程与训练 - 预训练数据规模取决于数据过滤流程 算力资源和项目截止时间[13] - 最大差异在于原始训练token总量和数据工程技巧[34] - 更细致的数据工程是关键 包括丰富数据源 强大解析器和更好分类器[35] - 使用BF16精度训练 发布FP8量化版本且量化几乎不影响准确率[33] - 考虑扩展至MXFP4但FP4精度训练可能带来风险[33] 开源策略与行业定位 - 开源权重让更多人以喜欢方式使用模型 2022年发布首个开源大模型GLM-130B[36] - 开放权重模型与商业模型主要差距在于算力和数据资源[36] - 开源模型与商业模型差距将继续缩小 甚至有望在某些领域反超[36] - 中国开源权重模型落后闭源模型但差距正在缩小[53] - 许多有价值创新来自开源社区 如GLM-4.5训练使用的"slime"框架[53] 推理技术优化 - 推理模型可运用更多算力资源但会带来更严重延迟[17] - 理想情况应整合推理和非推理模式到同一模型中[18] - 缩短CoT长度是待办事项 可能加入与CoT长度反比的奖励信号[18] - GLM-4.5-Air已包含MTP层加速推理[19] - 已向vLLM和SGLang提交PR实现MTP 欢迎开发者适配ollama和llamacpp[20] 应用工具开发 - PPT生成器目前支持PDF导出 内部有PPTX导出测试版[45] - PPT生成结合搜索和HTML页面整理工具 模型具备内部化能力[46] - 推荐Open Code+GLM-4.5或Claude Code+GLM-4.5组合[47] - 将推出月度订阅套餐在Claude Code上订阅GLM-4.5[47] - AutoGLM是中国市场独立产品 高需求可能推出国际版[48]