Llama2
搜索文档
不再依赖美国!新加坡国家AI计划“换心”阿里千问
观察者网· 2025-11-25 18:49
合作事件概述 - 阿里云与新加坡国家人工智能计划联合发布国家级大模型"海狮"v4,该模型将全面基于阿里通义千问Qwen3-32B开源模型构建,不再沿用美国技术路线 [1] 技术优势与选型原因 - 西方主流模型如Meta Llama 2对东南亚语言内容的训练数据占比极低,仅为0.5%,存在严重的数据匮乏问题 [3] - 基于西方模型训练的早期版本存在区域常识错误,例如将委内瑞拉列为东盟成员国,暴露了本地化应用的短板 [4] - 东南亚地区盛行的"语码转换"文化使得标准美式AI模型难以理解复杂的混合语境 [4] - 阿里Qwen3模型在预训练阶段使用了36万亿个token的数据,覆盖全球119种语言和方言,具备"原生多语言能力" [5] - Qwen-Sea-Lion-v4采用字节对编码分词器,能更精准处理泰语、缅甸语等没有明显词间空格的语言,提升翻译准确度和推理速度 [5] 商业落地与市场契合度 - 模型经过优化可在配备32GB内存的消费级笔记本电脑上运行,降低了东南亚中小企业的使用门槛 [6] - 合作模式为双向融合,阿里提供通用推理底座,AISG贡献了经过清洗的1000亿个东南亚语言token,其东南亚内容浓度是Llama2的26倍 [6] - 该地区数字经济规模奔向万亿美元,拥有6亿人口,但一直是西方AI的"盲区" [3] 行业格局与影响 - 此次合作是继硅谷人士及企业采用Kimi、智谱模型后,中国开源模型在全球市场取得的又一成绩 [3] - 事件反映出全球AI格局正在发生微妙变化,中国企业凭借对多语言环境的理解和性价比优势,正成为"全球南方"国家构建主权AI的首选合作伙伴 [7] - 新加坡国家AI计划的认可意味着在"主权AI"和"多语言适配"赛道上,中国开源大模型已具备替代甚至超越硅谷巨头的能力 [3]
“训练成本才这么点?美国同行陷入自我怀疑”
观察者网· 2025-09-19 19:28
文章核心观点 - DeepSeek以远低于美国同行的成本实现了高性能AI模型训练 其训练成本仅为29.4万美元 基础大语言模型构建成本约600万美元 显著低于OpenAI超过1亿美元的训练成本[1][2] - 公司通过开源策略和高效计算资源使用 推动高端AI技术民主化 改变了行业竞争规则[6][7] - 公司首次在同行评审论文中披露技术细节 回应了美国对其芯片获取及技术复制的不实指控[4][5] 成本与效率突破 - DeepSeek-R1模型训练仅使用512块英伟达H800芯片 成本为29.4万美元[2] - 基础大语言模型构建总成本约600万美元 远低于美国公司公开披露的数字[1] - 采用网络爬取数据与自生成数据结合的节俭策略 仅聚焦计算投入 实现成本优化[6] 技术方法与行业影响 - 使用蒸馏技术提升模型性能并降低计算成本 通过Meta开源模型Llama构建部分精简版本[5] - 训练数据包含OpenAI模型生成内容 但属网络爬取过程中的无意结果 非刻意复制[5] - 模型实现顶级性能与高度效率 推动AI竞争从GPU数量导向转向资源效率导向[6][7] 芯片使用与合规性 - 研发前期使用A100芯片进行小模型实验 R1模型训练全程采用合法采购的H800芯片集群[4] - 在512块H800芯片上进行80小时训练 直接回应美国关于违规使用H100芯片的指控[4] 行业地位与认可 - 成为全球首个经过同行评审的主流大语言模型 获《自然》杂志刊登[2] - Hugging Face专家确认其方法可被第三方复现 无需依赖OpenAI秘密数据[6] - 被评价为"推翻仅靠先进芯片主导AI竞赛"的假设 实现"高端AI民主化"[1][6]