Workflow
字节豆包、阿里、智谱……国产大模型,密集放大招!
证券时报·2025-02-12 18:07

国产大模型,密集放大招。 2月12日,字节跳动豆包大模型团队发布消息称,团队提出了全新的稀疏模型架构UltraMem,可有效解决MoE(Mixtureof Experts,混合专家模型)推理时高 额的访存问题,推理速度较MoE架构提升2—6倍,推理成本最高可降低83%。 除了字节豆包以外,阿里和智谱AI也传来新动态。据TheInformation援引知情人士消息称,苹果和阿里将合作为中国iPhone用户开发AI功能。受该消息影响, 阿里美股直线拉升,一度涨超3%。另外,三星则宣布智谱的AgenticGLM成为其新手机GalaxyS25的AI能力来源。业内分析称,苹果牵手阿里,三星与智谱合 作,AI手机在中国市场的端侧AI大战,将在2025年进入焦灼的"贴身肉搏"状态。 豆包提出新架构,大幅降低推理成本 据豆包大模型团队,在大模型主流的Transformer架构下,模型的性能与其参数数量和计算复杂度呈对数关系。随着大语言模型规模不断增大,推理成本会急 剧增加,速度变慢。尽管MoE架构已经成功将计算和参数解耦,但在推理时,较小的batchsize就会激活全部专家,导致访存急剧上升,进而使推理延迟大幅 增加。 为解 ...