混元端侧混合推理大语言模型

搜索文档
AI周报 | DeepSeek斩获ACL 2025最佳论文;库克称苹果计划“大幅”增加AI投资
第一财经· 2025-08-03 09:16
ACL 2025最佳论文 - DeepSeek与北京大学联合发表的论文荣获ACL 2025最佳论文奖,提出原生稀疏注意力(NSA)机制,为自然语言处理领域效率突破提供新思路 [1] - 本届ACL大会总投稿量突破8000篇创历史新高,主会论文接收率20.3%,中国作者首次在第一作者占比中过半达51.3% [1] - NSA机制包含压缩模块、Blockwise选择模块和滑动注意力三大组件,被评价为"针对transformer attention的、简单有效、高度硬件友好的token数量压缩算法" [2] 企业AI模型市场格局 - Anthropic在企业大型语言模型市场份额达32%,超越OpenAI的25%,与两年前OpenAI占50%、Anthropic仅12%形成鲜明对比 [3] - Claude模型在编码、文案编写、游戏NPC等领域表现成为开发者首选,OpenAI市场份额自2023年起大幅下滑 [4] - OpenAI即将发布GPT-5,行业期待其通过下一代模型实现市场反攻 [4] 大模型开源动态 - 阶跃星辰开源基础大模型Step 3,采用MoE架构总参数量321B,在MMMU等评测集同类型开源模型中领先 [5] - 月之暗面发布万亿参数开源模型Kimi K2,腾讯开源混元3D世界模型1.0并计划后续开源端侧混合推理大模型 [5] 百度搜索智能体战略 - 百度搜索电脑端测试开放智能体应用入口,集成文心智能体平台、外部AI应用及自研应用,预计很快全量开放 [6] - 该举措标志着搜索从传统信息检索迈向智能交互服务,为AI应用开辟新分发渠道 [6][7] 具身智能行业现状 - 腾讯张正友认为具身智能行业尚未出现"iPhone时刻",当前人形机器人主要用于数据采集、科研等场景 [8] - 行业需要突破双足人形形态限制,未来会有特定领域实现规模化应用带动成本下降 [8] 算力技术发展 - WAIC展会上华为、曦智科技等厂商展出超节点方案,通过整合算力芯片资源构建低延迟高带宽算力实体 [9] - 超节点技术成为应对大模型参数增长和算力集群扩大的重要解决方案 [9] 科技巨头财报表现 - Meta第二季度营收475亿美元同比增长22%,净利润183亿美元同比增长36%,AI技术提升广告系统效率 [10] - 微软第四财季营收764亿美元同比增长18%,智能云业务营收299亿美元同比增长26%,市值突破4万亿美元 [11] - 两家公司均加大AI领域资本支出,Meta上调2025年资本开支预期至660-720亿美元 [10][11]
腾讯混元将有多款模型开源
第一财经· 2025-07-27 11:46
腾讯开源大模型生态布局 - 腾讯云副总裁吴运声指出国内模型开源趋势加速大模型生态建设 [1] - 公司发布并开源混元3D世界模型1.0 支持创建可漫游3D虚拟环境 [1] - 计划开源端侧混合推理大语言模型系列 包含0.5B/1.8B/4B/7B参数规模 [1] - 后续开源计划覆盖多模态理解模型与游戏视觉模型 [1] 技术产品矩阵 - 混元3D世界模型1.0定位为3D内容生成基础设施 [1] - 端侧推理模型针对边缘计算场景设计 参数规模梯度化 [1] - 技术路线覆盖从底层推理到上层应用的完整链条 [1] 行业动态 - 国内大模型开源呈现爆发式增长态势 [1] - 企业级3D内容生成需求推动相关技术迭代 [1] - 边缘计算场景催生轻量化模型需求 [1]