大规模语言模型(LLM)
搜索文档
机器人域控制器产业趋势展望
2025-10-14 22:44
纪要涉及的行业与公司 * 行业:机器人域控制器产业、智能驾驶芯片行业 [1] * 公司:知行科技、英伟达、德赛西威、均胜电子、地平线、华为、辉西、黑芝麻、摩尔线程、地瓜机器人、语数、志远等 [1][2][5][6][12][13] 核心观点与论据 产业趋势与驱动力 * 人工智能快速发展,特别是大规模语言模型(LLM)正迅速推动机器人行业发展,类比十年前的自动驾驶领域 [1][4] * 谷歌DeepMind Gemini 5.0等技术进步推动了对高算力平台的需求迅速增长,例如地平线已加速S600工程版进程 [3][8] * 控制器作为机器人的计算平台("大脑")是不可或缺的关键组件 [1][4] 市场竞争格局 * 机器人控制器市场未来不太可能由单一企业(如英伟达或地平线)主导,将呈现多方竞争、共同推动的激烈局面 [6][7] * 国内智驾芯片系统(地平线、华为、造车新势力自研芯片)崛起,改变了端侧芯片市场格局,机器人端被视为新的生态土壤 [1][6] * 机器人领域不会像车企一样由少数厂商主导,因硬件开发、工程部署及软硬件集成要求高,门槛较高 [10] 技术难点与标准化 * 机器人域控的难点在于标准化尚未完全定义,控制端和决策端技术尚未完全收敛,硬件和参数标准仍在动态变化 [3][9] * 机器人域控的系统接口理论上比智能驾驶简单,但技术未收敛增加了复杂性 [9] 公司战略与布局 * 知行科技积极布局机器人控制器领域,将汽车智能驾驶域控方案的软硬件开发经验和工程部署经验迁移至机器人平台 [2] * 公司目标是打造高效、安全、开放的机器人"大脑"平台(控制器),并已并购一体化本体关节公司,为本体测试验证和新方向探索奠定基础 [1][2] * 知行科技与地瓜机器人合作紧密,是唯一成功开发出基于地瓜芯片通用化套件(A样机)的公司,合作带来显著推动作用 [12] * 公司与多家国内头部人形机器人企业(如语数、志远)保持紧密接触和合作,业务取得实质性进展 [13] 其他重要内容 芯片厂商进展与表现 * 英伟达推出了机器人大脑平台芯片(如福尔芯片),并获得德赛西威、均胜电子等国内企业采用,市场对其技术解决方案高度认可 [1][5] * 地平线在端侧测试中表现良好,算力输出效率可观,未来潜力巨大 [1][7] * 除主流厂商外,辉西推出了R one,黑芝麻推出了A2000,摩尔线程也在积极研发新型专用芯片 [6] 商业模式与未来展望 * 目前论证未来机器人域控商业模式和竞争格局为时过早,与智能驾驶领域存在差异(如机器人工业发展历史较短) [4] * 由于AI迭代速度快,公司需要拥抱变化、成为先行者才能在行业中占据战略高地,否则易被新技术淘汰 [4] * 在国家政策支持下,本土芯片公司将在中美科技竞争中获得更多机会 [1][7]
ICML 2025 Spotlight|华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍
机器之心· 2025-05-07 08:33
核心观点 - Mixture-of-Experts(MoE)在推理时仅激活每个token所需的一小部分专家,凭借稀疏激活特点成为当前LLM主流架构,但整体参数规模仍大于同等性能的Dense模型,在显存资源受限的端侧部署场景面临挑战 [1] - 现有专家卸载(Expert Offloading)方案存在两大缺陷:频繁加载不同专家导致显著推理延迟,批量解码场景可能需加载整层所有专家加剧显存压力 [11] - 研究人员提出Mixture-of-Lookup-Experts(MoLE),通过将专家输入改为embedding token并采用查找表替代矩阵运算,从根本上规避频繁加载开销 [5][6] 技术原理 - MoLE核心思想是预先计算所有可能的输入-输出对应关系并存储为查找表,用简单查找操作代替矩阵运算,需满足专家模块输入来自离散有限集合且检索过程不依赖密集计算 [5] - embedding token天然具备离散有限特性,数量与词表大小一致,可通过token ID直接寻址,满足查找表构建要求 [6] - 训练阶段MoLE与标准MoE有三点区别:输入调整为embedding token、激活所有路由专家、仅使用语言建模损失 [8][9][10] 推理优化 - 推理前MoLE通过预构建查找表完成专家模块重参数化,以embedding层权重矩阵作为专家输入计算完整映射集合 [15] - 查找表构建完成后删除原始路由专家模块,存储在下层设备中,推理时根据token ID直接检索专家输出 [16] - MoLE推理时仅保留共享专家模块,计算量与Dense模型相当,传输开销比MoE减少数个量级,存储需求与单个专家模块同数量级 [17] 实验验证 - 在Pile数据集100B-token子集上训练160M/410M/1B参数模型,控制MoE和MoLE训练参数量相等 [20] - 相同条件下MoLE性能与MoE相当且显著优于Dense,传输开销减少千倍以上 [21] - V100评测显示MoLE推理延迟与Dense基本一致,批量解码场景下延迟稳定,显著优于MoE [22] 性能分析 - 专家数量提升时模型性能同步提升,但专家隐层维度增大到一定程度后性能受限于查找表固定大小达到饱和 [25][26] - 消融实验证实MoLE训练无需辅助损失,查找表可压缩至3-bit精度(如NF3格式)而性能基本不变 [24][27] - MoLE通过激活所有专家弥补输入缺乏上下文信息的缺陷,共享专家和路由保留上下文理解能力 [26][27]