Workflow
中昊芯英“刹那®”TPU AI芯片适配百度文心开源大模型ERNIE-4.5-VL,加速多模态运算
搜狐网·2025-10-31 10:37

公司技术里程碑 - 中昊芯英“刹那®”TPU架构AI芯片成功完成对百度开源多模态混合专家大模型ERNIE-4 5-VL-28B-A3B的适配与性能实测[1] - 此次适配开创了“国产创新芯片架构+国产开源大模型”的生态范式[1] - 适配验证了国产TPU架构算力基座对前沿MoE模型的高效支撑能力[1] 公司背景与研发实力 - 公司成立于2018年,由前谷歌TPU芯片核心研发者杨龚轶凡及一批来自谷歌、微软、三星等海外科技巨头的AI软硬件设计专家组建[1] - 核心团队掌握从28nm到7nm各代制程工艺下大芯片设计与优化完整方法论[1] - 公司拥有全栈式技术梯队,覆盖芯片设计、电路设计、软件栈研发、系统架构、大模型算法等领域[1] - 研发人员占比70%以上[1] “刹那®”TPU芯片技术特点 - 芯片拥有完全自主可控的IP核、全自研指令集与计算平台[1] - 采用专为AI/ML而生的TPU芯片架构,在AI大模型计算场景中,算力性能超越海外著名GPU产品近1 5倍,能耗降低30%[1] - 通过采用Chiplet技术与2 5D封装,实现了同等制程工艺下的性能跃升[1] - 支持1024片芯片片间互联,实现千卡集群线性扩容,支撑超千亿参数大模型运算需求[1] 百度ERNIE-4 5-VL模型概况 - ERNIE-4 5-VL-28B-A3B是百度文心开源大模型ERNIE-4 5系列中的一款多模态MoE大模型,于2025年6月30日随文心4 5系列一同开源[2] - 模型总参数量为28B,激活参数量为3B,采用异构混合专家架构[2] - 在跨模态理解与生成、长文本处理等领域表现卓越,适用于智能导览、视觉客服等多种场景[2] - 基于飞桨深度学习框架,模型FLOPs利用率达到47%,在多个文本和多模态基准测试中达到SOTA水平[2] 技术适配与性能表现 - “刹那®”TPU AI芯片的并行处理能力与ERNIE-4 5-VL的架构设计实现深度融合[3] - 芯片的可重构多级存储、近存运算设计以及流水线式的时空映射,有效提升了大模型计算速度和精度[3] - 在处理视觉、文本等多模态数据时,展现出出色的兼容性和运算性能[3] - 在基于“刹那®”TPU AI芯片构建的“泰则®”AI服务器上运行ERNIE-4 5-VL模型时,性能表现与海外著名GPU产品齐平[3] 实际应用与未来规划 - 技术团队成功基于芯片运行了ERNIE-4 5-VL的多项复杂多模态任务,例如古文识别任务,过程流畅运行,无缝衔接[4] - 芯片能够为模型提供稳定且强大的算力基础,满足大规模模型训练和高实时性推理任务的需求[4] - 通过与百度飞桨框架紧密配合,优化模型在芯片上的运行性能,为开发者提供更便捷、高效的开发环境[4] - 公司将持续深化与百度的技术共研,推动从3B到424B全系列模型的硬件加速方案落地,为产业提供更高效可靠的国产自主AI基础设施[4]