Token压缩
搜索文档
关于端侧大模型芯片化的若干趋势思考......
自动驾驶之心· 2025-10-23 08:04
作者 | 张凯@知乎 编辑 | 大模型之心Tech 原文链接: https://zhuanlan.zhihu.com/p/1959223427115250831 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,已获转载授权 ,欢迎添加小助理微信AIDriver004做进一步咨询 学校毕业以后一直从事芯片算法行业,中间经历了CNN的如日中天,ViT的异军突起,再到如今LLM/VLM的一片火热,算法层面早已发生了 翻天覆地的变化。 未来端侧智能的上限究竟有多高,我们还没有见到天花板;但是可以预见的是,具身智能,手机,音箱,摄像头,各种盒子,各种端侧场景 的需求是无限广阔的,这既是历史性的挑战,更是时代赋予的机遇。 目前市场上也有一些端侧的芯片,这里聊的主要是100T算力以内的芯片,例如爱芯元智、算能都相关的芯片,也能支持LLM的推理,但是不 管如何,其实还是面向上一代的ViT设计的,其效率在LLM上还没有达到上限。 Transformer架构长期以来主导了大模型领域,其自注意力机制的计算复杂度与序列长度呈平方关系,这对prefill阶段的算力需求和decod ...