Workflow
混合AI与分布式协同
icon
搜索文档
高通万卫星:混合AI与分布式协同是未来 | MEET2026
量子位· 2025-12-11 19:37
AI应用演进的四个阶段 - 行业将AI应用演进梳理为四个阶段:感知AI、生成式AI、智能体AI和物理AI [3][9] - 感知AI是第一阶段,包括传统的自然语言处理、语音降噪、图片识别和分割等技术,多年前已在终端侧商业化落地 [13] - 生成式AI是第二阶段,随ChatGPT兴起,基于大量数据预训练并在人类监督下完成具体任务,如文生图、聊天机器人、翻译等 [14] - 智能体AI是第三阶段,能在几乎没有人类监督的情况下进行自主行动、预测、意图理解与任务编排,产业正呈现从生成式AI向智能体AI演进的路线 [18][19] - 物理AI是第四阶段,AI能理解真实物理世界并根据物理定律做出反馈,目前尚处于研究和探索初期 [20][21][22] 终端侧AI的现状与趋势 - 终端侧AI模型尺寸正不断增大:手机可支持近100亿参数,PC支持约200亿参数,车载场景可部署200亿至600亿参数模型 [23] - 终端侧模型质量持续提升,今年初已将支持思维链和推理能力的模型完全部署在端侧 [25] - 端侧模型支持的上下文长度显著增长:从两年前的1K至2K,到去年的4K,再到今年已能支持8K至16K典型用例部署,特殊场景下已实现128K上下文窗口的端侧部署 [26][27] - 终端侧AI正从单一文字模态,向支持文本、图片、视频、音频、语音等多模态甚至全模态演进 [28] 端侧AI的优势与核心挑战 - 在端侧运行大模型的最大优势之一是个性化,能在离数据产生最近的地方做推理,有利于保护用户隐私和安全,且完全免费、无需网络连接 [31][32] - 端侧运行大模型面临三大核心挑战:内存限制约束了模型能力上限;带宽限制影响AI推理速度和用户体验;在手机等高集成度设备上对能效控制提出极致要求,功耗过高易触发温控机制 [34][35] 高通公司的端侧AI技术破局之道 - 通过量化和压缩技术应对内存限制:从8 bit、4 bit到今年实现2 bit量化压缩,使端侧支持的模型尺寸越来越大,占用内存越来越小 [37] - 采用并行解码技术应对带宽限制:先在端侧运行较小的草稿模型一次性推理出多个token,再由原始大模型校验,以提高大语言模型的token生成速率,改善用户体验 [37][40][42] - 通过先进的NPU(包括eNPU架构)和领先的异构计算系统,推动端侧AI从被动式服务向主动式、个性化服务迈进 [37] 智能体AI的构成与用例 - 智能体AI是更复合、更复杂、更主动式的AI服务,其实现需要多个基础模块:一个具有推理能力的大模型以理解用户意图;以及调用本地或云端API执行任务的能力 [45][46][47] - 智能体AI用例示例:用户通过自然语言交互,智能体理解“发布微博”意图后,可自动打开微博APP、搜索照片、根据用户偏好加滤镜并完成发布,整个过程可全部运行在端侧 [50][52] 未来AI体验:分布式协同与混合AI - 未来将实现跨设备的分布式个性化大模型推理:算力较小的设备(如智能眼镜、手表)可通过Wi-Fi或蓝牙与算力较大的设备(如手机、PC、汽车)连接,共享本地数据并将大模型推理任务转移 [54] - AI体验将向混合AI方向发展:在终端侧运行垂类、高效的模型,提供更安全、个性化的服务;在云端运行更大尺寸的模型,提供能力更强、更通用的服务 [55][57] - 公司将凭借低时延、高速且安全的连接技术,确保混合AI场景下的端云协同 [58]