Workflow
支付宝APP
icon
搜索文档
海南放心游平台文旅智能体“海小南”上线
海南日报· 2025-10-21 09:23
海南日报海口10月20日讯(海南日报全媒体记者 刘晓惠 实习生 劳兰婷)10月20日,海南日报全媒 体记者从省旅游和文化广电体育厅获悉,海南放心游平台面向全国公众推出的AI文旅智能体"海小南", 现已在支付宝APP上线运行,在支付宝页面搜索"海南放心游"即可进入。 据了解,基于"AI+文旅场景","海小南"将平台公共服务与AI智能客服深度融合,面向海南本省特 色旅游场景提供更准确、更及时、更可靠的智慧出游体验。"海小南"作为游客在海南的"电子旅游搭 子",可提供当地商户信息查询、在线投诉理赔、旅游产品购买等综合服务功能。 游客还可与"海小南"智能体对话互动,获取餐饮美食、娱乐休闲推荐以及个性化行程规划服务,快 速制订旅行计划。丰富的个性化服务场景将帮助游客高效规划行程,享受轻松便捷的智能旅游服务。 海南放心游平台 文旅智能体"海小南"上线 可提供商户信息查询、投诉理赔等服务 值得关注的是,在游客游览景区时,可开启"海小南"的AI伴游功能,实现实时定位导航。"海小 南"还可提供景点介绍、语音讲解及游玩路线等实时陪伴服务,全方位提升游客的旅游体验。智能化导 览服务让游客在海南游玩更加安心便捷。 ...
“像把大象塞进冰箱一样困难”,端侧大模型是噱头还是未来?
36氪· 2025-10-14 16:30
端侧大模型的定义与范畴 - 端侧大模型指将大模型的推理过程直接部署在终端设备上,而非依赖云端数据中心 [2] - 端侧设备范围广泛,包括算力较弱的IoT设备、算力中等的智能手机、机器人和PC等 [2] - 大模型没有统一标准,通常指基于decoder-only的Transformer架构、参数规模超过百兆的自回归模型,能处理多种任务并适应不同下游任务 [2] 端侧部署的核心优势 - 隐私保护:模型可利用端上产生的所有数据(如录音、文本、屏幕点击),避免敏感数据上传云端 [3] - 低延迟与高可用性:端侧推理摆脱网络依赖,避免云端服务的网络往返延迟和批量调度时延,整体延迟显著降低 [3][6] - 成本优势:将计算分摊到用户终端,可减少企业维护超大GPU集群的成本 [3][6] 端侧部署面临的技术挑战 - 内存限制:终端设备内存配置多为8~12GB,需通过极致量化与压缩(如4bit甚至更低)来适配有限内存 [4][5][7] - 精度对齐:端侧必须将FP32模型高精度压缩,不同厂商对量化算法的支持差异带来精度对齐难题 [5] - 开发适配成本高:端侧部署几乎需从零开始开发高性能算子,构建推理能力,开发成本远高于云端 [5] - 模型部署与下发:APP安装包尺寸限制大,即便量化后模型仍可能达几百兆,内存压力显著 [11] 业界解决方案与技术进展 - 华为CANN工具链提供NPU友好的低比特量化算法,显著降低模型内存占用,使大模型能运行于手机等终端 [6][9] - 工具链支持Ascend C自定义算子开发,实现一次开发多端部署,并已适配业界主流开源模型(如通义、千问、LLaMA、ChatGLM) [6][9] - 采用量化策略如PTQ、QAT,针对2比特量化选用更小block size(如64或32)并引入二级量化来压缩scale,减少模型体积和加载内存 [16][17] - 利用模型稀疏性与存储分层结合,将频繁激活的参数常驻内存,不常用参数按需加载,以扩大端侧可运行模型规模 [12][13] - 针对Prefill阶段算力瓶颈,采用prompt缓存、混合低比特量化等技术;针对Decode阶段带宽瓶颈,采用更低比特量化、MoE、投机推理等方案 [14][15] 典型应用场景与商业化路径 - 隐私要求高的场景:如数字世界的Computer Use Agent(GUI Agent、Function Code Agent)、物理世界的具身智能(无人机、机器人) [21][26] - 实时性要求高的场景:如语音助手、流式识别、实时翻译、相机算法优化、离线ASR等 [6][21] - 商业模式上,终端侧运行已基本成熟,华为、vivo、荣耀、苹果等厂商新旗舰手机均具备端侧大模型能力 [21] - 更易取得商业化成果的路径是将大模型与具体应用场景结合,如应用开发、智能Agent、无人机或其他深度垂直领域 [29][30] 未来发展趋势与端云协同 - 未来3-5年,端云协同将成为必然趋势,端侧作为"神经末梢"负责部分token计算和隐私数据采集,云端作为"大脑"完成复杂推理决策 [23][24] - 端侧将更贴近生产力场景,处理与用户本地数据相关的个性化任务;云端则致力于拓展人类知识边界的复杂任务 [24][25] - 端的形态将不限于手机,扩展到车机、机器人、智能眼镜等设备,成为智能入口和重要计算节点 [25][26] - 操作系统需重新定义资源管理以适配大模型,如KV cache的管理、NPU的灵活调度机制等 [10][24]