Workflow
中移智库
icon
搜索文档
面向5G-A与AI融合驱动的算网智一体化解决方案白皮书
中移智库· 2025-11-10 20:54
报告行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][18][19][21][22][23][25][26][27][28][29][30][31][32][33][34][35][36][37][38][39][40][41][42][43][44][45][46][48][50][52][53][54][55][56][57][59][60][61][62][63][64][65][66][67][68][69] 报告的核心观点 - 核心观点为构建“算力、网络、智能”一体化融合的新型基础设施,以支撑千行百业数字化转型 [4] - 核心路径是通过5G-A与AI深度融合,实现从“连接赋能”到“智能赋能”的跨越 [4] - 核心解决方案是中国移动提出的“5G-A×AI算网智一体化”技术体系,其设计理念为“算为引擎、网为根基、智为大脑” [5][14][15] 5G-A与AI融合驱动发展的背景 政策导向和产业现状 - 国家政策密集出台,为构建“算-网-智”一体化基础设施提供引导,如国务院《关于深入实施“人工智能+”行动的意见》和工信部“扬帆”行动升级方案 [9] - 产业需要运营商、设备商和垂直行业参与者打破传统角色边界,联合探索“业务+连接+运维”三位一体的融合理念 [10] - 运营商需强化算网智一体化平台构建,设备商需提升设备“靠近生产要素”的优势,垂直行业参与者需成为技术与业务融合的核心纽带 [10] 痛点与挑战 - 企业专网面临“多而不融、言而无策、静而不柔、治而不智、连而无感”等系统性挑战 [11] - 工业控制等场景对网络有极致要求,如端到端时延低于1ms、可靠性达99.999% [12] - “网算分离”模式导致网络资源与边缘算力适配滞后、数据流转效率低 [12] 5G-AxAI算网智一体化技术体系 设计理念 - 体系以“算为引擎、网为根基、智为大脑”为核心理念,推动数字基础设施从“被动支撑”向“主动赋能”跃迁 [14] - “算为引擎”指通过轻量化内核、异构计算与云边协同,实现多样化算力资源的统一池化与智能调度 [14] - “网为根基”指5G-A网络演进为具备内生智能的“感知-保障”系统,能主动感知业务意图并动态调动资源 [14] - “智为大脑”指AI深度内生于基础设施核心,借助大模型、智能体等能力实现闭环自治 [15] 算网智一体化架构 - 架构以边缘智能核心网为枢纽,通过算力平台的弹性支撑与智能驱动中枢的赋能调度,实现算、网、智的闭环协同 [16][18] - 赋能边缘智能核心网的算力平台具备轻量化与弹性部署、跨异构适配、云边模型与数据协同、安全与高可靠运行等关键能力 [18] - 赋能企业专网的边缘智能核心网通过异构接入、意图化用网、一网多能、内生智能、多模态感知五大能力构建智能化网络基座 [18] - 智能驱动中枢与模型服务基座作为“智慧大脑”,深度融合大模型与行业知识,解决企业“技术融合难、运维复杂度高、业务创新慢”等痛点 [19] 算网智的关键能力特性 赋能边缘智算核心网的算力平台 - 轻量化与弹性部署能力支持模块化功能按需启停,可根据业务负载弹性扩展部署规模,保障高优先级任务的确定性低时延响应 [21] - 跨异构适配能力通过深度融合CPU、GPU、NPU、DPU等多类计算单元,构建高效协同的混合算力体系,提升业务承载能力和能效 [22] - 云边模型与数据协同通过“边缘-区域-中心”三级协同体系,实现AI业务的高效部署与灵活调度,满足边缘端实时性与中心侧算力优势 [23][25] - 安全与高可靠运行能力构建纵深防御体系,采用无单点故障架构与多层冗余备份机制,满足电信级可靠性要求 [26] 赋能企业专网的边缘智能核心网 - 异构接入能力支持5G、Wi-Fi等多种制式网络的统一纳管与毫秒级智能切换,保障关键业务“零中断” [27] - 意图化用网技术通过LLM将高层业务意图自动转化为网络策略,实现业务分钟级一键开通,改变传统逐条配置的复杂模式 [28] - 一网多能基于5G-A技术构建统一数字底座,通过通感算一体化实现单设备多功能复用,满足从产线级控制到园区级感知的差异化需求 [29][30][31] - 内生智能融合5G-A核心网原生AI架构与智能体技术,实现意图精准识别、资源动态分配与运维自动化 [32] - 多模态感知融合视觉、雷达与5G-A通感技术,构建全要素高精度实时感知体系,提升目标关联准确性 [33] 智能驱动中枢与模型服务基座 - 模型服务依据业务场景、硬件资源与成本约束进行精准选型与优化,支持模型剪枝、量化等轻量化工具,解决大模型边缘部署难题 [34][35] - 通过统一的异构计算框架和边云协同推理工作流,实现计算任务的智能调度与分配,平衡边缘实时性与云端算力优势 [36][37] - 提供标准化的推理服务API和模型定制化技术路径,降低AI技术使用门槛,为智能体提供强大的推理支持 [38] - 智能体技术通过大模型与知识增强、任务处理引擎、NetMCP SERVER工具调用及多智能体动态协同,赋予网络“思考”和“决策”能力 [39][40][41][42][43][44][45][46] 应用案例 确定性时延PLC控制 - 在江苏亨通光电试点中,通过5G LAN与双发选收技术,将PLC端到端传输时延由60ms降至20ms以内,抖动降低超过80%,实现零丢包传输 [53] - 试点验证了算网智内生一体化方案的创新价值,通过内置业务智能体实现网络设备的AI自配置与智能维护,提升运营管理效率 [53] 意图驱动智能专网管理 - 在无锡知名企业工厂试点中,5G专网问题定界时间从天级缩短至分钟级,网络巡检效率由小时级提升至秒级,并可同步生成标准化报告 [57] - 专网知识问答功能问答准确率超过90%,有效弥补了传统人工查阅效率低、专业门槛高的短板 [57] 展望 - 未来将在技术突破、场景创新与生态共建三个维度持续深化,推进新型工业化 [60] - 技术上将强化协同攻坚,推动网络向“主动优化”、算力向“智能流动”、智能向“内生自治”演进 [61] - 场景上将深化在智能制造、智慧能源等领域的应用,打造“行业智能切片”,实现全链条赋能 [62] - 生态上将推动标准化与开源协作,构建开放共赢的协同创新生态,加速解决方案在更多行业落地 [63]
5G-AxAI新技术,新案例,新模型白皮书
中移智库· 2025-03-14 16:40
报告行业投资评级 未提及 报告的核心观点 - 5G - A与人工智能的融合是必然产业趋势,将推动电信及其他产业产生乘数效应,满足网络需求、提升性能效率、提供新服务、加速产业智能化革命 [9] - 5G - AxAI创新技术在网络智能、数字孪生网络智能、应用智能、可持续智能4个领域成效显著,为新应用提供创新引擎,引领新商业模式,推动网络服务转变 [9] 根据相关目录分别进行总结 5G - AxAI:新能力满足新需求,释放新价值 - 人工智能发展进入新阶段,变得轻量化、通用化和具体化,优化算法降低成本和门槛,多模态基础模型扩大应用范围,机器人使人工智能具体化 [10] - 通信网络处于大规模部署和创新期,5G网络数量达398个,全球5G SA运营商154家,5G - A系统开始成形并由超15家运营商实施 [11] - 5G - A与人工智能融合是趋势,将在多方面带来变革,满足网络和产业新需求,创造新价值 [11] 5G - A商业进步 - 2024年中3GPP完成Release 18工作,预计2025年底完成Release 19,5G进入5G - A阶段,提供高速低延迟连接、创新信息整合、行业服务能力基础等价值 [12] - 5G - A速率跃升至3 - 5Gbps,预计超10Gbps,相比传统5G增加10倍,采用ELAA等技术提高频谱效率,2024年发布新型高端芯片支持大带宽 [13] - 超60家运营商和合作伙伴宣布5G - A商用计划,中国5G - A网络在300多个城市启动,中国移动积极推动,部署相关网络和技术,发行收费套餐,超50万用户订阅 [14] - 中东运营商推出最高300Mbps无线宽带套餐,解决光纤部署问题,5G - A发展和商业化潜力大,处于持续发展和大规模部署阶段 [14][15][16] 新的人工智能能力 - 人工智能使机器模拟人类智能,处理多种任务,最新大型基础模型展现非凡能力,深度学习等算法和神经网络在多行业显示价值 [17][18] - 人工智能具有感知、预测、决策、生成能力,可在网络领域利用和改进,结合网络能力将推动通信智能融合服务发展 [19][23] 跨领域融合的机遇 满足演进的网络需求 - 5G - A和AI融合在满足网络演进需求和实现卓越性能方面有变革性潜力,AI可优化网络功能模块,提高端到端通信系统效率、适应性和可靠性 [24] - AI在优化网络资源利用方面发挥关键作用,包括动态资源管理、网络切片优化、预测交通分析、增强频谱效率、优化MIMO技术等 [26] - AI实现以用户为中心的网络运营,包括实时监控与调整、智能交通整形、上下文感知交通优先级、端到端服务质量保证、智能交通卸载等 [30] - AI提升网络自动化,推动运维向L4/L5级别发展,包括实现敏捷网络、绿色网络、服务创新赋能等 [33] 满足多元行业需求 - 5G - AxAI组合能在多个行业实现新应用和服务,包括远程医疗和远程医疗服务、自动驾驶车辆与交通、制造业与工业4.0、零售与电子商务、智慧城市与城市基础设施等 [37] - 在远程医疗领域,5G - A提供低延迟和高速传输能力,AI协助诊断和手术,监测患者健康,提高诊断准确性 [38][39] - 在自动驾驶领域,5G - A支持车辆通信和连接,AI处理传感器数据,实现安全驾驶、V2X通信、车队管理和物流优化 [40] - 在制造业领域,5G - A连接设备和传感器,AI分析数据,实现智能制造、预测性维护和机器人自动化 [41][42][43][44] - 在零售领域,5G - A和AI带来购物体验、物流和供应链管理变革,实现个性化客户体验、库存管理与物流优化、智能商店运营 [45][46][47][48] - 在智慧城市领域,5G - A和AI促进智能治理、安全和交通等领域进步,实现交通管理优化、公共安全监控增强 [49] 5G - A和AI的乘数效应 - 5G - A与AI结合产生乘数效应,放大技术影响力,加速创新,提高效率,提升客户体验,促进新商业模式开发 [50] - 提升网络性能与效率,包括网络优化、自动化、支持低延迟应用、预测性分析等 [52][53] - 解锁新的服务和应用,包括边缘计算与实时处理、大规模连接性、沉浸式通信等 [54][55] - 加速产业革命,包括推动自动化与优化、实现实时分析和个性化、改进决策、进行预测性和规范性分析等 [57][58][59] 5G - AxAI培育新技术 - 5G - A与人工智能融合的核心创新集中在网络智能、数字孪生网络智能、应用智能、可持续智能4个领域,推动多元领域应用新浪潮,重塑网络范式 [60] 网络智能 - 智能实时网络闭环:通过引入智能控制平面和用户平面,实现实时应用识别、体验感知和动态服务控制,支持运营商优化资源调度和实现差异化服务保证 [62] - 网络基础模型:借助大型语言模型技术构建融合网络知识的基座模型,提升通用性和鲁棒性,在网络流量识别和用户画像方面有优势 [71][73] - 智能网络基础设施生命周期:将人工智能能力引入网络基础设施全生命周期,提高测试自动化和管理效率,架构分为交互层、模型层、语义层、执行层 [74][76][77][78] - 网络移动性中的AI:AI在网络移动性方面提供新解决方案,包括RRM测量预测、故障预测、事件预测等,提高网络性能和可靠性 [80][81][82][86] 数字孪生网络智能 - 网络数据映射技术:采用按需数据收集方法和AutoOPT框架,解决数据收集挑战,提高数字孪生精度和泛化能力 [94][97] - 数字孪生建模技术:围绕网络状态数字孪生、服务与环境匹配、网络行为孪生模型三个维度构建,实现主动式网络管理和优化 [99][100][102][103] 应用智能 - IMS数据通道:IMS DC可实现非语音数据高速实时传输,集成在IMS框架内,分为引导数据通道和应用数据通道,提供实时多模式交互、QoS和安全性增强、灵活应用集成等好处 [107][109][110][113] - 交互式新呼叫:5G - A新呼叫服务提供交互式、智能化和沉浸式服务,应用意图识别、XR + AGI技术、数字人、智能翻译等AI新技术,带来新商业模式和缩短服务上线时间等好处 [115][116][119] - 云 - 边 - 端协同:通过计算卸载、以上行链路为中心的宽带通信、资源调度、数据协作等策略,实现云、边缘和终端层之间的无缝协作,提升人工智能应用性能 [120][122][124][127][129] 可持续智能 - 提高设备级能效:采用AI驱动的数字预失真技术优化功率放大器线性度,提高功率效率和信号质量 [134][135] - 优化网络级能源效率:AI预测交通负载波动,动态调整网络资源,实现多维度节能策略,结合网络数字孪生技术进行离线节能预测 [137][138] 5G - AxAI推动新应用场景 差异化经验保证 - 利用人工智能技术动态调整网络资源分配,满足不同用户级别、服务类型、场景的差异化体验需求,通过网络感知、体验保证和体验评估技术提升用户满意度 [139] - 网络感知能识别数千个服务类别和超级应用内子服务,感知率超95%;经验保证采用多种关键技术,核心网络引入基于NWDAF的网络安全智能;经验评估制定全面QoE指标 [140][141] - 测试结果显示,无线网络部署保障策略后服务延迟降低,核心网络引入智能后采用GBR确保机制提升用户体验,服务保证过程有标志显示和体验报告反馈 [142][144][145] 新呼叫服务 - 多媒体大型模型、AI代理和DC技术推动通信行业向多模态、互动通信转变,中国移动推出5G新通话服务,完成网络建设,支持多种新通话服务场景 [149] - 点亮屏幕服务满足消费者情感表达需求,用户可设置虚拟形象、展示内容,企业可定制营销,运营商可公布知识,升级后植入AIGC自创作能力,超1500万用户订阅 [150][152][153] - 实时翻译与语音转文字服务在亚运会和全国推广,超500万用户订阅,实现无障碍沟通,新5G通话用户达4000万,DC交互通话行业生态初步建立 [154][155][156][158] - 人工智能代理升级原生通话体验,构建个人和企业服务入口,中国移动开展相关场景服务测试和试点 [159]
2024年多模态大模型(MLLMs)轻量化方法研究现状和展望报告
中移智库· 2024-12-20 16:25
多模态大语言模型概述 - 多模态大语言模型主要由三个核心模块组成:视觉编码器、预训练大语言模型、以及视觉-语言投影器[1] - 轻量化多模态大语言模型的优化措施主要集中在对上述三个模块的改进,并引入了视觉 token 压缩技术和高效的结构设计[1] 多模态大语言模型轻量化方法研究现状 三个核心模块优化 - 视觉-语言投影器:是连接视觉与文本桥梁,其核心功能是将视觉特征块映射至文本特征空间。针对此模块的轻量化,包括四种:一是基于注意力。如 BLIP2[7]引入了 Q-Former,一个轻量级的 Transformer,使用一组可学习的查询向量从冻结的视觉模型中提取视觉特征。二是基于 CNN。如 MobileVLMv2[8]提出的 LDPv2,通过使用逐点卷积层、平均池化和带有跳跃连接的 PEG 模块,LDPv2 减少了 99.8%的参数,在效率上取得了更好的表现。三是基于 Mamba。如 VL-Mamba[9]在其视觉-语言投影器中实现了 2D 视觉选择性扫描(VSS)技术,促进了多种学习方法的融合。四是混合结构。如卷积抽象器通过使用卷积结构高效地建模局部上下文,有助于将视觉特征抽象为任意平方数的视觉 token[15] - 专家混合模型:专家混合模型通过调节模型参数的总数来增强模型容量,同时保持激活参数不变,从而不会显著影响推理速度。MoE-LLaVA[12]提出了一种基于专家混合模型的稀疏多模态大语言模型框架,能够有效增加参数数量,而不影响计算效率[16] - 多尺度信息融合:利用多尺度图像信息对视觉特征提取至关重要。这种方法使模型能够捕捉较小尺度中的细粒度细节和较大尺度中的广阔背景。例如 Mini-Gemini 模型[11]包括两个编码器,一个用于高分辨率图像,另一个用于低分辨率视觉嵌入。它提出了块信息挖掘,通过低分辨率视觉嵌入作为查询,通过跨注意力从高分辨率候选中检索相关的视觉线索[18] 视觉 token 压缩 - 视觉 token 压缩旨在减少由大量 token 引起的计算量,当前已经成为多模态大语言模型轻量化的关键。通过以下几种关键技术来实现:视频特定方法:视频理解还需要处理大量帧,这可能会突破大语言模型的上下文窗口处理能力,带来巨大计算负担[2] - 多视图输入:为了利用低分辨率视觉编码器处理高分辨率图像,一种常见的方法是输入高分辨率图像的低分辨率全局视图,和通过分割高分辨率图像获得局部视图。例如,LLaVA-UHD[5]提出了一种图像模块化策略,将原始分辨率图像划分为更小的可变大小切片,以实现高效且可扩展的编码[30] 高效的结构 - 高效的结构是通过优化模型结构或算法设计,以更少的资源实现相近甚至更高的性能,是多模态大语言模型轻量化的关键探索方向。主要包括三个方向:专家混合模型(MoE)、Mamba 和推理加速[63] - 推理加速:在模型推理阶段,根据不同的任务特性,调整模型架构,加快推理速度。SPD[14]提出了通过仅使用语言模型进行推测解码,以提高推理效率,通过将语言模型作为推测性解码模型,跳过了图像 token 及其相关处理组件的需求[26] - Mamba: Mamba[21]是一种新型的高效序列建模方法,专为高效处理信息密集型数据(如语言建模)而设计。Cobra[13]将 Mamba 语言模型融入视觉模态,并探索多模态融合方案,开发了一种高效多模态 Mamba。实验显示,其性能与先进方法相当且速度更快,能克服视觉错觉和空间关系判断难题,在预测基准中性能媲美 LLaVA,但参数仅用 43%[48] 展望 - 轻量化的多模态大语言模型将赋予终端设备更高效、更智能且多模态的处理能力,使智能设备得以与现实世界无缝互动。特别在机器人领域,轻量化多模态大语言模型将极大提升机器人对环境理解的准确性,增强任务执行的效率,并促进人机之间更加自然流畅的交流与协作[50][3] - 轻量化的多模态大语言模型在处理多模态信息时面临挑战,通常仅能接受单一图像,这限制了能够处理更多元模态标记的复杂模型的进一步拓展。而这类复杂模型对于对于理解长视频和分析包含图像与文本混合的长篇文档等应用场景有着极为关键的价值,可以创造出更为多功能和强大的系统[70] - 未来,通过扩大高效多模态大语言模型的输入模态范围,以适应更多样化的输入类型,并增强其生成能力,将显著增强其多功能性,并拓宽其应用领域[70]
新型视频语义编码技术白皮书(2024年)
中移智库· 2024-12-16 15:55
报告行业投资评级 未提及 报告的核心观点 随着 5G、5G - A 和人工智能技术发展,视频信息量迅速膨胀,传统视频编码技术面临挑战,视频语义编码技术应运而生,其基于视频内容和语义特征编码,追求信号保真度、感知自然性和语义质量,有望突破传统方法性能瓶颈,成为助推视频产业高质量发展的新动能,未来在多方面有发展机遇和趋势[7][11][23]。 根据相关目录分别进行总结 视频编码技术总体发展态势 - 多媒体通信革新催生大量视频应用场景,视频编解码技术是产业重要一环,但现有技术压缩率提升跟不上视频信息量膨胀,新型视频数据和应用场景促使其迭代并多元化发展,需更高效智能的编码技术[11] - 多元视觉指标升级,超高清视频普及使存储传输压力大增,编码技术需满足高质量、低延迟等要求[12] - 人眼追求更沉浸体验,VR/AR 视频、自由视点视频涌现,催生大数据量视频高效编码和多视点视频数据去冗余编码等升级技术[15][16] - 视频编码需同时满足人类和机器视觉系统需求,面向多元机器视觉分析的编码技术需求迫切[17] - 视频编码应用广泛,新应用引发新需求,语义编码技术应运而生,有望为视频产业注入新活力[18][23] 视频编码技术发展概述 视频编码 - 国内外视频编码标准基于块的混合编码框架成为主流,如 MPEG - 1/2/4 等,但新一代标准虽提升编码性能,却增加编解码复杂度,压缩效率提升遇瓶颈[28][31] - 人工智能促使研究人员在图像视频编码领域引入神经网络,基于神经网络的视频编码技术方案分为混合神经网络编码和全神经网络编码,目前存在未深入分析网络特性、码流互通难等问题[32][34] - 视频语义编码衍生于传统和神经网络编码框架,可提升两种路线的编码效率[35] 基于语义通信的编码传输 - 语义通信旨在保证语义信息准确交互,通过 AI 提取相关信息编码传输以减少冗余,现有语义通信聚焦顶层架构设计,处于前沿探索阶段,较少针对视频编码,且难与现有视频编码框架兼容,依赖神经网络,计算资源消耗大[36][43] - 语义通信大框架涵盖视频语义编码传输,但视频语义编码有具体可落地技术方案,与语义通信有不同特点[45] 视频语义编码传输关键技术 视觉感知编码 - 基于人眼视觉系统特性去除视频视觉冗余,中山大学张云教授团队提出基于感知优化的视频编码框架[54] - JND 编码从人眼视觉引入恰可察觉失真技术去除冗余,从机器感知有恰可识别失真和机器满意率等概念和研究[55][56] - ROI 编码基于视觉注意确定感兴趣区域,视频 ROI 编码包含检测和编码步骤,除面向人眼视觉,还有面向机器视觉的技术,VR 视频编码沿用其思想节省码率[57][59][60] 生成式编码 - 生成对抗网络为突破极低码率下编码效率瓶颈开辟新途径,有直接用对抗损失引导全神经网络编码优化和生成驱动实现极低比特率编码两种技术路线[61][62] - 生成式编码在极低码率下有优越性,在多领域有研究潜力,未来研究方向包括压缩性、可扩展性等方面[63][66] 跨模态编码 - 常见跨模态编码将图像或视频冗余信息转变为文本描述特征,再重建图像,跨模态语义编码系统由四个子模块组成,通过优化比特率和失真来工作[67][70] 机器视觉编码 - 面向机器视觉的视频编码技术应运而生,主要技术思路是基于视频内容和语义特征编码,优化编码性能支持机器智能应用场景,技术方案包括兼容传统标准的优化和端到端压缩框架[71][72] - 机器视觉编码典型应用场景多,具备轻量等特点,未来 6G 通感一体化技术有望成为语义编码传输新方向[73] 编码数据传输 - 大视频时代流媒体业务需求提升,视频编码数据传输涉及媒体封装和传输,需根据语义特征扩展以满足更多需求[75] - 媒体封装采用容器格式,常见 TS、MP4、FLV 等,可增添语义信息提高传输处理效率[76][80] - 流媒体传输下层用通用以太网协议,上层根据应用场景和封装格式采用不同协议,人工智能发展下基于媒体语义的传输可能提升效率[81][85] 标准化进展及建议 AI 视频编码 - 各标准工作组探索基于深度学习的编码标准化,如 IEEE 1857.11、JPEG AI 等,但目前研究局限于静态自然图像,缺乏高质量开源框架,研制高效端到端视频编码技术是关键[96][99] VR 视频编码 - IEEE 1857.9 工作组推动沉浸式视觉内容编码工具标准化,MPEG 的 VVC/H.266 和 MIV 标准支持沉浸式内容编码,国内 AVS 工作组启动 VR 编码标准制定[100][101] 多视点视频编码 - 国际标准组织开展多视点视频技术研究和标准化制定,中国移动牵头提出 AVS3 多视角视频及 3D 立体视频档次需求建议并通过,增强国产编解码器竞争力[103][104] 面向机器的视频编码 - 理想编码需满足人类和机器视觉系统需求,国内外相关标准组织形成一系列标准,如 CDVS、CDVA 等,VCM 和 DCM 标准有不同特点和技术路线[107][110] 总结与展望 - AI 技术革新给视觉数据编码技术带来机遇,视频语义编码技术将在多方面发展,如延伸至 6DoF 视频、借助预训练多模态大模型提升效率等,还将促进视频传输技术优化和业务创新发展,其标准化研究将推动新兴视频业务落地[112]