MagicGUI大模型

搜索文档
荣耀阿尔法战略深化,端侧AI技术获国际语音顶会认可
观察者网· 2025-08-23 23:00
学术认可与技术突破 - 公司两篇聚焦端侧多语种任务的论文入选国际音频领域顶级会议INTERSPEECH 2025录用论文并作技术发表[1][2] - 论文针对移动设备有限算力与存储资源下实现媲美云端的多语种实时语音识别与通话翻译体验的核心难题[2] - 研发团队与上海交通大学联合攻关提出独创性解决方案并成功转化为可落地的端侧多语种通话翻译功能[5] 技术方案与性能表现 - 通过创新注意力机制与决策策略实现流式语音识别能力 打破传统延迟瓶颈 做到边说边识别[6] - 采用投机采样推理模块与主模型协同工作 高效预测后续词汇 提升推理速度[6] - 技术方案将传统方案3-4GB内存占用压缩至800MB 节省75%存储空间 翻译准确率提升16% 推理速度提升38%[7] 产品应用与行业地位 - 构建全球首个端侧语音大模型 嵌入中英德法西意6个语种包于0.8B参数量模型中 支持离线多语种互译[7] - 纯端侧实现媲美云端的通话翻译体验 从源头保障隐私安全 解决云端方案隐私泄露风险与端侧方案实时性准确性难以兼顾的行业困境[6][7] 战略布局与技术体系 - 端侧AI语音技术突破是公司长期深耕AI战略的必然结果 投入具有持续性与前瞻性[9] - 此前发布自研多模态感知大模型MagicGUI 以7B参数规模支撑底层AI智能体的多模态感知与自动执行规划能力 达到行业领先水平[9]
人工智能加速迈向产业化
深圳商报· 2025-07-29 00:49
2025世界人工智能大会概况 - 大会主题为"智能时代 同球共济",包含会议论坛、展览展示、赛事评奖、应用体验、创新孵化五大板块 [2] - 展览面积首次突破7万平方米,吸引800余家企业参展,展示3000余项前沿展品及100余款"全球首发""中国首秀"新品 [2] - 全球人工智能创新治理中心在开幕式成立,发布《中国智·惠世界(2025)》案例集、《国际人工智能开源合作倡议》、《人工智能全球治理行动计划》等成果 [2] 参展企业核心技术成果 阿里巴巴 - 首款自研AI眼镜"夸克AI眼镜"首次完整亮相,具备通话、音乐、翻译、会议纪要等功能,计划年内发布 [3] 百度 - 三大AI核心技术参展:萝卜快跑、飞桨深度学习平台、百度智算集群 [3] - 展出秒哒、百度文库、百度网盘、百舸AI异构计算平台、百度智能云千帆大模型平台、文心一言、文心快码等产品 [3] 科大讯飞 - 承担大会多场学术论坛同传工作,中英同传响应最快2秒 [4] - 展示语音同传大模型、星火X1大模型及AI+教育/城市/企业应用成果 [4] 华为 - 首次线下展出昇腾384超节点,展示昇腾算力底座创新能力及千行万业实践案例 [5] 腾讯 - "AI全家桶"(混元多模态AI模型矩阵)集中亮相,包含智能体开发平台、具身智能开放平台Tairos等五大生产力平台 [5] 荣耀 - 发布自研多模态感知大模型MagicGUI并宣布开源 [5] 深圳硬科技企业 - 乐聚机器人、深元人工智能、道通科技、智平方科技等企业展示具身智能等核心技术产品 [5]
直击WAIC2025|手机Agent竞赛升级:荣耀发布多模态感知大模型MagicGUI,从单智能体任务执行到多智能体协同
每日经济新闻· 2025-07-26 17:47
AI手机发展趋势 - AI手机不应仅满足于翻译、文档处理等简单功能,而应结合AI"智慧"与手机便捷特性拓展更广阔应用场景[1] - 主流手机厂商共识:语音助手将从"鸡肋时代"转向具备感知、推理、决策、操作能力的"轻量级智能体"[2] - 安卓阵营AI助手实用性显著领先苹果,荣耀、vivo、小米等已实现从聊天机器人到任务型智能体的进化[6] 荣耀MagicGUI大模型技术突破 - 荣耀发布70亿参数规模MagicGUI大模型并开源,支持跨应用协同完成任务(如打车场景多步操作)[1] - 模型实现从单智能体任务执行到多智能体协同升级,可调度设计、排版、支付等专项模块完成复杂指令[7] - 采用两阶段训练范式(CPT+RFT)提升屏幕感知与泛化能力,支持根据视觉反馈动态调整操作[9] 行业技术变革 - 交互主体从App转向Agent,GUI Agent技术通过多模态视觉模型实现任务自动化(如点击、输入等)[8] - 技术挑战包括应用多样性(Google Play达168万个应用)和界面频繁变动导致的执行不确定性[8] - 对比苹果Siri功能停滞,安卓厂商已实现点咖啡、订餐厅、发红包等深度任务集成[6] 厂商竞争格局 - 荣耀YOYO智能体通过MagicGUI实现多智能体协同,显著优于单智能体的任务局限性[7] - vivo"蓝心小V"、小米"超级小爱"等竞品同样具备复杂任务执行能力,但未实现多智能体调度[2][6] - 苹果在AI功能落地进度落后,国行iPhone 15Pro/16系列仍无法使用基础AI指令[6]
荣耀发布MagicGUI大模型并开源 加速构建AI终端生态
央广网· 2025-07-26 17:04
产品发布 - 公司在世界人工智能大会期间正式发布自研多模态感知大模型MagicGUI 参数规模达7B(70亿) 支撑底层AI智能体的多模态感知与自动执行规划能力 达到行业领先水平 [1] - MagicGUI是公司首个GUI开源大模型 面向全球软硬件开发者开源 旨在助力构建更繁荣的AI生态 [1] 技术创新 - 独创"继续预训练+强化微调"两阶段训练方案 在常用场景用机操控中准确率达91.5% 较行业同类顶级开源模型提升16.4% [3] - 创新性引入多样化多模态训练数据 构建高效数据采集与构造框架 优化数据配比与筛选方案 形成高质量训练数据集 [4] - 采用空间增强复合奖励函数和DF-GRPO强化学习算法 提升模型数据利用效率与泛化能力 在未经训练的新场景中保持稳定性能 [4] - 在移动端视觉定位、页面理解问答、单步操作、动作序列拆解执行4类任务中跑分全面领先 [4] 应用落地 - 折叠屏旗舰Magic V5首搭MagicGUI大模型 智能助手YOYO实现从单智能体任务执行到多智能体协同的跨越式升级 [6] - YOYO具备感知、推理、规划、反思、执行全链路能力 可拆解复杂任务、调度跨应用资源 实现"一语打车"等场景 [6][9] - 在出行场景中 YOYO可自主调度高德、滴滴等应用 完成打开App、修改地址、选择车型、下发或取消订单等操作 [9] - 模型能根据屏幕视觉信息边思考边行动 依据页面反馈精准推理下一步操作 遇到指令错误可主动停止并切换人工接管 [9] 生态建设 - 公司作为首批单位与中国电子技术标准化研究院、阿里、百度等百余家企业发布《智能体协议共建共享联合倡议》 [10] - 联合20余家企业推动终端智能化分级指南标准落地 牵头10余个AI终端标准立项及起草 [10] - 与中国信息通信研究院、阿里、百度等发布《人工智能安全承诺》实践披露成果 涵盖6大核心内容和20项关键安全标签 [11] - 联合行业伙伴发起"智能体创新推进计划" 围绕技术攻关、应用拓展、生态建设推动智能体技术产业化落地 [11] 开放合作 - 将模型技术报告、参数配置、评估数据等核心要素向公众开放 旨在打破AI技术壁垒 推动行业技术共享与创新 [12] - 自2023年起与复旦大学共建自然语言处理大模型校企联合实验室 在自然语言理解、多模态大模型等领域深度合作 [13] - MagicGUI大模型是校企合作成果 通过联合设计数据生成框架、优化训练方案等实现终端场景领先的"理解-规划-操作"一体化能力 [13] - 模型与相关测试数据将于近期上线开源平台 公司期待与各界伙伴携手加速AI终端生态普惠化进程 [14]