MagicGUI大模型

搜索文档
直击WAIC2025|手机Agent竞赛升级:荣耀发布多模态感知大模型MagicGUI,从单智能体任务执行到多智能体协同
每日经济新闻· 2025-07-26 17:47
AI手机发展趋势 - AI手机不应仅满足于翻译、文档处理等简单功能,而应结合AI"智慧"与手机便捷特性拓展更广阔应用场景[1] - 主流手机厂商共识:语音助手将从"鸡肋时代"转向具备感知、推理、决策、操作能力的"轻量级智能体"[2] - 安卓阵营AI助手实用性显著领先苹果,荣耀、vivo、小米等已实现从聊天机器人到任务型智能体的进化[6] 荣耀MagicGUI大模型技术突破 - 荣耀发布70亿参数规模MagicGUI大模型并开源,支持跨应用协同完成任务(如打车场景多步操作)[1] - 模型实现从单智能体任务执行到多智能体协同升级,可调度设计、排版、支付等专项模块完成复杂指令[7] - 采用两阶段训练范式(CPT+RFT)提升屏幕感知与泛化能力,支持根据视觉反馈动态调整操作[9] 行业技术变革 - 交互主体从App转向Agent,GUI Agent技术通过多模态视觉模型实现任务自动化(如点击、输入等)[8] - 技术挑战包括应用多样性(Google Play达168万个应用)和界面频繁变动导致的执行不确定性[8] - 对比苹果Siri功能停滞,安卓厂商已实现点咖啡、订餐厅、发红包等深度任务集成[6] 厂商竞争格局 - 荣耀YOYO智能体通过MagicGUI实现多智能体协同,显著优于单智能体的任务局限性[7] - vivo"蓝心小V"、小米"超级小爱"等竞品同样具备复杂任务执行能力,但未实现多智能体调度[2][6] - 苹果在AI功能落地进度落后,国行iPhone 15Pro/16系列仍无法使用基础AI指令[6]
荣耀发布MagicGUI大模型并开源 加速构建AI终端生态
央广网· 2025-07-26 17:04
产品发布 - 公司在世界人工智能大会期间正式发布自研多模态感知大模型MagicGUI 参数规模达7B(70亿) 支撑底层AI智能体的多模态感知与自动执行规划能力 达到行业领先水平 [1] - MagicGUI是公司首个GUI开源大模型 面向全球软硬件开发者开源 旨在助力构建更繁荣的AI生态 [1] 技术创新 - 独创"继续预训练+强化微调"两阶段训练方案 在常用场景用机操控中准确率达91.5% 较行业同类顶级开源模型提升16.4% [3] - 创新性引入多样化多模态训练数据 构建高效数据采集与构造框架 优化数据配比与筛选方案 形成高质量训练数据集 [4] - 采用空间增强复合奖励函数和DF-GRPO强化学习算法 提升模型数据利用效率与泛化能力 在未经训练的新场景中保持稳定性能 [4] - 在移动端视觉定位、页面理解问答、单步操作、动作序列拆解执行4类任务中跑分全面领先 [4] 应用落地 - 折叠屏旗舰Magic V5首搭MagicGUI大模型 智能助手YOYO实现从单智能体任务执行到多智能体协同的跨越式升级 [6] - YOYO具备感知、推理、规划、反思、执行全链路能力 可拆解复杂任务、调度跨应用资源 实现"一语打车"等场景 [6][9] - 在出行场景中 YOYO可自主调度高德、滴滴等应用 完成打开App、修改地址、选择车型、下发或取消订单等操作 [9] - 模型能根据屏幕视觉信息边思考边行动 依据页面反馈精准推理下一步操作 遇到指令错误可主动停止并切换人工接管 [9] 生态建设 - 公司作为首批单位与中国电子技术标准化研究院、阿里、百度等百余家企业发布《智能体协议共建共享联合倡议》 [10] - 联合20余家企业推动终端智能化分级指南标准落地 牵头10余个AI终端标准立项及起草 [10] - 与中国信息通信研究院、阿里、百度等发布《人工智能安全承诺》实践披露成果 涵盖6大核心内容和20项关键安全标签 [11] - 联合行业伙伴发起"智能体创新推进计划" 围绕技术攻关、应用拓展、生态建设推动智能体技术产业化落地 [11] 开放合作 - 将模型技术报告、参数配置、评估数据等核心要素向公众开放 旨在打破AI技术壁垒 推动行业技术共享与创新 [12] - 自2023年起与复旦大学共建自然语言处理大模型校企联合实验室 在自然语言理解、多模态大模型等领域深度合作 [13] - MagicGUI大模型是校企合作成果 通过联合设计数据生成框架、优化训练方案等实现终端场景领先的"理解-规划-操作"一体化能力 [13] - 模型与相关测试数据将于近期上线开源平台 公司期待与各界伙伴携手加速AI终端生态普惠化进程 [14]