Workflow
GUI Agent
icon
搜索文档
小米集团:近期豆包 AI 智能手机助手发布后的观点
2025-12-05 14:35
行业与公司 * 行业涉及智能手机与人工智能AI代理领域 公司重点关注小米集团[1][7][10][11][22] * 报告由高盛Goldman Sachs发布 涵盖对小米公司的投资评级与财务预测[23][25][33] 核心观点与论据 AI智能手机助手发展动态 * 字节跳动于12月1日发布了豆包AI智能手机助手的预览版 该系统级图形用户界面GUI代理集成豆包大模型 具备视觉屏幕内容解读和执行跨应用多步骤任务的能力[1] * 豆包AI助手采用混合处理模式 结合端侧AI用于实时任务和云侧AI用于复杂决策 并具备多模态能力[7] * 除字节跳动外 StepFun等AI初创公司也专注于硬件AI助手 并在11月底发布了首个完全开源的GUI代理GELab-Zero 其GELab-Zero-4B-preview模型在多项GUI基准测试中达到SOTA水平[2][8] * 硬件AI助手在豆包大模型上生成巨大流量 5月日均生成1.3万亿tokens 占豆包总token消耗的8%[7] 行业竞争格局与挑战 * 中国智能手机市场集中度高 前六大厂商占据90%以上的出货份额 新进入者市场空间有限[10] * AI与消费电子终端融合趋势持续 主要中国智能手机品牌年内已在操作系统升级中嵌入原生AI助手[10] * AI助手进一步集成面临三大挑战:主流手机厂商的系统级操作权限和内存能力优势 以及跨应用接口连通性问题[9] 小米公司的AI战略与进展 * 小米积极布局AI 研发端侧和云侧大模型 2025年AI研发投入预计超过70亿元人民币 占其总研发费用320亿元人民币的22%[11] * 公司已发布多个专业大模型 涵盖视觉、音频、语音等领域 并于11月21日新推出跨具身基础模型MiMo-Embodied[11][21] * 小米的AI代理"超级小爱同学"是中国市场月活跃用户数排名前三的原生AI助手之一 在小米智能手机用户中的渗透率达到71%[11][19] * "超级小爱同学"具备多场景能力 包括社交媒体互动、电商购物、生产力服务以及本地信息记忆[11] * 小米拥有全球最大规模的互联AIoT设备生态 截至2025年第三季度连接设备数约10亿台[11] 其他重要内容 投资观点与财务数据 * 高盛对小米给出"买入"评级 12个月目标股价为53.5港元 相较当前价格有33%上行空间[22][23][25] * 看好小米基于"人车家全生态"战略的长期生态系统扩张 预计2024-2027年营收和每股收益复合年增长率分别为24%和28%[22] * 财务预测显示 公司2025年预期营收为4694.089亿元人民币 每股收益为1.60元人民币[25] 市场数据对比 * 与中国智能手机市场高度集中相比 中国新能源汽车市场更为分散 前14大厂商份额总和为89% 为新进入者提供了更多机会[10][16][17] * 中国智能音箱市场也呈现高集中度 小米份额从2019年的28%扩大至2025年的45%以上[14][15]
告别GUI Agent工程基建噩梦:阶跃开源4B Agent模型,跑通所有安卓设备,手搓党一键部署
量子位· 2025-11-30 14:45
公司核心产品发布 - 阶跃星辰开源了名为GELab-Zero的GUI Agent模型及其完整配套基础设施,支持一键部署[1] - 该产品包含三个主要部分:一个能在本地运行的GUI Agent模型(GELab-Zero-4B-preview)、一套即插即用的完整推理工程基建、以及基于真实业务场景的自建评测标准AndroidDaily[14] 模型性能与优势 - 其4B版本的GUI Agent模型在手机端、电脑端等多个GUI榜单上全面刷新同尺寸模型性能纪录,取得SOTA成绩[2] - 该4B预览版模型在多项开源基准测试中超越其他主流模型,拿下同尺寸SOTA,其表现甚至超越了参数量更大的GUI-Owl-32B等模型,性能更优且更易部署[11][13] - GUI Agent基于视觉理解即可适配几乎所有App,无需厂商额外改造,接入成本极低[4] 产品能力与场景应用 - 模型能够很好地执行复杂任务和模糊指令,可以准确、流畅地执行涉及多步骤、多主体、重复操作的任务,也能对偏笼统和主观性的指令进行自主拆解并确定执行路径[24] - 示例场景显示,模型能在外卖平台完成同时采购跨品类、不同规格和数量商品的复杂任务,也能在企业福利APP中领取餐券,展示了其在国民级APP和小众平台上的任务泛化能力[17][18][19] - 对于模糊指令,如“找个周末能带孩子去玩的地方”,模型能自主搜索、判断衡量标准并为用户推荐地点及提炼亮点[22][23][24] 技术架构与基础设施 - 针对GUI智能体构建了一整套完整的技术架构体系,可以一键拉起获得类似开源GUI Agent MCP的体验[25] - 具体能力包括:支持4B模型在消费级硬件上运行的轻量级本地推理、提供统一部署流水线的一键任务启动、可分发到多台手机并记录交互轨迹的多设备任务分发、以及涵盖ReAct闭环、多智能体协作和定时任务等多种工作模式[26] - 这套基础设施旨在降低开发与使用门槛,让开发者专注于创造价值,而非重复搭建底层设施,以推动移动端Agent真正规模化[7][30] 评测基准创新 - 公司同步开源了基于真实业务场景的自建评测标准AndroidDaily,以期推动GUI领域模型评测向消费级、规模化应用发展[5] - AndroidDaily是一个面向真实世界、动态演进的多维基准体系,聚焦现代生活六大核心维度:饮食、出行、购物、居住、信息消费、娱乐,并优先选择高频使用、日活排名靠前的代表性主流应用进行测试,高度还原真实任务执行流程[33] - 该基准采用静态评测和端到端评测双轨评估体系,其中静态测试包含3146个actions评估数值准确率,端到端测试包含235个任务以整体任务成功率作为评价指标,能真实反映智能体在复杂环境中的综合能力[35][37][38]
聚焦手机AI“超级入口”,中兴Nebula小模型让手机秒变“小秘”?
量子位· 2025-11-04 13:06
行业趋势与竞争格局 - 移动智能技术迭代推动手机端AI"超级入口"成为行业竞争新焦点,GUI Agent技术具备重塑流量分发格局的潜力,催生千亿级市场机遇[1] - 苹果、华为、字节跳动、美团、智谱AI等多家企业已积极布局该赛道,行业进入快速发展阶段[1] - 美团于2025年9月14日率先推出首个AI Agent,支持平台内"一句话点餐",标志着技术从研发走向实用化[1] 中兴通讯技术表现与商业化进展 - 在2025年10月17日SuperCLUE发布的AgentCLUE-mobile手机GUI Agent(离线)基准测评中,中兴通讯Nebula-GUI模型以7B参数量获得总榜银牌,总分84.38分,UI元素定位得分93.17分[1][2] - 该模型在自动点餐、订票等复杂任务中,准确率与操作速度远超业界其他模型,具备手机端侧部署落地能力[1] - Nebula-GUI的"一句话订票"、"一句话拍照"功能已在中兴终端努比亚Z70 Ultra、Z80 Ultra及红魔新品手机商用[3] - 截至当前,该模型已覆盖30余款主流APP,常用场景平均准确率超90%,未来计划进一步覆盖手机绝大多数APP与使用场景,并新增购物比价、旅游出行等场景级服务[3] 核心技术优势:数据制备系统 - 中兴开发了一套完整的端到端数据制备系统,包括数据标注工具、自动化数据PIPELINE、自动化轨迹数据生成系统,显著提升数据标注效率与质量[8] - 基于该系统生成的数据占训练数据的90%,整体覆盖出行、社交、生活服务等多元场景下的主流APP[8] - 通过引入GUI数据标注工具,数据标注效率实现了3倍提升,解决了中文GUI数据稀缺(公开英文数据集达百万级,中文数据仅数千组)、标注粒度粗、跨APP操作复杂任务轨迹数据不足等行业难题[9][12] 模型训练与优化方法论 - 公司通过构建VLA(屏幕截图+操作指令+执行动作)数据对,对模型进行系统性监督微调,使通用多模态模型进化为具备"感知-理解-执行-规划-纠错"能力的GUI操作智能体[22] - 自主构建了百万级规模的中文GUI数据集,覆盖数十款主流中文APP及数百种高频交互场景,同时整合了数百万条以英文为主的GUI样本,显著提升模型基础感知与语义理解能力[25][26] - 通过大量指令数据和精确思维链引导,模型单步操作平均准确率超过95%,部分简单指令操作达到99%准确率[31] - 引入双层强化学习范式,通过离线步骤级连续奖励与在线任务级强化的协同训练,设计了基于目标控件边界框的自适应空间感知连续奖励函数、基于概率模型的推理质量评估奖励及逻辑一致性奖励,提升模型决策效率与泛化能力[43][46][48]