Workflow
API范式
icon
搜索文档
普京年度记者会:愿谈判结束俄乌冲突;“数十万份”爱泼斯坦案文件将公布;美军大规模空袭叙利亚境内“伊斯兰国”目标 | 一周国际财经
每日经济新闻· 2025-12-21 00:40
AI手机技术路线分野 - 字节跳动联合中兴努比亚推出“豆包手机”nubia M153,并正与vivo、联想、传音等厂商推进AI手机合作,其技术核心是GUI(图形用户界面)多模态大模型与系统级权限深度绑定,使AI助手能通过读屏、模拟点击等方式操作各款App,完成跨应用复杂任务[3][5][7] - 以苹果、谷歌为主导的海外阵营坚持API(应用程序接口)标准化路线,通过构建底层框架与标准化接口让AI调用应用功能,此模式稳定且保障隐私,但需要应用开发者主动配合,生态构建周期更长,进展相对迟缓[3][5][12][13] - 市场调查机构Canalys报告显示,全球AI手机出货占比将从2024年的16%升至2028年的54%,2023年至2028年的年复合增长率预计达到63%[20] GUI路线的影响与挑战 - GUI路线让AI助手获得系统级操作权限,直接“接管”屏幕,引发了微信、淘宝、各大银行App等主流应用的集体“自卫”,表现为提示环境异常、频繁人机验证或拒绝在录屏状态下运行[5][10] - 智谱AI宣布开源自主任务模型AutoGLM,同样基于GUI范式,但此前因未获厂商系统级权限支持,只能依赖安卓无障碍模式运行,该模式存在操作时会完全占据前台窗口的短板[10] - 手机厂商对开放系统级权限给AI公司存在顾虑,包括用户对隐私泄露的担忧,以及希望将系统级AI入口掌握在自己手中而非沦为技术通道,这解释了字节跳动首个合作伙伴是中兴努比亚而非头部厂商的原因[11] API路线的布局与策略 - 苹果的Apple Intelligence集成OpenAI的ChatGPT,并正计划采用谷歌的Gemini模型为Siri升级提供技术支撑,但其坚持通过API向Siri提供屏幕内容,而非直接操控界面,被评价为“最保守的大玩家”[13][17] - 谷歌走端云协同路线,其Gemini大模型具备强大端云协同能力,但手机端未采用GUI多模态操作,推出的AppFunctions API旨在解决生态内碎片化问题,实现系统对应用能力的统一发现与索引[20] - 谷歌和苹果均倾向于推动应用开发者主动接入标准化接口,实现AI助手跨应用协作,目前两家公司尚未在手机上推出GUI多模态操作相关功能,仍处于技术储备和观望市场反馈阶段[20] AI手机生态的利益格局重构 - GUI Agent将用户操作截留在手机系统层面,用户无需打开App就能使用其核心功能,这可能使App上的广告投放失去核心价值,冲击互联网行业的重要营收来源,这是超级App集体“自卫”的核心焦虑[21] - 未来AI手机生态可能呈现“分层治理”格局,微信、淘宝等超级App的长期最优解是自研AI Agent,形成Agent to Agent(A2A)协作模式,以保护自身“领地”并融入生态[22] - 对于缺乏自研能力的中长尾App,大概率将“被系统级AI直接控制”,它们可能通过接受系统级AI操作来换取新生态的流量分发,手机厂商或会制定标准化利益分配条款[23] 主要科技公司与AI动态 - OpenAI首席执行官山姆·阿尔特曼披露其产品周活跃用户数量已接近9亿,公司计划在2026年第一季度推出一款性能超越GPT-5.2的新模型,并预计在2028至2029年实现盈利[24][26] - 软银集团正通过一系列筹款方案,力争在年底前完成对OpenAI的225亿美元注资承诺,为此已卖掉持有的全部58亿美元英伟达股份,并减持了48亿美元的T-Mobile股份[27] - 微软AI主管穆斯塔法·苏莱曼表示,未来五到十年在AI前沿竞争将耗资数千亿美元,由于成本高昂,初创公司很难与大型科技公司竞争,xAI创始人埃隆·马斯克则预计其公司有望在2026年实现与人类智能相当的通用人工智能(AGI)[36][38] 金融市场与公司表现 - 马斯克确认特斯拉已开始在无安全员情况下测试自动驾驶出租车(Robotaxi),特斯拉市值增至1.6万亿美元,其个人财富增长近40%,达6440亿美元[40] - 美光科技股价上涨,此前公司对本季度营收给出了强劲指引,甲骨文股价上涨6.6%,因消息称TikTok已与包括甲骨文在内的三家投资者签署协议,将成立新的TikTok美国合资公司[40][41] - 日本央行加息25个基点至0.75%,创30年新高,但日元重挫1.4%,美元兑日元最高触及157.76,贵金属中现货白银本周累涨8.4%,报67.166美元/盎司,盘中刷新历史高位[41]
AI手机路线大分野:当豆包试图“接管屏幕” 苹果和谷歌为何选择“慢半拍”?
每日经济新闻· 2025-12-20 13:47
AI手机技术路线分野 - AI手机技术路线已形成鲜明分野,以字节跳动“豆包手机”为代表的阵营采用GUI技术路线,而苹果、谷歌主导的阵营则坚持API标准化路线[1] GUI技术路线阵营 - 字节跳动联合中兴努比亚推出“豆包手机”nubia M153,其AI助手通过获得系统级权限,利用GUI技术模拟人类点击、滑动,实现跨应用操作,如订外卖、发微信、比价购物[4][6] - 字节跳动正与vivo、联想、传音等厂商推进AI手机合作[1] - 智谱AI宣布开源自主任务模型AutoGLM,同样基于GUI范式,通过视觉大模型实现手机自动化操作[6] - GUI路线的优势在于通用性强,不依赖App开发者配合,理论上能操作所有App;缺点包括隐私保护压力大、效率较低且易出错[8] API技术路线阵营 - 以苹果Apple Intelligence和谷歌Gemini为代表的API路线,通过构建底层框架与标准化接口,让AI通过规范“调用能力”完成任务[8][9] - API路线的优点是稳定、保障隐私且效率高;缺点是需要App开发者主动配合,生态构建周期更长[9] - 苹果Apple Intelligence集成OpenAI的ChatGPT,并计划采用谷歌Gemini模型为Siri升级提供技术支撑[13] - 谷歌推出AppFunctions API,旨在解决生态内碎片化问题,实现系统对应用能力的统一发现与索引[13] - 苹果和谷歌均倾向于推动应用开发者主动接入标准化接口,尚未在手机上推出GUI多模态操作功能,仍处于技术储备阶段[13] 技术路线博弈与行业影响 - GUI路线引发主流App“自卫反击”,如微信提示环境异常、淘宝频繁弹出人机验证、银行App拒绝在录屏状态下运行[6] - 超级App的焦虑在于,AI助手直接介入交易可能影响其商业模式,且GUI Agent将用户操作截留在系统层面,可能使App的广告投放失去核心价值[14][15] - 手机厂商对开放系统级权限给AI公司存在顾虑,包括用户隐私担忧以及不希望沦为AI公司的技术通道,这解释了为何字节跳动的首个合作伙伴是中兴努比亚而非头部厂商[7] 未来生态格局展望 - 未来AI手机生态可能呈现“分层治理”格局:超级App可能通过自研AI Agent形成A2A协作模式;而中长尾App因缺乏自研能力,可能“被系统级AI直接控制”,接受新的流量分发规则[16] - 市场机构Canalys报告显示,全球AI手机出货占比预计将从2024年的16%升至2028年的54%,2023年至2028年的年复合增长率预计达63%[13] - 行业变革将推动生态从“流量争夺”走向“价值共创”,最终形成手机厂商主导,超级App、长尾应用和大模型厂商各司其职的新格局[16]
手机Agent的两种范式:API与GUI
国盛证券· 2025-12-07 16:24
行业投资评级 - 增持(维持)[4] 报告核心观点 - 手机Agent正推动移动交互范式从GUI(图形用户界面)向Agentic(智能体)交互跃迁,用户可通过自然语言指令完成任务,无需在不同App间手动切换[1][12] - 实现手机Agent有两条主要技术路线:API范式和GUI范式,两者各有优劣,未来可能走向融合而非单选[1][24][32] - API范式(以苹果Apple Intelligence为代表)通过标准化语义接口调用App功能,强调生态整合与隐私安全[1][12][16] - GUI范式(以智谱AutoGLM、字节豆包助手为代表)利用多模态模型视觉理解屏幕并模拟点击,通用性高但面临可靠性与隐私挑战[2][13][19] - 手机Agent的发展将引发手机厂商、大模型厂商和应用厂商之间的三方博弈,重塑移动互联网流量与商业生态[3][26] 手机Agent的两种范式 API范式 - 核心是建立标准化的语义接口,需要App开发者主动适配并暴露功能,Agent通过结构化API指挥App执行任务[1][12] - 典型代表是苹果的Apple Intelligence及其App Intents框架,旨在构建“语义互联网”[12][16] - 苹果通过提供多个“助手架构”作为标准化模板,以解决不同开发者对同一功能定义差异的问题[17] - 谷歌在安卓生态中也进行了API尝试,例如推出基于Gemini Nano模型的设备生成式AI API和Prompt API[18] GUI范式 - 核心是利用多模态模型理解屏幕UI元素,并通过系统辅助服务模拟手指的点击与滑动来操作App,不依赖开发者配合[2][13] - 典型代表包括智谱AI的AutoGLM和字节跳动的豆包手机助手[2][13] - 智谱AutoGLM 2.0已面向公众开放,可操作抖音、美团等40余款应用完成点餐、订票等任务[21] - 字节豆包手机助手是与中兴手机合作的系统级服务,通过长按侧边键唤醒,可直接获取系统底层屏幕缓冲区数据以降低延迟[22] - 谷歌Gemini 3 Pro模型在多模态理解,特别是屏幕理解任务上表现突出,在ScreenShot-Pro评测基准得分72.7%,大幅领先Claude Sonnet 4.5的36.2%和GPT 5.1的3.5%[19] 两种范式核心差异对比 - **通用性**:GUI Agent通用性显著更高,是其核心优势,不需要App开发者适配,理论上人类能用的App它都能用,解决了长尾应用覆盖问题[2][24][25] - **可靠性**:API Agent可靠性更高,只要API稳定即可保证任务完成;GUI Agent可靠性较低,原因包括模型对复杂界面识别能力未达100%(如Gemini 3 Pro得分72.7%)、多步骤操作导致失败率更高、UI改版时易失效[2][24][25] - **性能**:API Agent高效,可单次调用完成复杂任务;GUI Agent低效,完成简单任务可能需要多次截图分析和视觉推理,算力消耗大,且截图上传云端的数据量和延迟均高于API传输参数[2][24][25] - **隐私风险**:API Agent隐私风险低,应用端可进行精细的权限管理;GUI Agent隐私风险高,需要读取屏幕权限,可能暴露聊天记录、密码等敏感信息[2][24][25] - **商业阻力**:GUI Agent商业阻力极大,不经过应用厂商授权,易受到技术和法律手段封杀,如豆包手机助手操作微信时曾引发账号封禁和银行App强弹窗提醒[2][23][24][25] 商业形态演变与三方博弈 - **手机厂商**:角色从硬件售卖转向获取流量入口价值,操作系统成为用户意图的第一接收者,可能催生类似搜索广告的新竞价模式[3][26][27] - **大模型厂商**:愿景是打造跨越操作系统的超级助理App(如ChatGPT、豆包),将其他App变为自己的后端工具,并积极寻求与二线手机厂商合作(如字节与中兴)[3][26][28][30] - **应用厂商**:面临合作与防御的两难选择,一方面可能开放部分接口,另一方面为保护自身利益可能拒绝或限制Agent接入[3][26][31] - **法律与授权边界**:AI助手作为“用户授权的代理人”与平台权益之间存在法律争议,可能需要双重或多重授权[31] - **App自身Agent化**:微信明确表示最终会推出AI智能体,淘宝已通过“问问”功能尝试在App内实现自然语言导购[3][31][32] 未来展望与融合路径 - 手机Agent的发展不会是API或GUI的单选题,而是两者融合[3][32] - 对于高价值、涉及敏感数据的操作(如支付、通讯),API Agent因准确度高和隐私保护更优而更适用[3][32] - 对于只读、信息查询类需求以及API未覆盖的应用,GUI Agent通过视觉理解的方式运行更灵活通用[6][32] - 为解决GUI Agent的延迟和隐私问题,未来手机处理器预计将进一步优化视觉模型的端侧推理能力,使识别和决策在本地完成,无需上传云端[6][32] 建议关注的领域与公司 - **GUI Agent相关**:字节跳动、谷歌、阿里巴巴、中兴通讯[7][33] - **API Agent相关**:腾讯控股、阿里巴巴、谷歌[7][33] - **算力相关**:寒武纪、海光信息、中际旭创、中科曙光、浪潮信息等[7][33] - **其他Agent相关**:包括第四范式、360、金蝶国际、科大讯飞、恒生电子等[8][34] - **自动驾驶相关**:江淮汽车、赛力斯、小鹏汽车、理想汽车、地平线等[8][34] - **军工AI相关**:拓尔思、能科科技、普天科技、中科星图等[8][34]