API范式 - 财报，业绩电话会，研报，新闻

API范式

搜索文档

普京年度记者会：愿谈判结束俄乌冲突；“数十万份”爱泼斯坦案文件将公布；美军大规模空袭叙利亚境内“伊斯兰国”目标 | 一周国际财经

每日经济新闻· 2025-12-21 00:40

AI手机技术路线分野 - 字节跳动联合中兴努比亚推出“豆包手机”nubia M153，并正与vivo、联想、传音等厂商推进AI手机合作，其技术核心是GUI（图形用户界面）多模态大模型与系统级权限深度绑定，使AI助手能通过读屏、模拟点击等方式操作各款App，完成跨应用复杂任务[3][5][7] - 以苹果、谷歌为主导的海外阵营坚持API（应用程序接口）标准化路线，通过构建底层框架与标准化接口让AI调用应用功能，此模式稳定且保障隐私，但需要应用开发者主动配合，生态构建周期更长，进展相对迟缓[3][5][12][13] - 市场调查机构Canalys报告显示，全球AI手机出货占比将从2024年的16%升至2028年的54%，2023年至2028年的年复合增长率预计达到63%[20] GUI路线的影响与挑战 - GUI路线让AI助手获得系统级操作权限，直接“接管”屏幕，引发了微信、淘宝、各大银行App等主流应用的集体“自卫”，表现为提示环境异常、频繁人机验证或拒绝在录屏状态下运行[5][10] - 智谱AI宣布开源自主任务模型AutoGLM，同样基于GUI范式，但此前因未获厂商系统级权限支持，只能依赖安卓无障碍模式运行，该模式存在操作时会完全占据前台窗口的短板[10] - 手机厂商对开放系统级权限给AI公司存在顾虑，包括用户对隐私泄露的担忧，以及希望将系统级AI入口掌握在自己手中而非沦为技术通道，这解释了字节跳动首个合作伙伴是中兴努比亚而非头部厂商的原因[11] API路线的布局与策略 - 苹果的Apple Intelligence集成OpenAI的ChatGPT，并正计划采用谷歌的Gemini模型为Siri升级提供技术支撑，但其坚持通过API向Siri提供屏幕内容，而非直接操控界面，被评价为“最保守的大玩家”[13][17] - 谷歌走端云协同路线，其Gemini大模型具备强大端云协同能力，但手机端未采用GUI多模态操作，推出的AppFunctions API旨在解决生态内碎片化问题，实现系统对应用能力的统一发现与索引[20] - 谷歌和苹果均倾向于推动应用开发者主动接入标准化接口，实现AI助手跨应用协作，目前两家公司尚未在手机上推出GUI多模态操作相关功能，仍处于技术储备和观望市场反馈阶段[20] AI手机生态的利益格局重构 - GUI Agent将用户操作截留在手机系统层面，用户无需打开App就能使用其核心功能，这可能使App上的广告投放失去核心价值，冲击互联网行业的重要营收来源，这是超级App集体“自卫”的核心焦虑[21] - 未来AI手机生态可能呈现“分层治理”格局，微信、淘宝等超级App的长期最优解是自研AI Agent，形成Agent to Agent（A2A）协作模式，以保护自身“领地”并融入生态[22] - 对于缺乏自研能力的中长尾App，大概率将“被系统级AI直接控制”，它们可能通过接受系统级AI操作来换取新生态的流量分发，手机厂商或会制定标准化利益分配条款[23] 主要科技公司与AI动态 - OpenAI首席执行官山姆·阿尔特曼披露其产品周活跃用户数量已接近9亿，公司计划在2026年第一季度推出一款性能超越GPT-5.2的新模型，并预计在2028至2029年实现盈利[24][26] - 软银集团正通过一系列筹款方案，力争在年底前完成对OpenAI的225亿美元注资承诺，为此已卖掉持有的全部58亿美元英伟达股份，并减持了48亿美元的T-Mobile股份[27] - 微软AI主管穆斯塔法·苏莱曼表示，未来五到十年在AI前沿竞争将耗资数千亿美元，由于成本高昂，初创公司很难与大型科技公司竞争，xAI创始人埃隆·马斯克则预计其公司有望在2026年实现与人类智能相当的通用人工智能（AGI）[36][38] 金融市场与公司表现 - 马斯克确认特斯拉已开始在无安全员情况下测试自动驾驶出租车（Robotaxi），特斯拉市值增至1.6万亿美元，其个人财富增长近40%，达6440亿美元[40] - 美光科技股价上涨，此前公司对本季度营收给出了强劲指引，甲骨文股价上涨6.6%，因消息称TikTok已与包括甲骨文在内的三家投资者签署协议，将成立新的TikTok美国合资公司[40][41] - 日本央行加息25个基点至0.75%，创30年新高，但日元重挫1.4%，美元兑日元最高触及157.76，贵金属中现货白银本周累涨8.4%，报67.166美元/盎司，盘中刷新历史高位[41]

AI手机路线大分野：当豆包试图“接管屏幕” 苹果和谷歌为何选择“慢半拍”？

每日经济新闻· 2025-12-20 13:47

AI手机技术路线分野 - AI手机技术路线已形成鲜明分野，以字节跳动“豆包手机”为代表的阵营采用GUI技术路线，而苹果、谷歌主导的阵营则坚持API标准化路线[1] GUI技术路线阵营 - 字节跳动联合中兴努比亚推出“豆包手机”nubia M153，其AI助手通过获得系统级权限，利用GUI技术模拟人类点击、滑动，实现跨应用操作，如订外卖、发微信、比价购物[4][6] - 字节跳动正与vivo、联想、传音等厂商推进AI手机合作[1] - 智谱AI宣布开源自主任务模型AutoGLM，同样基于GUI范式，通过视觉大模型实现手机自动化操作[6] - GUI路线的优势在于通用性强，不依赖App开发者配合，理论上能操作所有App；缺点包括隐私保护压力大、效率较低且易出错[8] API技术路线阵营 - 以苹果Apple Intelligence和谷歌Gemini为代表的API路线，通过构建底层框架与标准化接口，让AI通过规范“调用能力”完成任务[8][9] - API路线的优点是稳定、保障隐私且效率高；缺点是需要App开发者主动配合，生态构建周期更长[9] - 苹果Apple Intelligence集成OpenAI的ChatGPT，并计划采用谷歌Gemini模型为Siri升级提供技术支撑[13] - 谷歌推出AppFunctions API，旨在解决生态内碎片化问题，实现系统对应用能力的统一发现与索引[13] - 苹果和谷歌均倾向于推动应用开发者主动接入标准化接口，尚未在手机上推出GUI多模态操作功能，仍处于技术储备阶段[13] 技术路线博弈与行业影响 - GUI路线引发主流App“自卫反击”，如微信提示环境异常、淘宝频繁弹出人机验证、银行App拒绝在录屏状态下运行[6] - 超级App的焦虑在于，AI助手直接介入交易可能影响其商业模式，且GUI Agent将用户操作截留在系统层面，可能使App的广告投放失去核心价值[14][15] - 手机厂商对开放系统级权限给AI公司存在顾虑，包括用户隐私担忧以及不希望沦为AI公司的技术通道，这解释了为何字节跳动的首个合作伙伴是中兴努比亚而非头部厂商[7] 未来生态格局展望 - 未来AI手机生态可能呈现“分层治理”格局：超级App可能通过自研AI Agent形成A2A协作模式；而中长尾App因缺乏自研能力，可能“被系统级AI直接控制”，接受新的流量分发规则[16] - 市场机构Canalys报告显示，全球AI手机出货占比预计将从2024年的16%升至2028年的54%，2023年至2028年的年复合增长率预计达63%[13] - 行业变革将推动生态从“流量争夺”走向“价值共创”，最终形成手机厂商主导，超级App、长尾应用和大模型厂商各司其职的新格局[16]

国盛证券· 2025-12-07 16:24

行业投资评级 - 增持（维持）[4] 报告核心观点 - 手机Agent正推动移动交互范式从GUI（图形用户界面）向Agentic（智能体）交互跃迁，用户可通过自然语言指令完成任务，无需在不同App间手动切换[1][12] - 实现手机Agent有两条主要技术路线：API范式和GUI范式，两者各有优劣，未来可能走向融合而非单选[1][24][32] - API范式（以苹果Apple Intelligence为代表）通过标准化语义接口调用App功能，强调生态整合与隐私安全[1][12][16] - GUI范式（以智谱AutoGLM、字节豆包助手为代表）利用多模态模型视觉理解屏幕并模拟点击，通用性高但面临可靠性与隐私挑战[2][13][19] - 手机Agent的发展将引发手机厂商、大模型厂商和应用厂商之间的三方博弈，重塑移动互联网流量与商业生态[3][26] 手机Agent的两种范式 API范式 - 核心是建立标准化的语义接口，需要App开发者主动适配并暴露功能，Agent通过结构化API指挥App执行任务[1][12] - 典型代表是苹果的Apple Intelligence及其App Intents框架，旨在构建“语义互联网”[12][16] - 苹果通过提供多个“助手架构”作为标准化模板，以解决不同开发者对同一功能定义差异的问题[17] - 谷歌在安卓生态中也进行了API尝试，例如推出基于Gemini Nano模型的设备生成式AI API和Prompt API[18] GUI范式 - 核心是利用多模态模型理解屏幕UI元素，并通过系统辅助服务模拟手指的点击与滑动来操作App，不依赖开发者配合[2][13] - 典型代表包括智谱AI的AutoGLM和字节跳动的豆包手机助手[2][13] - 智谱AutoGLM 2.0已面向公众开放，可操作抖音、美团等40余款应用完成点餐、订票等任务[21] - 字节豆包手机助手是与中兴手机合作的系统级服务，通过长按侧边键唤醒，可直接获取系统底层屏幕缓冲区数据以降低延迟[22] - 谷歌Gemini 3 Pro模型在多模态理解，特别是屏幕理解任务上表现突出，在ScreenShot-Pro评测基准得分72.7%，大幅领先Claude Sonnet 4.5的36.2%和GPT 5.1的3.5%[19] 两种范式核心差异对比 - **通用性**：GUI Agent通用性显著更高，是其核心优势，不需要App开发者适配，理论上人类能用的App它都能用，解决了长尾应用覆盖问题[2][24][25] - **可靠性**：API Agent可靠性更高，只要API稳定即可保证任务完成；GUI Agent可靠性较低，原因包括模型对复杂界面识别能力未达100%（如Gemini 3 Pro得分72.7%）、多步骤操作导致失败率更高、UI改版时易失效[2][24][25] - **性能**：API Agent高效，可单次调用完成复杂任务；GUI Agent低效，完成简单任务可能需要多次截图分析和视觉推理，算力消耗大，且截图上传云端的数据量和延迟均高于API传输参数[2][24][25] - **隐私风险**：API Agent隐私风险低，应用端可进行精细的权限管理；GUI Agent隐私风险高，需要读取屏幕权限，可能暴露聊天记录、密码等敏感信息[2][24][25] - **商业阻力**：GUI Agent商业阻力极大，不经过应用厂商授权，易受到技术和法律手段封杀，如豆包手机助手操作微信时曾引发账号封禁和银行App强弹窗提醒[2][23][24][25] 商业形态演变与三方博弈 - **手机厂商**：角色从硬件售卖转向获取流量入口价值，操作系统成为用户意图的第一接收者，可能催生类似搜索广告的新竞价模式[3][26][27] - **大模型厂商**：愿景是打造跨越操作系统的超级助理App（如ChatGPT、豆包），将其他App变为自己的后端工具，并积极寻求与二线手机厂商合作（如字节与中兴）[3][26][28][30] - **应用厂商**：面临合作与防御的两难选择，一方面可能开放部分接口，另一方面为保护自身利益可能拒绝或限制Agent接入[3][26][31] - **法律与授权边界**：AI助手作为“用户授权的代理人”与平台权益之间存在法律争议，可能需要双重或多重授权[31] - **App自身Agent化**：微信明确表示最终会推出AI智能体，淘宝已通过“问问”功能尝试在App内实现自然语言导购[3][31][32] 未来展望与融合路径 - 手机Agent的发展不会是API或GUI的单选题，而是两者融合[3][32] - 对于高价值、涉及敏感数据的操作（如支付、通讯），API Agent因准确度高和隐私保护更优而更适用[3][32] - 对于只读、信息查询类需求以及API未覆盖的应用，GUI Agent通过视觉理解的方式运行更灵活通用[6][32] - 为解决GUI Agent的延迟和隐私问题，未来手机处理器预计将进一步优化视觉模型的端侧推理能力，使识别和决策在本地完成，无需上传云端[6][32] 建议关注的领域与公司 - **GUI Agent相关**：字节跳动、谷歌、阿里巴巴、中兴通讯[7][33] - **API Agent相关**：腾讯控股、阿里巴巴、谷歌[7][33] - **算力相关**：寒武纪、海光信息、中际旭创、中科曙光、浪潮信息等[7][33] - **其他Agent相关**：包括第四范式、360、金蝶国际、科大讯飞、恒生电子等[8][34] - **自动驾驶相关**：江淮汽车、赛力斯、小鹏汽车、理想汽车、地平线等[8][34] - **军工AI相关**：拓尔思、能科科技、普天科技、中科星图等[8][34]