公司:字节跳动(豆包智能体/手机助手) * 合作策略:公司选择与中兴旗下品牌努比亚合作,将豆包智能体嵌入其手机操作系统,旨在避开与小米、华为等头部品牌的直接竞争[1][3] * 技术路径选择:公司内部曾讨论自行研发手机硬件或操作系统,但最终因缺乏硬件基因和相关专利,选择将智能体嵌入现有手机厂商原生操作系统的方案[2] * 产品发布计划:豆包1.0版本预计于12月8日在官网发布,并于12月18日原动力大会详细介绍,目前线上版本为0.9 beta阶段,有3,800多个bug待处理[21] 行业:AI智能助手与硬件生态 * 竞争格局:智谱推出类似豆包手机助手产品并与荣耀合作,表明市场对此类智能助手需求旺盛,公司与智谱均不直接生产硬件,而是专注于为手机厂商及其他终端设备提供智能解决方案[15] * 公司竞争定位:公司核心目标是通过其庞大的应用生态系统(如抖音、头条、飞书等)获取用户流量和行为数据,以优化搜索、推荐和短视频业务,技术上不局限于特定模型,Deepseek、千问或智谱的GLM模型均可使用[16][17] 核心技术与实现 * 操作系统集成原因:智能体需获取系统级权限(如调用摄像头、麦克风),嵌入操作系统级别可避免频繁向用户请求权限授权,从而直接调用底层宏命令模拟用户点击行为,提升用户体验[5][6] * 接口障碍解决方案:通过AIOS能力在GUI层面上模拟用户访问点击行为,以解决与其他头部公司(如拼多多、淘宝、京东)的接口障碍问题,实现跨平台信息获取和服务提供,但深度绑定电商平台仍需技术突破[1][4] * 延迟问题处理:采用端侧模型(量化后3B到1.5B之间)与云端处理相结合的方式,普通任务延迟在300-800毫秒,简单任务(如打开APP并发送信息)延迟在80-200毫秒[7] * 场景化模板引擎:通过预设模板实现特定场景自动化操作,例如与12,306合作,通过MCP Server协议插件融入场景,实现订票过程自动化,提高效率和准确性[8] * 电商应用流程:智能体通过GUI方式模拟用户点击行为(如打开APP、输入搜索查询),通过视觉模型或OCR识别屏幕数据,并通过工作流编排完成指令级操作[9] 用户数据与产品表现 * 用户活跃度:豆包APP日均使用时长约30分钟,远超行业平均水平(如元宝和Deepseek约17分钟),日活跃用户数约5,670万,月活跃用户数约1.76亿,相较于9月和10月增长5%至8%[18] * 用户留存与交互:次留存率30%-40%,三日留存率28%,七日留存率25%,次月留存率68%,每次交互时长约2分钟,对话轮数8到10轮,上下文回溯能力达3至5年级水平[18] 产品迭代方向 * 功能扩展:未来半年到一年,将基于subgraph应用层制定更多跨APP引擎服务调用,覆盖200多种衣食住行常用场景,提升操作系统模拟引擎的交互动作精确度[19] * 技术升级:将端侧模型从3B参数升级到7B,以支持15轮及以上对话,扩展上下文窗口至12K左右,并逐步集成支付、定位导航等系统级工具[19][20] * 硬件优化:与中兴合作定制终端设备,包括独立NPU以及摄像头麦克风阵列集成,优化算力调度,实现云端处理复杂任务与端侧实时任务结合[20] 商业模式规划 * 盈利方式:规划通过模型授权、token消耗、广告链接点击及转换等方式实现商业化,若涉及线上投流则需缴纳相应费用[22] * 分成模式:与合作厂商通常采用9:1分成模式,公司抽取一成,其余九成为硬件厂商或上游提供商所有,但目前尚未形成成熟商业模式,需视市场反馈而定[22] 硬件生态布局 * 合作厂商:下游合作涵盖主控芯片(如恒玄科技)、LED屏幕(如京东方)、摄像头模组(如舜宇光学)、电池(如宁德时代)、结构件供应商(如兆威存储)及整机组装供应商(如歌尔)[14] * 终端设备拓展:除手机外,公司探索包括耳机、眼镜等其他硬件终端,计划于2026年初发布三款眼镜产品(消费级别陌声家,工业级别宁静和彭毅),并推出Ola Friend 2.0耳机及青春版豆包手表,以构建完整硬件生态系统[13] 性能优化与未来展望 * 延迟优化目标:随着硬件性能提升(如GPU从A10推理时间超300毫秒优化至H20的50毫秒以内),复杂任务延迟预计将进一步缩短[12] * 跨设备性能提升:通过优化自然语言理解和意图理解算法,并采用量化小型模型适应不同设备,提升智能体在不同终端上的性能[10] * AI技术优势:AI技术可通过语音指令将任务定制成模板,批量执行重复性劳动任务(如定时发送图片和文件),显著减少人为操作时间和出错率[11]
互联网大厂AI布局进展
2025-12-02 00:03