vivo胡柏山：在焦虑的AI时代，交一份最「冷静」的答案

文章核心观点 - 在AI时代，算力和模型能力将趋于同质化，不再是核心竞争壁垒，而连接数字世界与物理世界的感知能力才是未来的差异化核心和护城河 [1][7] - vivo公司将其核心资源聚焦于端侧AI和产业链协同，并基于其在影像领域长达十年的投入，构建一套三层架构的物理世界感知系统，以此作为其在AI时代的长期战略 [4][8][9] - vivo的战略蓝图是让具备强大感知能力的手机从“智能手机”进化为“智能代理手机”，并最终成为整个IoT生态的视觉感知中枢，将感知能力外溢至更广泛的行业 [14][20][23] 行业背景与现状 - 自2023年ChatGPT引爆AI热潮以来，中国科技产业进入“大模型狂飙时代”，各行各业普遍存在焦虑和“先上车后补票”的现象 [2] - 行业存在技术浮躁，多数企业回避AI理解世界等基础问题，转而将资源投入更具传播效应的“追热点”策略 [3] - 主流芯片厂商的旗舰SoC在AI算力上持续快速提升，同时开源大模型性能接近闭源模型，使得端侧AI的算力与模型能力正快速走向供应链化和同质化 [7] vivo的感知能力战略 - 战略决策基础：公司认为未来AI时代算力、模型能力不具备差异化，必须寻找新的方向，其答案是构建以影像为基础的AI视觉感知中枢 [7] - 三层技术架构： - 光学系统层：决定“看得到”的边界，vivo与蔡司在光学设计、镀膜工艺等领域深度合作 [11] - 成像处理层：决定“看得清”的能力，vivo自研V3影像芯片采用6nm制程，AI算力相比前代提升40%，支持4K实时画面增强 [11] - 感知理解层：决定“看得懂”的深度，是核心差异化所在，依靠自研的蓝心大模型矩阵对图像视频内容进行深度理解 [12] - 长期价值：具备强大感知能力的终端将成为未来AI深入千行百业时最重要的数据入口 [12] Agent Phone（智能代理手机）蓝图 - 核心定义：从被动的“工具”进化为主动的“伙伴”，能够主动感知环境、理解需求、预判行动 [14] - 交互逻辑转变：从“输入-反馈”模式转变为“感知-理解-行动”的持续模式 [15] - 面临挑战与解法： - 需解决意图理解、任务规划能力及隐私边界问题 [16][17] - 解法是将感知和推理过程尽可能保留在端侧，并与芯片厂商、学术机构等产业链深度合作，共同定义新一代端侧AI算力架构 [17] - 阶段性成果：即将发布的新一代旗舰机型X300 Ultra与X300s将搭载相机Agent能力，展示Agent Phone的核心能力，但并非终极形态 [18][19] 感知生态的延伸与产业愿景 - IoT生态的“眼睛”：公司计划将以影像+AI构建的视觉感知中枢，升级为IoT生态的视觉感知中枢，让手机成为整合多维信息的共同感知中枢 [20][21] - 产品形态延伸：公司成立了机器人实验室，核心目标是围绕感知能力进行技术突破，让机器人成为其感知生态的延伸 [23] - 产业责任：感知能力的价值在于为更多行业创造价值，公司将此视为应承担的产业责任，这需要长期投入和战略定力 [24][25]