2026 AI 商业中场:从原生多模态到超级入口
晚点LatePost·2025-12-22 21:39

文章核心观点 - AI行业的竞争已从单一模型能力比拼,演进为涵盖算力、芯片、框架、模型、应用和入口的全栈系统工程能力与基础创新的综合博弈[4][7][21] - 技术进步正解决AI商业化的两大核心障碍:对物理世界的理解与执行能力不足,以及过高的推理成本[7] - 下一代“超级入口”正从汇聚流量的App转向多模态智能助手,各大科技公司依托自身生态展开激烈竞争[22][23] - 具备“算力-系统-模型-入口-资源-行动能力”闭环能力的“AI六边形战士”型公司,被认为将在长期竞争中占据优势[24] AI技术发展趋势:从文本到原生多模态 - 大模型在单一文本维度的性能提升已进入“收益平台期”,缩放路径无法满足智能继续进化的目标[8] - 业界共识认为,大模型要理解世界需要视觉、听觉、语言等多种感官信息的融合,即发展原生多模态能力[8] - 原生多模态模型能从训练阶段就端到端理解图片、视频、语音等信息,但训练和推理复杂度呈指数级增加[9] - 2025年成为原生多模态发展的关键年份,国内外主要模型厂商均发布了相关模型[9] - 百度文心大模型5.0是参数量达2.4万亿的原生全模态大模型,在国内全模态模型中参数量最大[12] - 原生多模态能力让AI能够感知现实,为切入具身智能、智能座舱等万亿美金级赛道提供了可能[16] AI商业化关键:降低推理成本 - 行业从“快思考”转向“慢思考”模式,导致单次问题消耗的token数量激增[17] - 2025年,模型专用于推理类任务的调用量占token消耗总额的超50%[17] - 降低推理成本成为AI走向商业化的关键拐点[17] - DeepSeek凭借MLA架构和精细化MoE设计,在语言模型领域成为“效率标杆”[17] - 但原生多模态模型的训练算力需求是纯文本模型的5到10倍,推理更复杂,例如GPT-4o训练投入超1000 PFlop/s-day[18] - 实现多模态模型降本不能仅靠算法创新,需要芯片、框架、模型和应用四个层面的协同优化[20] - 百度文心5.0依托飞桨框架进行大规模MoE训练,模型预训练性能较基线提速230%,激活参数量比低至3%[20] - 推理成本降低将驱动模型能力从“云端”向“端侧”下沉,融入AI眼镜、智能座舱等设备[20] 主要参与者的全栈能力布局 - 国内具备芯片、框架、模型和应用闭环能力的公司目前只有百度和华为[20] - 百度布局:昆仑芯(芯片)、飞桨(框架)、百度智能云(云)、文心系列(模型)、搜索/地图/小度等(入口)[19] - 字节跳动布局:据传有自研芯片计划、定制框架、火山云、豆包大模型、抖音/TikTok/豆包App等入口[19] - 腾讯布局:自研紫霄芯片、定制框架、腾讯云、混元大模型、微信/QQ/腾讯元宝等入口[19] - 阿里巴巴布局:平头哥含光芯片、定制框架、阿里云、Qwen系列大模型、钉钉/淘宝/千问App等入口[19] - 华为布局:昇腾芯片、昇思框架、华为云、盘古大模型系列、鸿蒙原生应用与硬件生态[19] - Google被认为已形成“算力-模型-数据-应用”的系统级飞轮[24] - 百度被部分行业人士视为中国最接近“AI六边形战士”形态的公司之一,具备长期演进的系统飞轮能力[24] 下一代“超级入口”的竞争格局 - AI技术让“超级入口”的逻辑从“汇聚流量的app”转向“多模态的智能助手”[22] - 字节跳动发布与中兴努比亚合作的豆包手机助手,试图通过语音交互让AI直接接管用户屏幕,重塑人机交互逻辑[22] - 阿里巴巴成立千问C端事业群,将通义千问APP改名“千问APP”并快速迭代,已接入高德地图,未来计划整合夸克、UC、天猫精灵等功能[23] - 百度上线文心助手,升级搜索的AIGC创作能力,并依托文心5.0、萝卜快跑(自动驾驶)、小度等实现从虚拟空间向真实空间的渗透[23] - Google将Gemini 3嵌入核心搜索业务,通过跨应用数据调取实时生成交互式UI页面[23] - 腾讯在组织架构和人才上持续加码,新成立AI Infra部、AI Data部等,并以加倍薪资挖角AI人才[26]