当科技巨头押注“多模态”,谁能为AI落地找到终极答案

多模态大模型成为AI 2.0时代核心发展趋势 - 行业共识认为多模态是AI发展的必然趋势,通过整合文本、图像、音频、视频等多种信息模态,实现更接近人类认知方式的复杂信息处理能力 [1][5] - AI大模型竞争焦点正从技术参数转向应用深度,核心竞争力体现在能否理解人类情感、记忆交互上下文,并在教育、医疗、工业等场景中提供“好用”的解决方案 [2] - 国际科技巨头正加速布局,谷歌Gemini 2.0、OpenAI的GPT-4.5、Meta的Llama 4等新品均在显著提升原生多模态能力 [2][4] 多模态发展的驱动因素与挑战 - 数据成为发展关键驱动力,据Epoch AI预测,到2028年互联网上所有高质量文本数据将被使用完毕,高质量语言数据可能在2026年前耗尽,多模态数据(图像、视频、3D)成为新的知识来源 [3] - 多模态模型训练面临挑战,其计算架构比纯文本模型更复杂,需要额外处理视频和图像数据的编码,并涉及不同模态编码方式的协调,训练需要大量计算资源且时间长、效率低 [3] - 技术快速迭代,单纯技术难以形成长久壁垒,新的模型发布后很快会有追赶者,开源会缩小技术差距,技术与行业的深度结合才能形成持久壁垒 [7] 商汤科技的战略布局与业务进展 - 公司发布“日日新SenseNova V6”多模态大模型体系,涵盖通用模型、推理模型、视频理解模型及全模态交互模型,是其技术转型的阶段性成果 [1][6] - 公司已确立“大装置-大模型-应用”三位一体核心战略,以日日新多模态大模型为基石,以生产力工具和交互工具为两大落地方向 [6] - 生成式AI业务已成为公司核心增长引擎,2024年全年生成式AI收入突破24.0亿元人民币,同比增长103.1%,占集团收入比例从2023年的34.8%提升至63.7% [6] 多模态大模型的关键能力与价值 - 大模型在商业应用上的关键价值在于:一是融入真实业务应用,具备处理复杂信息和解决复杂问题的能力;二是以更有亲和力的方式与人交互,提供良好体验 [7] - 实现上述价值需要模型具备强大的推理能力、情感理解与共情能力、实时互动能力以及记忆与关键信息捕捉能力 [7] - 多模态与推理能力的紧密结合是实现更广泛场景落地的关键,目前业界关注点多在纯文本推理,但未来需结合多模态 [1] 行业落地应用与未来方向 - 多模态是AI走向线下和物理现实的必然趋势,是多样行业落地的必备因素,未来的交互将是多模态全模态的交互 [6] - 落地应用在具身智能、教学等场景上有所突破,行业将从特定场景出发进行初步迭代,下游企业和合作伙伴将衍生出更多应用创意 [7] - 行业下半场的胜负取决于谁能更深入产业,构建“数据飞轮”和场景黏性,大模型企业开始专注于技术落地和应用的爆发 [7][9]