当科技巨头押注“多模态”，谁能为AI落地找到终极答案

多模态大模型成为AI 2.0时代核心发展趋势 - 行业共识认为多模态是AI发展的必然趋势，通过整合文本、图像、音频、视频等多种信息模态，实现更接近人类认知方式的复杂信息处理能力 [1][5] - AI大模型竞争焦点正从技术参数转向应用深度，核心竞争力体现在能否理解人类情感、记忆交互上下文，并在教育、医疗、工业等场景中提供“好用”的解决方案 [2] - 国际科技巨头正加速布局，谷歌Gemini 2.0、OpenAI的GPT-4.5、Meta的Llama 4等新品均在显著提升原生多模态能力 [2][4] 多模态发展的驱动因素与挑战 - 数据成为发展关键驱动力，据Epoch AI预测，到2028年互联网上所有高质量文本数据将被使用完毕，高质量语言数据可能在2026年前耗尽，多模态数据（图像、视频、3D）成为新的知识来源 [3] - 多模态模型训练面临挑战，其计算架构比纯文本模型更复杂，需要额外处理视频和图像数据的编码，并涉及不同模态编码方式的协调，训练需要大量计算资源且时间长、效率低 [3] - 技术快速迭代，单纯技术难以形成长久壁垒，新的模型发布后很快会有追赶者，开源会缩小技术差距，技术与行业的深度结合才能形成持久壁垒 [7] 商汤科技的战略布局与业务进展 - 公司发布“日日新SenseNova V6”多模态大模型体系，涵盖通用模型、推理模型、视频理解模型及全模态交互模型，是其技术转型的阶段性成果 [1][6] - 公司已确立“大装置-大模型-应用”三位一体核心战略，以日日新多模态大模型为基石，以生产力工具和交互工具为两大落地方向 [6] - 生成式AI业务已成为公司核心增长引擎，2024年全年生成式AI收入突破24.0亿元人民币，同比增长103.1%，占集团收入比例从2023年的34.8%提升至63.7% [6] 多模态大模型的关键能力与价值 - 大模型在商业应用上的关键价值在于：一是融入真实业务应用，具备处理复杂信息和解决复杂问题的能力；二是以更有亲和力的方式与人交互，提供良好体验 [7] - 实现上述价值需要模型具备强大的推理能力、情感理解与共情能力、实时互动能力以及记忆与关键信息捕捉能力 [7] - 多模态与推理能力的紧密结合是实现更广泛场景落地的关键，目前业界关注点多在纯文本推理，但未来需结合多模态 [1] 行业落地应用与未来方向 - 多模态是AI走向线下和物理现实的必然趋势，是多样行业落地的必备因素，未来的交互将是多模态全模态的交互 [6] - 落地应用在具身智能、教学等场景上有所突破，行业将从特定场景出发进行初步迭代，下游企业和合作伙伴将衍生出更多应用创意 [7] - 行业下半场的胜负取决于谁能更深入产业，构建“数据飞轮”和场景黏性，大模型企业开始专注于技术落地和应用的爆发 [7][9]