美团新独立APP,点不了菜只能点AI
 猿大侠·2025-11-03 12:11
模型发布与性能 - 美团最新开源多模态大模型LongCat-Flash-Omni,支持文本、图像、音频、视频全模态输入,在Omni-Bench和WorldSense等基准测试中达到开源SOTA水平,性能可与闭源模型Gemini-2.5-Pro相媲美 [2] - 模型采用MoE架构,总参数量达560B,激活参数仅27B,实现“大总参小激活”,在保持庞大知识容量的同时具备极高的推理效率 [4] - 该模型是当前主流旗舰模型参数规模下,首个实现全模态实时交互的开源模型,交互体验丝滑,响应延迟极低 [8][28] 技术架构与创新 - 模型采用完全端到端的统一架构ScMoE,并创新性地使用分块式音视频特征交织策略,实现低延迟的实时语音生成与视觉响应 [40] - 通过渐进式早期多模融合训练和模态解耦并行(MDP)训练方案,有效提升多模态训练效率,模型上下文窗口扩展至128K tokens,支持超8分钟的音视频交互 [40][42] - 技术路径清晰:先打通底层速度实现即时响应,再深耕复杂场景的专业能力,最后向全模态拓展,解决了多模态融合难、实时交互性能受限等行业痛点 [38][39] 战略布局与投资逻辑 - 公司战略核心是软硬件“两条腿走路”,通过构建“世界模型”和投资“具身智能”,实现数字世界与物理世界的深度连接 [45][47] - 投资脉络清晰:2018-2020年聚焦消费领域以巩固本地生活护城河;2021年后科技投资占比显著提升,重点投向自动驾驶、AI芯片、具身机器人等核心基础设施 [54][55] - 目标是构建覆盖“低空—地面—社区”的立体化智能服务网络,将技术能力注入零售场景,关键词是autonomy(无人化),以实现系统效率跃迁 [57][61][62]