Workflow
LongCat APP
icon
搜索文档
美团新独立APP,点不了菜只能点AI
猿大侠· 2025-11-03 12:11
模型发布与性能 - 美团最新开源多模态大模型LongCat-Flash-Omni,支持文本、图像、音频、视频全模态输入,在Omni-Bench和WorldSense等基准测试中达到开源SOTA水平,性能可与闭源模型Gemini-2.5-Pro相媲美 [2] - 模型采用MoE架构,总参数量达560B,激活参数仅27B,实现“大总参小激活”,在保持庞大知识容量的同时具备极高的推理效率 [4] - 该模型是当前主流旗舰模型参数规模下,首个实现全模态实时交互的开源模型,交互体验丝滑,响应延迟极低 [8][28] 技术架构与创新 - 模型采用完全端到端的统一架构ScMoE,并创新性地使用分块式音视频特征交织策略,实现低延迟的实时语音生成与视觉响应 [40] - 通过渐进式早期多模融合训练和模态解耦并行(MDP)训练方案,有效提升多模态训练效率,模型上下文窗口扩展至128K tokens,支持超8分钟的音视频交互 [40][42] - 技术路径清晰:先打通底层速度实现即时响应,再深耕复杂场景的专业能力,最后向全模态拓展,解决了多模态融合难、实时交互性能受限等行业痛点 [38][39] 战略布局与投资逻辑 - 公司战略核心是软硬件“两条腿走路”,通过构建“世界模型”和投资“具身智能”,实现数字世界与物理世界的深度连接 [45][47] - 投资脉络清晰:2018-2020年聚焦消费领域以巩固本地生活护城河;2021年后科技投资占比显著提升,重点投向自动驾驶、AI芯片、具身机器人等核心基础设施 [54][55] - 目标是构建覆盖“低空—地面—社区”的立体化智能服务网络,将技术能力注入零售场景,关键词是autonomy(无人化),以实现系统效率跃迁 [57][61][62]
美团新独立APP,点不了菜只能点AI
量子位· 2025-11-03 11:12
LongCat-Flash-Omni模型技术特点 - 最新开源多模态模型LongCat-Flash-Omni在综合性全模态基准测试(如Omni-Bench, WorldSense)上超越Qwen3-Omni、Gemini-2.5-Flash,达到开源SOTA水准,并能与闭源Gemini-2.5-Pro相媲美[2] - 模型支持文本、图像、音频、视频等全模态能力,各项单项能力均位居开源模型前列,实现“全模态不降智”[3] - 采用MoE架构,总参数560B,激活参数仅27B,通过“大总参小激活”设计在保持庞大知识容量的同时实现极高推理效率,是首个在主流旗舰模型性能标准和参数规模下实现全模态实时交互的开源模型[4][8] 模型应用与交互体验 - 模型已在LongCat APP和Web端上线,支持文字/语音输入、语音通话,Web端还支持上传图片和文件,视频通话功能正在开发中[9][10] - 实测显示模型具备快速响应能力,从输入指令到生成第一个token的时间间隔短暂,交互过程丝滑,能即时处理复杂多模态任务[7][25][26] - 模型在聊天问答、语音识别、物理世界规则理解(如六边形小球弹跳问题)及嘈杂环境下的语音识别等场景中表现稳定,能准确接住并回答脑筋急转弯式推理题[17][24][27] 美团AI战略发展路径 - 公司迭代模型的逻辑清晰:速度优先(实现模型响应、语音识别、实时生成的丝滑体验),专业深耕(优化复杂逻辑推理、物理仿真等能力),全面拓展(向全模态路线推进)[29][31] - 通过投资和自研结合,公司布局“世界模型”与“具身智能”,目标是连接数字世界和物理世界,软件端构建能深度理解现实并交互的“世界模型”,硬件端围绕“具身智能”加速落地[42][44][47][48] - 公司投资脉络从早期聚焦消费领域转向加码科技投资,重点布局自动驾驶、AI芯片、具身机器人等未来核心基础设施,构建覆盖“低空—地面—社区”的立体化服务网络[53][54][57][61] 多模态技术突破与架构创新 - 模型在架构层面重构多模态融合底层逻辑,采用完全端到端的统一架构ScMoE,能同时接收文本、音频、图像、视频及任意组合的多模态输入[36][38] - 通过分块式音视频特征交织策略实现流式音视频处理,使音频与视频特征按时间片段同步输入LLM,支持低延迟实时语音生成与视觉响应,上下文窗口扩展至128K tokens,支持超8分钟音视频交互[38] - 训练上采用渐进式早期多模融合训练和模态解耦并行(MDP)方案,提升多模态训练效率,确保系统长期稳定运行,解决参数大但推理慢的行业痛点[38][39]