Workflow
商量APP
icon
搜索文档
刚刚,商汤发布第六代大模型:6000亿参数多模态MoE,中长视频直接可推理
量子位· 2025-04-10 21:25
核心观点 - 商汤最新发布的日日新SenseNova V6模型在纯文本和多模态任务中多项指标超越GPT-4.5、Gemini 2.0 Pro及DeepSeek V3,具备强推理、强交互和长记忆三大特点[4][6][8] - 该模型采用6000亿参数MoE架构,实现文本、图像和视频的原生融合,并支持秒级视频解析、自动剪辑、实时音视频交互等实用功能[4][10][13] - 技术突破包括原生多模态融合训练、64K tokens长思维链合成、混合增强学习及长视频动态压缩四大核心技术[26][30][36][41] - 商汤强调AI应服务于日常生活场景,如数学辅导、游戏解说、城市识别等,体现"百姓日用"的产品定位[18][19][48][56] 性能表现 - 纯文本任务:MMLU-Pro得分78.66(GPT-4.5为78.63)、BigBench Hard 94.98(GPT-4.5为94.45)、DROP 92.28(GPT-4.5为90.30)[6] - 多模态任务:MMBench(v1.1) 89.40(GPT-4.5为83.40)、MMVet 85.92(GPT-4.5为75.30)、Math Vista 79.40(GPT-4.5为70.50)[6] - 推理能力:V6 Reasoner在MATH-500达到97.40分(OpenAI o1为97.00)、AIME 2024 78.33分(GPT-4.5*仅38.75)[6] 技术架构 - 原生多模态融合:通过桥接技术避免模态间能力失衡,在SuperCLUE和OpenCompass评测中位列国内第一[26][29] - 长思维链合成:支持64K tokens(约5万字)深度思考,储备超1000万条思维链数据用于复杂推理[30][32] - 混合增强学习:结合RLHF与RFT训练方法,平衡逻辑严谨性与情感表达自然度[36][38] - 长视频处理:10分钟视频可压缩至16K tokens保留核心语义,实现跨模态时序对齐[41][42] 应用场景 - 视频解析:支持分钟级视频总结、秒级片段推演(如柯南剧情分析、足球进球剪辑)[2][3][4] - 实时交互:通过商量APP实现韩剧片段情感分析(识别sad情绪)、看图猜城市(精准识别长沙)[13][16] - 教育辅助:识别手写数学题并提供个性化解题指导,突破标准答案局限[19][21] - 具身智能:为机器人集成多模态感知能力,延伸至物理世界交互[22][50] 行业观点 - 商汤联合创始人杨帆认为具身智能需直面质疑才能推动产业成熟[51][52] - 银河通用张直政指出技术泡沫是创新驱动力,需将想象转化为产品[53] - 上海交大闫维新预测危险替代场景或成具身智能3-5年内落地方向[55]