商量APP - 财报，业绩电话会，研报，新闻

商量APP

搜索文档

量子位· 2025-04-10 21:25

核心观点 - 商汤最新发布的日日新SenseNova V6模型在纯文本和多模态任务中多项指标超越GPT-4.5、Gemini 2.0 Pro及DeepSeek V3，具备强推理、强交互和长记忆三大特点[4][6][8] - 该模型采用6000亿参数MoE架构，实现文本、图像和视频的原生融合，并支持秒级视频解析、自动剪辑、实时音视频交互等实用功能[4][10][13] - 技术突破包括原生多模态融合训练、64K tokens长思维链合成、混合增强学习及长视频动态压缩四大核心技术[26][30][36][41] - 商汤强调AI应服务于日常生活场景，如数学辅导、游戏解说、城市识别等，体现"百姓日用"的产品定位[18][19][48][56] 性能表现 - 纯文本任务：MMLU-Pro得分78.66（GPT-4.5为78.63）、BigBench Hard 94.98（GPT-4.5为94.45）、DROP 92.28（GPT-4.5为90.30）[6] - 多模态任务：MMBench(v1.1) 89.40（GPT-4.5为83.40）、MMVet 85.92（GPT-4.5为75.30）、Math Vista 79.40（GPT-4.5为70.50）[6] - 推理能力：V6 Reasoner在MATH-500达到97.40分（OpenAI o1为97.00）、AIME 2024 78.33分（GPT-4.5*仅38.75）[6] 技术架构 - 原生多模态融合：通过桥接技术避免模态间能力失衡，在SuperCLUE和OpenCompass评测中位列国内第一[26][29] - 长思维链合成：支持64K tokens（约5万字）深度思考，储备超1000万条思维链数据用于复杂推理[30][32] - 混合增强学习：结合RLHF与RFT训练方法，平衡逻辑严谨性与情感表达自然度[36][38] - 长视频处理：10分钟视频可压缩至16K tokens保留核心语义，实现跨模态时序对齐[41][42] 应用场景 - 视频解析：支持分钟级视频总结、秒级片段推演（如柯南剧情分析、足球进球剪辑）[2][3][4] - 实时交互：通过商量APP实现韩剧片段情感分析（识别sad情绪）、看图猜城市（精准识别长沙）[13][16] - 教育辅助：识别手写数学题并提供个性化解题指导，突破标准答案局限[19][21] - 具身智能：为机器人集成多模态感知能力，延伸至物理世界交互[22][50] 行业观点 - 商汤联合创始人杨帆认为具身智能需直面质疑才能推动产业成熟[51][52] - 银河通用张直政指出技术泡沫是创新驱动力，需将想象转化为产品[53] - 上海交大闫维新预测危险替代场景或成具身智能3-5年内落地方向[55]