多模态智能 - 财报，业绩电话会，研报，新闻

多模态智能

搜索文档

环球网资讯· 2025-05-13 12:14

政策支持 - 山东省级财政统筹整合10亿元人民币资金支持人工智能发展重点集群、平台、企业和项目，政策延续至2026年年底 [1] - 创新推出"算力券""模型券""语料券""数据集"等支持政策，为人工智能发展提供强劲支撑 [1] - 印发《推进方案》和《政策措施》，"一揽子"推出28条、45项政策措施，形成完整"政策包" [3] 应用场景 - 《推进方案》聚焦化工、铝业、医疗、数字政务等13个重点领域，明确赋能应用方向、具体目标和重点模型支撑 [3] - 支持打造元宇宙"名品"和"名景"，培育人形机器人等终端产品，支持扩大智能家居消费 [5] 研发投入 - 每年布局150项以上基础研究项目，支持多模态智能、具身智能、群体智能等前沿理论研究 [4] - 支持人工智能产业科技创新行动，加大对基础软件、智能硬件等技术攻关的引导力度 [4] - 实施人工智能芯片和软件奖补，提升自主可控能力 [4] 要素供给 - 按照购买算力交易金额比例实施"算力券"奖补，强化普惠智能算力供给 [4] - 每年遴选10个高质量语料库实施"语料券"奖补 [4] - 每年遴选30个大模型产品实施"模型券"奖补，加快高效能大模型建设 [5] 发展目标 - 到2027年在关键芯片、具身智能、垂域大模型等领域布局建设30家左右省重点实验室、20家左右省技术创新中心 [5] - 集聚省级以上科技人才240余人，培育孵化50家以上科技型企业 [5] - 强化底层技术和行业关键共性技术研究，催生重大标志性创新成果 [5]

齐鲁晚报· 2025-05-13 05:07

政策支持与资金投入 - 山东省政府出台《推进方案》和《政策措施》，计划2025年省级财政投入10亿元支持人工智能创新发展，其中新出台增量政策涉及2亿元 [1] - 政策包含28条具体措施，设立人工智能产业基金，支持重点集群、平台、企业及项目，政策延续至明年年底 [4] - 创新推出"算力券""模型券""语料券"等支持政策，强化算力、数据、模型等核心要素供给 [6] 重点赋能领域 - 产业发展方面聚焦化工、铝业、钢铁、矿山开采、高端装备、生物医药6大支柱产业，推动规模化应用以重塑产业优势 [2] - 生活消费领域选择家居、出行、医疗、文旅4个方向，通过AI技术提升消费体验，如文旅领域应用全息投影重现传统文化场景 [3] - 政务服务领域覆盖数字政务、社会治理、公共安全3个方向，提升服务精准化与效率 [3] 科技创新与要素供给 - 每年布局150项以上AI基础研究项目，支持多模态智能、具身智能等前沿理论研究 [5] - 每年遴选10项重大产业攻关项目解决"卡脖子"问题，加强基础软件和智能硬件技术攻关 [5] - 每年遴选30个大模型产品实施"模型券"奖补，推动垂直领域行业大模型建设 [6] 应用场景与生态建设 - 目标到2027年培育20个基础级AI大模型、50个标杆应用场景、100个融合示范案例 [3] - 每年遴选10个高价值标杆场景给予奖补，支持建设行业"产业大脑"和元宇宙"名品""名景" [7] - 加强企业梯度培育，对国家级专精特新"小巨人"企业给予奖励，落实税收优惠政策 [7] 资源保障与金融支持 - 统筹专项资金、超长期特别国债和政府债券，支持"人工智能+"重点项目 [8] - 推动组建人工智能产业基金，拓展企业市场化融资渠道 [8]

刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

量子位· 2025-04-10 21:25

核心观点 - 商汤最新发布的日日新SenseNova V6模型在纯文本和多模态任务中多项指标超越GPT-4.5、Gemini 2.0 Pro及DeepSeek V3，具备强推理、强交互和长记忆三大特点[4][6][8] - 该模型采用6000亿参数MoE架构，实现文本、图像和视频的原生融合，并支持秒级视频解析、自动剪辑、实时音视频交互等实用功能[4][10][13] - 技术突破包括原生多模态融合训练、64K tokens长思维链合成、混合增强学习及长视频动态压缩四大核心技术[26][30][36][41] - 商汤强调AI应服务于日常生活场景，如数学辅导、游戏解说、城市识别等，体现"百姓日用"的产品定位[18][19][48][56] 性能表现 - 纯文本任务：MMLU-Pro得分78.66（GPT-4.5为78.63）、BigBench Hard 94.98（GPT-4.5为94.45）、DROP 92.28（GPT-4.5为90.30）[6] - 多模态任务：MMBench(v1.1) 89.40（GPT-4.5为83.40）、MMVet 85.92（GPT-4.5为75.30）、Math Vista 79.40（GPT-4.5为70.50）[6] - 推理能力：V6 Reasoner在MATH-500达到97.40分（OpenAI o1为97.00）、AIME 2024 78.33分（GPT-4.5*仅38.75）[6] 技术架构 - 原生多模态融合：通过桥接技术避免模态间能力失衡，在SuperCLUE和OpenCompass评测中位列国内第一[26][29] - 长思维链合成：支持64K tokens（约5万字）深度思考，储备超1000万条思维链数据用于复杂推理[30][32] - 混合增强学习：结合RLHF与RFT训练方法，平衡逻辑严谨性与情感表达自然度[36][38] - 长视频处理：10分钟视频可压缩至16K tokens保留核心语义，实现跨模态时序对齐[41][42] 应用场景 - 视频解析：支持分钟级视频总结、秒级片段推演（如柯南剧情分析、足球进球剪辑）[2][3][4] - 实时交互：通过商量APP实现韩剧片段情感分析（识别sad情绪）、看图猜城市（精准识别长沙）[13][16] - 教育辅助：识别手写数学题并提供个性化解题指导，突破标准答案局限[19][21] - 具身智能：为机器人集成多模态感知能力，延伸至物理世界交互[22][50] 行业观点 - 商汤联合创始人杨帆认为具身智能需直面质疑才能推动产业成熟[51][52] - 银河通用张直政指出技术泡沫是创新驱动力，需将想象转化为产品[53] - 上海交大闫维新预测危险替代场景或成具身智能3-5年内落地方向[55]