多模态大模型（MLLMs）

搜索文档

机器之心· 2025-07-09 17:52

核心观点 - 当前AI4S在单点取得进展，但需采用"通专融合AGI"方式成为革命性工具，大模型的突破性能力正改变科研模式，但需科学评测支撑[1] - 现有科学评测存在两大痛点：聚焦知识记忆而非全链条能力；多模态数据分析需求未充分开发[2] - 上海AI实验室推出SFE评测基准，首创"信号感知-属性理解-对比推理"三级体系，涵盖5大领域66项高价值任务，揭示主流模型在高阶科学任务上表现不佳（SOTA仅30分左右）[3][4] 评测体系设计 - SFE构建三层认知框架：科学信号感知(L1)、科学属性理解(L2)、科学比较推理(L3)，覆盖从数据感知到高阶推理的全链条能力[7][10] - 数据集包含830个VQA、66项科学任务，涉及202个L1、503个L2、125个L3任务，平均问题长度88(英)/86(中)token，答案长度100(英)/106(中)token[14] - 开发流程分三步：与专家确定高价值方向→细化任务设计→精选原始数据构建VQA样本，涉及18个科学方向和17种数据格式[15][17] 模型表现分析 - 闭源模型整体优于开源模型6-8%，GPT-o3与Gemini-2.5-Pro差距达26%，因后者存在冗余思考导致token消耗过快[20] - 材料科学表现最佳（GPT-o3达63.44%），因任务结构化明显；天文学最弱（平均约20%），因数据噪声大且直观性弱[22][23] - 高阶推理(L3)能力进步显著（如GPT-o3从26.64%提升至36.48%），但知识理解(L2)进步有限，显示模型提升主要来自推理架构创新[25][26] 技术趋势洞察 - 闭源模型在Pass@k测试中扩展性更好（37.75% vs 27.33%），可能因训练数据更丰富且平衡探索与利用[29][30] - 模型规模与科学能力非正比关系，如Qwen2.5-VL-72B表现反低于7B版本，显示需同步扩充科学数据以避免过拟合[31][32] - 推出"棱镜"科学评测平台，包含模型能力/学科多样性等5大模块，覆盖AI for Innovation/Computation/Data三层评估维度[33][35][36]

人工智能（AI for Science）

华泰证券· 2025-05-31 18:25

报告行业投资评级未提及报告的核心观点 - 多模态思维链（MCoT）将大模型的多模态与推理能力相结合，提升其应对复杂多模态任务的表现 [1][121] - 尝试将 MCoT 应用于 K 线技术分析场景，构建智能化、自动化技术分析平台 GPT - Kline，实现技术分析全流程自动化 [1][121] - GPT - Kline 能基于 K 线图像准确识别和深入推理，实现可靠走势分析、精准指标及形态标注、逻辑连贯报告输出 [1][121] 根据相关目录分别进行总结大模型如何基于图片思考 - 多模态协同是大模型通往通用人工智能的必经之路，多模态大模型致力于将智能从文本单模态泛化至多模态领域 [17] - 早期多模态大模型仅增加图像输入，未充分挖掘多模态潜力，MCoT 可让大模型从“感知理解图片”到“通过图片思考” [12] - 计算机视觉底层技术突破和大语言模型能力迭代促成多模态大模型飞速发展 [18] 多模态思维链：从 CoT 到 MCoT - CoT 方法通过提示引导模型“一步一步思考”，提升其在复杂任务上的表现，与 TTS 方法结合让“思考”成为内生能力 [21] - TTS 为大模型测试阶段分配更多计算资源，如 DeepSeek - R1 模型通过强化学习提升推理表现 [23] - MCoT 是 CoT 在多模态领域的扩展，让大模型在图像问答任务中表现提升，扩展多模态大模型能力边界 [27][31] O3：从 Think Over Image 到 Think By Image - 2025 年 4 月 OpenAI 上线“满血版”O3 模型，展现惊艳图像推理能力，实现真正的“多模态推理” [37] - O3 模型在推理中调用工具应对复杂多模态任务，无需用户提示，自主规划流程 [37] - O3 在多模态推理和工具调用方面表现优异，但在文本写作、编码领域较弱，幻觉现象严重，未达通用人工智能标准 [39] MCoT 在投研中的应用初探：自动化技术分析 - 股票 K 线图与技术分析符合多模态、逻辑推理特征，是 MCoT 能力圈的应用场景，可构建大模型自动化技术分析应用 [42] O3 在技术分析任务中的表现 - O3 模型接收技术分析任务后，对图像建立感知，估算尺寸和坐标，裁剪图像，建立对应关系，规划标注内容 [46][50] - O3 调用 Python 工具在图像上绘制支撑/压力线和趋势线，标注较清晰完整，写代码规范可运行 [54][60] - O3 最终生成的技术分析报告结构清晰，分析有理有据，与标注呼应，给出走势判断和操作建议 [63] GPT - Kline：全自动技术分析流程的手动实现模型选择 - O3 模型存在输出不稳定、内容有限、使用门槛高的问题，需构建专业版 O3 模型 GPT - Kline [65][69] - 选用的大模型需具备多模态输入和工具调用能力，截至 2025 年 5 月，GPT - 4o、GPT - 4.1、Gemini - 2.5 - Pro 等模型符合要求 [66][69] 工具调用 - 为大模型设计与图像交互的工具，让其具备画图、标注能力，工具调用流程包括用户提供工具、模型决定调用、用户执行代码等步骤 [70][73] 流程设计 - 为大模型设计指令输入、读取数据、绘制图像、图像分析、图像标注、输出报告的技术分析全流程，实时反馈结果并保留对话记忆 [79] 应用封装 - 基于 Gradio 设计网页端应用，提供手动选择和自然语言指令两种分析模式，界面左右两栏分别显示标注 K 线图和分析过程 [83] 结果 - 模型对比发现，OpenAI 模型标注“消极”且位置偏差，豆包系列模型标注丰富但内容偏差大，指令跟随效果不稳定 [95] - 以 Gemini 2.5 Flash 模型为例展示全自动技术分析流程，包括绘制 K 线、初步分析、技术指标标注、生成技术分析报告 [96] 总结 - 研究深入探索多模态大模型推理能力及其在投研中的应用，构建 GPT - Kline 平台 [121] - 研究存在支持资产品类有限、长周期 K 线分析能力待探索、投研其他场景应用潜力待挖掘等未尽之处 [125]

让GPT-4o准确率大降，这个文档理解新基准揭秘大模型短板

机器之心· 2025-05-24 12:07

多模态大模型在文档理解领域的现状 - 当前多模态大模型（MLLMs）在文档理解基准测试（如DocVQA、ChartQA）中表现优异，但现有基准存在两大核心缺陷：脱离真实场景和无法评估鲁棒性[1] - 真实场景中文档多为手机/相机拍摄的纸质文件或屏幕截图，面临光照不均、物理扭曲、拍摄视角多变等复杂干扰[5] - 现有基准未模拟真实环境的复杂性和多样性，导致模型在实际应用中表现存疑[5] WildDoc数据集的构建与特点 - WildDoc是首个真实世界场景文档理解的基准数据集，由字节跳动OCR团队联合华中科技大学打造[3] - 数据集包含超过12,000张手动拍摄的图片，覆盖环境、光照、视角、扭曲和拍摄效果等五个影响因素[3] - 数据采集过程包括场景多样化、基准对齐和多条件拍摄，确保覆盖多维度干扰因素[11] - 对图像中的文本、布局等关键信息进行人工验证，并通过一致性分数评估模型在不同条件下的稳定性[11] 实验结果与发现 - 主流MLLMs在WildDoc上性能显著下降，例如GPT-4o平均准确率下降35.3，ChartQA子集下降达56.4[12] - 开源模型Qwen2.5-VL-72B平均准确率70.6，为开源最佳，但仍低于原始基准约15%[12] - 闭源模型Doubao-1.5-pro表现最优（平均准确率73.7%），但一致性分数仅55.0[12] - 物理扭曲最具挑战性，导致模型性能下降最显著（如GPT-4o下降34.1-34.7）[13] - 非正面视角与图像质量对性能影响较大，但屏幕捕获图像因数据增强算法成熟，性能下降较小[13] - 大参数量模型在WildDoc上表现略优，但未完全克服真实场景挑战[13] 未来改进方向 - 数据增强：通过更多增强技术模拟真实世界条件，如变化的光照、阴影等[19] - 鲁棒特征学习：让模型学会提取对真实世界变化不敏感的特征[19] - 真实数据引入：收集更多真实世界文档图像，丰富训练数据集[19]

多模态大模型（MLLMs）

文档理解

Artificial Intelligence

Artificial Intelligence

WildDoc

GPT-4o

Qwen2.5-VL-72B