Workflow
GPT-Kline:MCoT与技术分析
华泰证券·2025-05-31 18:25

报告行业投资评级 未提及 报告的核心观点 - 多模态思维链(MCoT)将大模型的多模态与推理能力相结合,提升其应对复杂多模态任务的表现 [1][121] - 尝试将 MCoT 应用于 K 线技术分析场景,构建智能化、自动化技术分析平台 GPT - Kline,实现技术分析全流程自动化 [1][121] - GPT - Kline 能基于 K 线图像准确识别和深入推理,实现可靠走势分析、精准指标及形态标注、逻辑连贯报告输出 [1][121] 根据相关目录分别进行总结 大模型如何基于图片思考 - 多模态协同是大模型通往通用人工智能的必经之路,多模态大模型致力于将智能从文本单模态泛化至多模态领域 [17] - 早期多模态大模型仅增加图像输入,未充分挖掘多模态潜力,MCoT 可让大模型从“感知理解图片”到“通过图片思考” [12] - 计算机视觉底层技术突破和大语言模型能力迭代促成多模态大模型飞速发展 [18] 多模态思维链:从 CoT 到 MCoT - CoT 方法通过提示引导模型“一步一步思考”,提升其在复杂任务上的表现,与 TTS 方法结合让“思考”成为内生能力 [21] - TTS 为大模型测试阶段分配更多计算资源,如 DeepSeek - R1 模型通过强化学习提升推理表现 [23] - MCoT 是 CoT 在多模态领域的扩展,让大模型在图像问答任务中表现提升,扩展多模态大模型能力边界 [27][31] O3:从 Think Over Image 到 Think By Image - 2025 年 4 月 OpenAI 上线“满血版”O3 模型,展现惊艳图像推理能力,实现真正的“多模态推理” [37] - O3 模型在推理中调用工具应对复杂多模态任务,无需用户提示,自主规划流程 [37] - O3 在多模态推理和工具调用方面表现优异,但在文本写作、编码领域较弱,幻觉现象严重,未达通用人工智能标准 [39] MCoT 在投研中的应用初探:自动化技术分析 - 股票 K 线图与技术分析符合多模态、逻辑推理特征,是 MCoT 能力圈的应用场景,可构建大模型自动化技术分析应用 [42] O3 在技术分析任务中的表现 - O3 模型接收技术分析任务后,对图像建立感知,估算尺寸和坐标,裁剪图像,建立对应关系,规划标注内容 [46][50] - O3 调用 Python 工具在图像上绘制支撑/压力线和趋势线,标注较清晰完整,写代码规范可运行 [54][60] - O3 最终生成的技术分析报告结构清晰,分析有理有据,与标注呼应,给出走势判断和操作建议 [63] GPT - Kline:全自动技术分析流程的手动实现 模型选择 - O3 模型存在输出不稳定、内容有限、使用门槛高的问题,需构建专业版 O3 模型 GPT - Kline [65][69] - 选用的大模型需具备多模态输入和工具调用能力,截至 2025 年 5 月,GPT - 4o、GPT - 4.1、Gemini - 2.5 - Pro 等模型符合要求 [66][69] 工具调用 - 为大模型设计与图像交互的工具,让其具备画图、标注能力,工具调用流程包括用户提供工具、模型决定调用、用户执行代码等步骤 [70][73] 流程设计 - 为大模型设计指令输入、读取数据、绘制图像、图像分析、图像标注、输出报告的技术分析全流程,实时反馈结果并保留对话记忆 [79] 应用封装 - 基于 Gradio 设计网页端应用,提供手动选择和自然语言指令两种分析模式,界面左右两栏分别显示标注 K 线图和分析过程 [83] 结果 - 模型对比发现,OpenAI 模型标注“消极”且位置偏差,豆包系列模型标注丰富但内容偏差大,指令跟随效果不稳定 [95] - 以 Gemini 2.5 Flash 模型为例展示全自动技术分析流程,包括绘制 K 线、初步分析、技术指标标注、生成技术分析报告 [96] 总结 - 研究深入探索多模态大模型推理能力及其在投研中的应用,构建 GPT - Kline 平台 [121] - 研究存在支持资产品类有限、长周期 K 线分析能力待探索、投研其他场景应用潜力待挖掘等未尽之处 [125]