Agent专题报告:MiroFish实测:多智能体宏观与行业趋势推演
国联民生证券·2026-03-24 10:10

量化模型与构建方式 1. 模型名称:MiroFish 群体智能预测引擎[1][7] * 模型构建思路:构建一个高保真平行数字世界,通过多智能体(Agent)在虚拟环境中的社会交互与演化,涌现出群体行为模式,从而对宏观与行业趋势进行推演和预测[4][7]。 * 模型具体构建过程: 1. 输入与图谱构建:用户上传“种子材料”(如新闻、政策、报告等)和模拟提示词[15]。系统利用LLM分析文档,自动提取实体类型(Entity Types)与关系类型(Edge Types),构建知识图谱,并为每个实体节点注入个体记忆与群体记忆,形成可演化的数字社会基础架构[16]。 2. 智能体生成:将知识图谱中的Person节点转化为具备完整人格的Agent,Organization节点转化为拟人化实体[17]。每个Agent的配置包括:年龄、性别、MBTI、职业、国籍、活动频率、情感倾向、立场、影响力权重,以及基于“种子材料”生成的认知背景[17]。系统还会配置Agent自动生成OASIS仿真规则(如互动频率、话题敏感度等)[17]。 3. 双轨仿真推演:系统启动模拟的X(原Twitter)与Reddit两个社交平台进行并行仿真[20]。Agent在这些平台上进行互动(如发表观点、回复、点赞等)[35][36]。通过zep_graph_memory_updater.py脚本,Agent的行为被实时转化为自然语言描述并回写至Zep Cloud的时序知识图谱中,实现关系动态更新(如信任度衰减、立场转变)[20]。 4. 报告生成:采用ReACT(Reasoning & Acting)范式,主动调用工具集生成结构化报告[20]。工具集包括: * insight_forge:深度洞察提取[22] * panorama_search:跨平台全景检索[22] * interview_agents:智能体访谈(查询决策动机)[22] 报告整合双平台数据,识别舆论极化、级联传播等复杂网络特征,最终输出包含事件脉络、关键节点、风险预警、策略建议的结构化Markdown报告[20]。 * 模型评价:该模型在知识图谱构建、Agent人格设计、端到端流程自动化及多元视角模拟方面表现突出[4][58]。其核心价值在于提供强叙事性与逻辑闭环的分析框架,适合用于政策影响推演、技术路线排查及假设情景测试等需要反复推敲的宏观研究领域[4][69]。但由于其封闭模拟环境极度依赖“种子文件”的准确性与完整性,容易放大假设偏误,且受限于Token成本难以实现大规模深度交互,因此更适合作为逻辑推演与查漏补缺的“沙盒”工具,而非高精度预测终端[4][42][69]。 2. 模型名称:基于MiroFish的基模型对比测评框架[65][67] * 模型构建思路:在MiroFish系统架构之上,更换不同的底层大语言模型(LLM)作为基模型,以测评不同基模型在金融任务推演中的效果差异[65]。 * 模型具体构建过程: 1. 保持MiroFish的工作流程、种子材料和模拟提示词不变[65]。 2. 分别使用Qwen 3.5-plusClaude Opus 4.6作为基模型,运行相同的四个金融任务场景(产业政策、资产预测、地缘推演、科技路径)[65]。 3. 记录并对比不同基模型下的各项基本指标(如总耗时、总动作数、报告长度、图谱节点与边数)[65][67]。 4. 使用独立的Claude Code对生成报告的质量进行多维度评估和打分[65][68]。 * 模型评价:该测评框架揭示了不同基模型的特质:Claude Opus 4.6在因果推演、结构化分析、信息诚实度和语言一致性方面表现更优;而Qwen 3.5-plus在数据密度、结论具象化和投资可操作性方面更具优势[4][67][68]。这为根据具体任务需求(如重逻辑推演还是重落地执行)选择合适的基模型提供了依据。 模型的回测效果 1. MiroFish 群体智能预测引擎 * 黄金走势预测案例核心结论:模型预测2026年黄金价格将在一季度飙升后,以宽幅震荡代替深幅回调,在新的信用定价体系中寻找更高的历史中枢[36]。 * 与联网LLM对比评价(ChatGPT评分):在宏观深度(9.5分)、逻辑完整性(9分)上得分较高;在数据量化(6分)、可交易性(5分)、情景分析(6分)、风险控制(6分)、假设稳健性(5分)上得分较低;总分6.6/10[56]。 * 基础能力测评结果:知识图谱构建能力较强,尤其擅长处理非结构化信息;Agent画像生成在角色多样性、人设深度、关系网络方面优秀,但在MBTI多样性上一般,年龄/性别多样性不足;预测一致性良好;输入敏感性合理;Agent采访与深度对话质量出色[58]。 * 金融任务测评结果: * 产业政策场景:耗时1926秒,生成14个Agent,92个交互行为,报告7240字符[60][61]。 * 资产预测场景:耗时1586秒,生成Agent数量未明确,84个交互行为,报告7315字符[60][62]。 * 地缘推演场景:耗时1825秒,生成Agent数量未明确,124个交互行为,报告8688字符[60][63]。 * 科技路径场景:耗时3245秒,生成Agent数量未明确,164个交互行为,报告7549字符[60][64]。 2. 基于MiroFish的基模型对比测评框架 * 基本指标对比结果(Claude Opus 4.6 vs Qwen 3.5-plus): * 总耗时:在所有四个场景中,Claude均显著快于Qwen[65][67]。 * 总动作数:在产业政策、资产预测、地缘推演场景中Claude略多;在科技路径场景中Qwen更多[67]。 * 报告长度:结果不一,在资产预测场景中Claude报告更长,在其他三个场景中Qwen报告更长[67]。 * 图谱规模:Qwen倾向于构建更大、更密的知识图谱(节点和边数更多),而Claude的图谱更精简[65][67]。 * 报告质量指标对比结果(平均分,Qwen/Claude): * 推演深度:3.88 / 4.38[68] * 逻辑合理性:3.63 / 4.38[68] * 逻辑完整性:3.38 / 4.50[68] * 逻辑细节度:4.50 / 4.00[68] * 结论明确度:4.25 / 3.88[68] * 观点多元性:3.88 / 4.25[68] * 创新性/独特洞察:3.75 / 4.38[68] * 可操作性:4.25 / 3.50[68] * 证据引用质量:3.13 / 4.50[68] * 风险分析深度:3.50 / 4.50[68] * 语言表达质量:3.25 / 4.50[68] * 信息边界意识:2.50 / 4.50[68]

Agent专题报告:MiroFish实测:多智能体宏观与行业趋势推演 - Reportify