Agent专题报告：MiroFish实测：多智能体宏观与行业趋势推演

量化模型与构建方式 1. 模型名称：MiroFish 群体智能预测引擎[1][7] * 模型构建思路：构建一个高保真平行数字世界，通过多智能体（Agent）在虚拟环境中的社会交互与演化，涌现出群体行为模式，从而对宏观与行业趋势进行推演和预测[4][7]。 * 模型具体构建过程： 1. 输入与图谱构建：用户上传“种子材料”（如新闻、政策、报告等）和模拟提示词[15]。系统利用LLM分析文档，自动提取实体类型（Entity Types）与关系类型（Edge Types），构建知识图谱，并为每个实体节点注入个体记忆与群体记忆，形成可演化的数字社会基础架构[16]。 2. 智能体生成：将知识图谱中的Person节点转化为具备完整人格的Agent，Organization节点转化为拟人化实体[17]。每个Agent的配置包括：年龄、性别、MBTI、职业、国籍、活动频率、情感倾向、立场、影响力权重，以及基于“种子材料”生成的认知背景[17]。系统还会配置Agent自动生成OASIS仿真规则（如互动频率、话题敏感度等）[17]。 3. 双轨仿真推演：系统启动模拟的X（原Twitter）与Reddit两个社交平台进行并行仿真[20]。Agent在这些平台上进行互动（如发表观点、回复、点赞等）[35][36]。通过zep_graph_memory_updater.py脚本，Agent的行为被实时转化为自然语言描述并回写至Zep Cloud的时序知识图谱中，实现关系动态更新（如信任度衰减、立场转变）[20]。 4. 报告生成：采用ReACT（Reasoning & Acting）范式，主动调用工具集生成结构化报告[20]。工具集包括： * insight_forge：深度洞察提取[22] * panorama_search：跨平台全景检索[22] * interview_agents：智能体访谈（查询决策动机）[22] 报告整合双平台数据，识别舆论极化、级联传播等复杂网络特征，最终输出包含事件脉络、关键节点、风险预警、策略建议的结构化Markdown报告[20]。 * 模型评价：该模型在知识图谱构建、Agent人格设计、端到端流程自动化及多元视角模拟方面表现突出[4][58]。其核心价值在于提供强叙事性与逻辑闭环的分析框架，适合用于政策影响推演、技术路线排查及假设情景测试等需要反复推敲的宏观研究领域[4][69]。但由于其封闭模拟环境极度依赖“种子文件”的准确性与完整性，容易放大假设偏误，且受限于Token成本难以实现大规模深度交互，因此更适合作为逻辑推演与查漏补缺的“沙盒”工具，而非高精度预测终端[4][42][69]。 2. 模型名称：基于MiroFish的基模型对比测评框架[65][67] * 模型构建思路：在MiroFish系统架构之上，更换不同的底层大语言模型（LLM）作为基模型，以测评不同基模型在金融任务推演中的效果差异[65]。 * 模型具体构建过程： 1. 保持MiroFish的工作流程、种子材料和模拟提示词不变[65]。 2. 分别使用Qwen 3.5-plus和Claude Opus 4.6作为基模型，运行相同的四个金融任务场景（产业政策、资产预测、地缘推演、科技路径）[65]。 3. 记录并对比不同基模型下的各项基本指标（如总耗时、总动作数、报告长度、图谱节点与边数）[65][67]。 4. 使用独立的Claude Code对生成报告的质量进行多维度评估和打分[65][68]。 * 模型评价：该测评框架揭示了不同基模型的特质：Claude Opus 4.6在因果推演、结构化分析、信息诚实度和语言一致性方面表现更优；而Qwen 3.5-plus在数据密度、结论具象化和投资可操作性方面更具优势[4][67][68]。这为根据具体任务需求（如重逻辑推演还是重落地执行）选择合适的基模型提供了依据。模型的回测效果 1. MiroFish 群体智能预测引擎 * 黄金走势预测案例核心结论：模型预测2026年黄金价格将在一季度飙升后，以宽幅震荡代替深幅回调，在新的信用定价体系中寻找更高的历史中枢[36]。 * 与联网LLM对比评价（ChatGPT评分）：在宏观深度（9.5分）、逻辑完整性（9分）上得分较高；在数据量化（6分）、可交易性（5分）、情景分析（6分）、风险控制（6分）、假设稳健性（5分）上得分较低；总分6.6/10[56]。 * 基础能力测评结果：知识图谱构建能力较强，尤其擅长处理非结构化信息；Agent画像生成在角色多样性、人设深度、关系网络方面优秀，但在MBTI多样性上一般，年龄/性别多样性不足；预测一致性良好；输入敏感性合理；Agent采访与深度对话质量出色[58]。 * 金融任务测评结果： * 产业政策场景：耗时1926秒，生成14个Agent，92个交互行为，报告7240字符[60][61]。 * 资产预测场景：耗时1586秒，生成Agent数量未明确，84个交互行为，报告7315字符[60][62]。 * 地缘推演场景：耗时1825秒，生成Agent数量未明确，124个交互行为，报告8688字符[60][63]。 * 科技路径场景：耗时3245秒，生成Agent数量未明确，164个交互行为，报告7549字符[60][64]。 2. 基于MiroFish的基模型对比测评框架 * 基本指标对比结果（Claude Opus 4.6 vs Qwen 3.5-plus）： * 总耗时：在所有四个场景中，Claude均显著快于Qwen[65][67]。 * 总动作数：在产业政策、资产预测、地缘推演场景中Claude略多；在科技路径场景中Qwen更多[67]。 * 报告长度：结果不一，在资产预测场景中Claude报告更长，在其他三个场景中Qwen报告更长[67]。 * 图谱规模：Qwen倾向于构建更大、更密的知识图谱（节点和边数更多），而Claude的图谱更精简[65][67]。 * 报告质量指标对比结果（平均分，Qwen/Claude）： * 推演深度：3.88 / 4.38[68] * 逻辑合理性：3.63 / 4.38[68] * 逻辑完整性：3.38 / 4.50[68] * 逻辑细节度：4.50 / 4.00[68] * 结论明确度：4.25 / 3.88[68] * 观点多元性：3.88 / 4.25[68] * 创新性/独特洞察：3.75 / 4.38[68] * 可操作性：4.25 / 3.50[68] * 证据引用质量：3.13 / 4.50[68] * 风险分析深度：3.50 / 4.50[68] * 语言表达质量：3.25 / 4.50[68] * 信息边界意识：2.50 / 4.50[68]