群体智能预测
搜索文档
Agent专题报告:MiroFish实测:多智能体宏观与行业趋势推演
国联民生证券· 2026-03-24 10:10
量化模型与构建方式 1. **模型名称:MiroFish 群体智能预测引擎**[1][7] * **模型构建思路**:构建一个高保真平行数字世界,通过多智能体(Agent)在虚拟环境中的社会交互与演化,涌现出群体行为模式,从而对宏观与行业趋势进行推演和预测[4][7]。 * **模型具体构建过程**: 1. **输入与图谱构建**:用户上传“种子材料”(如新闻、政策、报告等)和模拟提示词[15]。系统利用LLM分析文档,自动提取实体类型(Entity Types)与关系类型(Edge Types),构建知识图谱,并为每个实体节点注入个体记忆与群体记忆,形成可演化的数字社会基础架构[16]。 2. **智能体生成**:将知识图谱中的Person节点转化为具备完整人格的Agent,Organization节点转化为拟人化实体[17]。每个Agent的配置包括:年龄、性别、MBTI、职业、国籍、活动频率、情感倾向、立场、影响力权重,以及基于“种子材料”生成的认知背景[17]。系统还会配置Agent自动生成OASIS仿真规则(如互动频率、话题敏感度等)[17]。 3. **双轨仿真推演**:系统启动模拟的X(原Twitter)与Reddit两个社交平台进行并行仿真[20]。Agent在这些平台上进行互动(如发表观点、回复、点赞等)[35][36]。通过`zep_graph_memory_updater.py`脚本,Agent的行为被实时转化为自然语言描述并回写至Zep Cloud的时序知识图谱中,实现关系动态更新(如信任度衰减、立场转变)[20]。 4. **报告生成**:采用ReACT(Reasoning & Acting)范式,主动调用工具集生成结构化报告[20]。工具集包括: * `insight_forge`:深度洞察提取[22] * `panorama_search`:跨平台全景检索[22] * `interview_agents`:智能体访谈(查询决策动机)[22] 报告整合双平台数据,识别舆论极化、级联传播等复杂网络特征,最终输出包含事件脉络、关键节点、风险预警、策略建议的结构化Markdown报告[20]。 * **模型评价**:该模型在知识图谱构建、Agent人格设计、端到端流程自动化及多元视角模拟方面表现突出[4][58]。其核心价值在于提供强叙事性与逻辑闭环的分析框架,适合用于政策影响推演、技术路线排查及假设情景测试等需要反复推敲的宏观研究领域[4][69]。但由于其封闭模拟环境极度依赖“种子文件”的准确性与完整性,容易放大假设偏误,且受限于Token成本难以实现大规模深度交互,因此更适合作为逻辑推演与查漏补缺的“沙盒”工具,而非高精度预测终端[4][42][69]。 2. **模型名称:基于MiroFish的基模型对比测评框架**[65][67] * **模型构建思路**:在MiroFish系统架构之上,更换不同的底层大语言模型(LLM)作为基模型,以测评不同基模型在金融任务推演中的效果差异[65]。 * **模型具体构建过程**: 1. 保持MiroFish的工作流程、种子材料和模拟提示词不变[65]。 2. 分别使用**Qwen 3.5-plus**和**Claude Opus 4.6**作为基模型,运行相同的四个金融任务场景(产业政策、资产预测、地缘推演、科技路径)[65]。 3. 记录并对比不同基模型下的各项基本指标(如总耗时、总动作数、报告长度、图谱节点与边数)[65][67]。 4. 使用独立的Claude Code对生成报告的质量进行多维度评估和打分[65][68]。 * **模型评价**:该测评框架揭示了不同基模型的特质:Claude Opus 4.6在因果推演、结构化分析、信息诚实度和语言一致性方面表现更优;而Qwen 3.5-plus在数据密度、结论具象化和投资可操作性方面更具优势[4][67][68]。这为根据具体任务需求(如重逻辑推演还是重落地执行)选择合适的基模型提供了依据。 模型的回测效果 1. **MiroFish 群体智能预测引擎** * **黄金走势预测案例核心结论**:模型预测2026年黄金价格将在一季度飙升后,以宽幅震荡代替深幅回调,在新的信用定价体系中寻找更高的历史中枢[36]。 * **与联网LLM对比评价(ChatGPT评分)**:在宏观深度(9.5分)、逻辑完整性(9分)上得分较高;在数据量化(6分)、可交易性(5分)、情景分析(6分)、风险控制(6分)、假设稳健性(5分)上得分较低;总分6.6/10[56]。 * **基础能力测评结果**:知识图谱构建能力较强,尤其擅长处理非结构化信息;Agent画像生成在角色多样性、人设深度、关系网络方面优秀,但在MBTI多样性上一般,年龄/性别多样性不足;预测一致性良好;输入敏感性合理;Agent采访与深度对话质量出色[58]。 * **金融任务测评结果**: * **产业政策场景**:耗时1926秒,生成14个Agent,92个交互行为,报告7240字符[60][61]。 * **资产预测场景**:耗时1586秒,生成Agent数量未明确,84个交互行为,报告7315字符[60][62]。 * **地缘推演场景**:耗时1825秒,生成Agent数量未明确,124个交互行为,报告8688字符[60][63]。 * **科技路径场景**:耗时3245秒,生成Agent数量未明确,164个交互行为,报告7549字符[60][64]。 2. **基于MiroFish的基模型对比测评框架** * **基本指标对比结果(Claude Opus 4.6 vs Qwen 3.5-plus)**: * **总耗时**:在所有四个场景中,Claude均显著快于Qwen[65][67]。 * **总动作数**:在产业政策、资产预测、地缘推演场景中Claude略多;在科技路径场景中Qwen更多[67]。 * **报告长度**:结果不一,在资产预测场景中Claude报告更长,在其他三个场景中Qwen报告更长[67]。 * **图谱规模**:Qwen倾向于构建更大、更密的知识图谱(节点和边数更多),而Claude的图谱更精简[65][67]。 * **报告质量指标对比结果(平均分,Qwen/Claude)**: * 推演深度:3.88 / 4.38[68] * 逻辑合理性:3.63 / 4.38[68] * 逻辑完整性:3.38 / 4.50[68] * 逻辑细节度:4.50 / 4.00[68] * 结论明确度:4.25 / 3.88[68] * 观点多元性:3.88 / 4.25[68] * 创新性/独特洞察:3.75 / 4.38[68] * 可操作性:4.25 / 3.50[68] * 证据引用质量:3.13 / 4.50[68] * 风险分析深度:3.50 / 4.50[68] * 语言表达质量:3.25 / 4.50[68] * 信息边界意识:2.50 / 4.50[68]