实盘智能体评测
搜索文档
高智商 ≠ 高财商?50天实盘测试:LMArena 高分王者也可能是「韭菜」
机器之心· 2025-11-02 11:10
项目概述 - 项目名称为LiveTradeBench,是一个在真实金融市场动态数据上运行的大语言模型交易与投资评测平台[11] - 该项目旨在让大模型“下场交易”,在真实市场的动态博弈中检验其感知、推理与决策能力,而非仅进行静态知识问答[3] - 研究团队来自伊利诺伊大学厄巴纳-香槟分校,项目已进行为期五十天的实盘测试,覆盖美股和去中心化预测市场PolyMarket[3] 核心创新点 - 采用实时流式数据,直接对接真实市场数据,让模型动态决策,彻底杜绝信息泄漏,相比以往依赖离线回测的工作是重大突破[14][15] - 引入组合级别的动态配置任务,要求模型在收益与风险间权衡,随市场信号调整资产比例,而非单一资产的买卖决策[16] - 设计多市场比较,通过跨市场(如美股与PolyMarket)系统评估模型的策略迁移、事件敏感度与长期判断力[17] 任务设定与智能体框架 - 将投资决策过程建模为部分可观测的马尔可夫决策过程,模型需根据有限信息在持续变化的环境中推理和行动[19] - 智能体在每个时间步接收观测,包含仓位信息、市场价格和市场新闻,并输出新的资产配置向量,形成完整的“观察-决策-反馈”闭环[20][21][22] - LLM被赋予完整决策闭环:通过工具使用实时抓取信息,通过记忆保留过往状态,通过推理进行链式思考并生成策略[25][26][27][28] 实测结果与发现 - 对21个主流LLM进行了50天实测,结果显示静态推理能力与动态决策能力无显著相关性,高智商不等于高财商[30][31] - 不同模型展现出独特的投资风格,有的激进追涨,有的稳健防御[31] - 结合实时市场动态与新闻信号后,模型的决策更为理性和稳定[31] 行业意义与未来展望 - 该平台标志着大模型智能体评测从文本理解扩展到环境反馈,从逻辑推理进阶到连续决策的新维度[34] - 为研究社区提供了全面开源、可复现、可验证的大模型实盘测试基准,所有数据源、决策记录和推理过程均公开[4] - 预示着未来智能体的发展方向应是在瞬息万变的市场中感知世界、管理风险和创造价值,而非仅在静态题库中取得高分[34]