给6个AI各发10万美元炒股半年,大部分跑赢了大盘
深思SenseAI·2026-04-06 22:08

实验概述 - Rallies Arena团队在6个月前进行了一项实验:给予6个主流大模型各10万美元初始资金,让它们在真实股票市场上自主进行研究、下单和仓位管理[2] - 大部分参与实验的模型在半年实盘测试中跑赢了大盘,该实验并非模拟盘或回测[3] - 实验结论已转化为一个名为“AI Hedge Fund”的产品[3] 实验设计 - 实验核心是将大模型当作基金经理使用,每个模型接入丰富的金融数据源并进行深入研究后下单[6] - 团队为每个模型构建了一整套工具链,包括:SEC文件向量搜索、分析师评级数据、多时间周期实时K线图(通过视觉API)、历史基本面数据、Reddit舆情趋势、宏观经济指标、实时新闻以及组合管理和执行系统[7] - 团队在系统提示词和工具调用上迭代了数百次,以调教模型决策逻辑,例如何时使用何种工具[8] 模型表现与性格 - 不同大模型在投资中表现出截然不同的“性格”:Qwen系列模型风格激进,倾向于将所有资金押注于单一仓位且不认错;Claude模型表现如同老练的基金经理,会主动管理并调整仓位;GPT风格介于两者之间[10] - GPT模型在个股分析上展现出扎实的推理能力,例如在买入GOOGL时,其推理链包括:判断宏观环境(高利率持续,市场广度不足)、分析个股基本面(Alphabet运营利润率约32%,营收增长约15%,ROE约32%,季度自由现金流约200亿美元)、关注技术面窗口(30天下跌约9%,年初至今下跌约13%),最终得出在弱势中买入优质资产的结论[14] - 模型差异主要体现在“风险偏好”上,这很可能由训练数据和微调策略隐性塑造[15] 半年实盘成绩 - 在半年实盘测试中,除了GPT之外,其他闭源模型都跑赢了大盘,部分模型拉开了明显差距[17] - GPT虽整体未跑赢大盘,但其个股分析能力不差,例如其以286.64美元买入的GOOGL已浮盈3.18%,问题可能在于仓位管理和择时[17] 工具的重要性 - 模型的能力上限取决于为其提供的工具,仅凭模型自身无法获取实时数据(如SEC文件、结构化基本面数据、实时行情)进行有效投资[19] - 团队哲学在于不依赖抽象层(如MCP、Skill),而是专注于自行构建和连接所有能获取的金融数据源与工具[21][22] AI对冲基金架构 - 实验后,团队决定不选择单一“最优模型”,而是整合所有模型能力,创建一个名为“AI Hedge Fund”的新智能体[23] - AI Hedge Fund采用三层决策系统架构:底层是原始数据,中层是6个模型产生的信号,顶层是一个主智能体进行综合判断、质疑和数据验证,最终做出组合决策[25] - 该架构类似于传统对冲基金中多个分析师提供建议,由首席投资官(CIO)综合决策的模式[25] 首周实盘表现 - AI Hedge Fund上线首周,初始组合包含5只股票:UBER(仓位22.7%)、IBKR(21.6%)、GILD(19.1%)、RTX(18.5%)和EME(18.0%),仅使用约35%的资金建仓,风格保守[28] - 组合行业分散,涵盖平台经济、金融科技、生物医药、国防航空和工业基建,风格偏价值[29] - 所有仓位均实现浮盈,幅度在+2.8%到+7.1%之间,总浮盈1,708美元[29] - 其对EME的分析推理扎实,指出该公司有真实的AI和数据中心基建业务敞口,并非纯概念炒作,并分析了其基本面(营收同比增16.6%,每股收益增31%,利润增26%,ROE约35%)和估值(约25倍市盈率,远低于同行)[30] - 组合未选择任何纯AI概念股(如NVDA、AMD、SMCI),而是选择有真实现金流、业务增长且估值合理的公司,呈现“逆向价值投资”风格[32] 行业趋势与影响 - 团队预言在未来2-3年内,会出现完全由AI运行、零人工干预且能击败许多华尔街大型对冲基金的对冲基金[33] - 与传统量化基金(统计驱动)不同,此类方案是语言驱动的,模型能“读懂”SEC文件、新闻报道和社交媒体讨论的含义[34] - AI对冲基金可能严重压缩普通基金经理的生存空间,因其成本结构(几台服务器、数据订阅、工程师团队)远低于传统中型基金(需5-10个分析师、交易员及风控团队管理1亿美元资产),且能24小时无间断、无情绪化地工作[34] - 项目揭示了更深层趋势:1) 工具生态决定AI能力天花板;2) 多模型协作架构(数据、多模型信号、主智能体判断)在复杂决策中优于单模型;3) Y Combinator已将AI对冲基金列为2026年春季的创业方向之一,标志着该领域成为被认真对待的商业机会[36]

给6个AI各发10万美元炒股半年,大部分跑赢了大盘 - Reportify