给6个AI各发10万美元炒股半年，大部分跑赢了大盘

实验概述 - Rallies Arena团队在6个月前进行了一项实验：给予6个主流大模型各10万美元初始资金，让它们在真实股票市场上自主进行研究、下单和仓位管理[2] - 大部分参与实验的模型在半年实盘测试中跑赢了大盘，该实验并非模拟盘或回测[3] - 实验结论已转化为一个名为“AI Hedge Fund”的产品[3] 实验设计 - 实验核心是将大模型当作基金经理使用，每个模型接入丰富的金融数据源并进行深入研究后下单[6] - 团队为每个模型构建了一整套工具链，包括：SEC文件向量搜索、分析师评级数据、多时间周期实时K线图（通过视觉API）、历史基本面数据、Reddit舆情趋势、宏观经济指标、实时新闻以及组合管理和执行系统[7] - 团队在系统提示词和工具调用上迭代了数百次，以调教模型决策逻辑，例如何时使用何种工具[8] 模型表现与性格 - 不同大模型在投资中表现出截然不同的“性格”：Qwen系列模型风格激进，倾向于将所有资金押注于单一仓位且不认错；Claude模型表现如同老练的基金经理，会主动管理并调整仓位；GPT风格介于两者之间[10] - GPT模型在个股分析上展现出扎实的推理能力，例如在买入GOOGL时，其推理链包括：判断宏观环境（高利率持续，市场广度不足）、分析个股基本面（Alphabet运营利润率约32%，营收增长约15%，ROE约32%，季度自由现金流约200亿美元）、关注技术面窗口（30天下跌约9%，年初至今下跌约13%），最终得出在弱势中买入优质资产的结论[14] - 模型差异主要体现在“风险偏好”上，这很可能由训练数据和微调策略隐性塑造[15] 半年实盘成绩 - 在半年实盘测试中，除了GPT之外，其他闭源模型都跑赢了大盘，部分模型拉开了明显差距[17] - GPT虽整体未跑赢大盘，但其个股分析能力不差，例如其以286.64美元买入的GOOGL已浮盈3.18%，问题可能在于仓位管理和择时[17] 工具的重要性 - 模型的能力上限取决于为其提供的工具，仅凭模型自身无法获取实时数据（如SEC文件、结构化基本面数据、实时行情）进行有效投资[19] - 团队哲学在于不依赖抽象层（如MCP、Skill），而是专注于自行构建和连接所有能获取的金融数据源与工具[21][22] AI对冲基金架构 - 实验后，团队决定不选择单一“最优模型”，而是整合所有模型能力，创建一个名为“AI Hedge Fund”的新智能体[23] - AI Hedge Fund采用三层决策系统架构：底层是原始数据，中层是6个模型产生的信号，顶层是一个主智能体进行综合判断、质疑和数据验证，最终做出组合决策[25] - 该架构类似于传统对冲基金中多个分析师提供建议，由首席投资官（CIO）综合决策的模式[25] 首周实盘表现 - AI Hedge Fund上线首周，初始组合包含5只股票：UBER（仓位22.7%）、IBKR（21.6%）、GILD（19.1%）、RTX（18.5%）和EME（18.0%），仅使用约35%的资金建仓，风格保守[28] - 组合行业分散，涵盖平台经济、金融科技、生物医药、国防航空和工业基建，风格偏价值[29] - 所有仓位均实现浮盈，幅度在+2.8%到+7.1%之间，总浮盈1,708美元[29] - 其对EME的分析推理扎实，指出该公司有真实的AI和数据中心基建业务敞口，并非纯概念炒作，并分析了其基本面（营收同比增16.6%，每股收益增31%，利润增26%，ROE约35%）和估值（约25倍市盈率，远低于同行）[30] - 组合未选择任何纯AI概念股（如NVDA、AMD、SMCI），而是选择有真实现金流、业务增长且估值合理的公司，呈现“逆向价值投资”风格[32] 行业趋势与影响 - 团队预言在未来2-3年内，会出现完全由AI运行、零人工干预且能击败许多华尔街大型对冲基金的对冲基金[33] - 与传统量化基金（统计驱动）不同，此类方案是语言驱动的，模型能“读懂”SEC文件、新闻报道和社交媒体讨论的含义[34] - AI对冲基金可能严重压缩普通基金经理的生存空间，因其成本结构（几台服务器、数据订阅、工程师团队）远低于传统中型基金（需5-10个分析师、交易员及风控团队管理1亿美元资产），且能24小时无间断、无情绪化地工作[34] - 项目揭示了更深层趋势：1) 工具生态决定AI能力天花板；2) 多模型协作架构（数据、多模型信号、主智能体判断）在复杂决策中优于单模型；3) Y Combinator已将AI对冲基金列为2026年春季的创业方向之一，标志着该领域成为被认真对待的商业机会[36]