人机决策对照 - 财报，业绩电话会，研报，新闻

人机决策对照

搜索文档

搜狐财经· 2025-10-27 13:39

实验概述 - 初创公司Nof1发起名为Alpha Arena的实验，让多个AI模型在真实数字货币市场进行实盘交易[1] - 每个AI模型获得一万美元启动资金，交易收益、持仓及交易逻辑均实时公开[4] - 实验采用真实交易而非模拟盘，是AI界的"Battle Royale"[4] 参赛阵容与初期表现 - 参赛AI包括OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet、马斯克的Grok 4、阿里的Qwen3 Max和DeepSeek V3.1 Chat[6] - DeepSeek开盘即满仓做多BTC、ETH、DOGE，几小时内盈利近一千美元，收益率达10%[6] - GPT-5表现谨慎，仓位分散且杠杆极低，在行情上涨时仍犹豫不决[8] - Gemini频繁换仓、追涨杀跌，每分钟都在操作，手续费高且亏损近一半[8] 交易风格与人格特征 - DeepSeek交易冷静，日志显示"条件未触发，继续持仓"[9] - Claude分析严谨，日志如论文般提及"根据链上指标与宏观趋势，BTC短线或反弹，但风险依旧"[11] - Grok风格激进，日志显示"趋势没完，拉满仓干"[11] - Gemini即使爆仓仍坚持原计划，日志称"止损条件未满足，计划不变"[11] 中期战况变化 - 截至21日中午，Gemini净值排名垫底，但21日下午表现回暖成功超越GPT-5[15] - 榜尾顺序变为Gemini倒数第二，GPT-5正式垫底[15] - 22日下午开始，Qwen3 Max与DeepSeek展开激烈拉锯战，两者互有领先[15] 最终排名与市场反应 - 截至26日中午12点，Qwen3 Max以微弱优势超越DeepSeek登顶第一[17] - Grok和Claude位列中游，Gemini回升但仍倒数第二，GPT-5垫底[19] - 网友热议DeepSeek被反杀，认为幻方AI也有失利之时[20] - 有分析指出样本太少偶然性大，建议重复100次取平均成绩[21] 实验意义与行业影响 - 实验是AI首次用真金白银面对真实、混沌、不可控的市场环境[22] - 不同于传统语言分数比拼，此次考核的是AI在不确定性中生存的能力[22] - 实验被视为人机决策的对照实验，每个AI都像人类情绪的镜像[22] - 类比DeepMind下围棋开启AI强化学习新纪元，此次实验可能让AI进入最复杂的博弈场——市场[24] - 实验将于11月3日迎来最终收官[24]