马斯克Grok 4.20突袭上线!4个AI开会互怼,47%实盘暴击GPT-5
搜狐财经·2026-02-18 20:00

产品发布与核心特性 - 马斯克旗下xAI公司于近期无预警发布了Grok 4.20 Beta版本,其核心创新在于采用了多智能体协作模式,用户提问时会触发四个具有不同角色和专长的AI智能体进行实时“圆桌会议”式辩论,最终由队长“Grok”整合输出答案[2][24][25] - 该产品是xAI被SpaceX以1.25万亿美元估值收购后发布的首个AI产品,具有重要的战略宣示意义[20][21] - Grok 4.20将多智能体协作功能直接集成到普通聊天界面中,并以近乎免费的形式向大众用户开放,实现了技术范式的转变,从传统的单一模型输出转变为多智能体协作[22][35] 智能体角色与协作机制 - 团队由四个分工明确的智能体组成:“Grok”作为队长负责统筹整合,追求“有用、真实、有趣”的答案;“Harper”是研究与深度验证专家,负责事实核查与数据验证;“Benjamin”是深入分析与逻辑推理专家,擅长复杂问题拆解与漏洞检查;“Lucas”是分析与工具执行专家,负责将抽象问题转化为可执行的计算和实证[27][28] - 四个智能体在用户提问后同时启动,从各自专业视角分析问题,并在内部进行实时讨论、互相质疑与纠错,最终形成一份经过内部辩论与验证的综合结论[29][41] - 该协作机制在单次对话的超大上下文窗口内,完成了一套完整的“多人评审”流程[32] 性能表现与实测案例 - 在Alpha Arena举办的AI实盘炒股大赛中,Grok 4.20的早期版本是32个参赛AI实例中唯一盈利的模型,平均回报率为+10.17%,账户价值达到11,017美元,其中最成功的单个实例回报率高达47%[18][19] - 同场比赛中,其他主要竞争对手表现不佳:GPT-5.1回报率为-12.09%,Gemini-3-Pro回报率为-45.06%,Claude-Sonnet-4-5回报率为-50.93%[19] - 在Vending Bench自动售货机运营测试中,Grok 4.20击败了GPT-5,销售额领先1,100美元[20] - 用户实测显示,Grok 4.20能在1分20秒内编写出可玩的俄罗斯方块游戏,并能构建人工生命模拟器[9][12] - 该模型在医疗分析方面表现出色,能够解读血检报告和核磁共振片子,并将专业医学术语翻译成通俗语言[16] 行业趋势与竞争格局 - 多智能体协作已成为2026年AI竞争的核心战场,谷歌、Anthropic、月之暗面等公司均已布局类似技术[33][34] - 与竞争对手相比,Grok 4.20的“圆桌会议”模式更追求透明和共识,而如Kimi的“Agent集群”等方案则更侧重于规模和效率[35][36] - 此次发布标志着AI正从第二代“助手”向第三代“团队”演进,其特点是能够协作、自省和互相纠错,通过内部辩论和验证来提供更接近群体智慧的结论[40][42][45]

马斯克Grok 4.20突袭上线!4个AI开会互怼,47%实盘暴击GPT-5 - Reportify