马斯克xAI新模型上线，通过“50米外洗车店”测试，回答偏好高度贴合老马本人

公司动态 - xAI公司发布了其最新大语言模型Grok 4.2的公测Beta版 [1] - 尽管公司近期出现人员动荡，但新模型发布计划未受影响 [1] - 公司创始人马斯克通过社交媒体积极为新模型进行公关，回应质疑并预告未来改进 [2][18] - 公司计划在公测结束后，使Grok 4.2比Grok 4版本“快得多，也聪明得多” [2] - 公司尚未发布详尽的技术报告，模型的技术细节和基准测试表现信息有限 [11] 产品技术 - Grok 4.2模型的参数量为500B（即5000亿），相较于当前动辄数万亿参数的模型阵营显得较为克制 [1][13] - 模型底层架构具备每周自我迭代的能力，计划实现每周更新 [3] - 模型引入了基于实时反馈的持续优化（快速学习）能力，与以往静态更新逻辑不同 [9] - 目前发布的为500B参数的“小”版本，中、大型版本计划稍后推出 [19] - 模型通过了特定的网络流行测试，例如“50米外有个洗车店”和“Caitlyn Jenner”的AI测试 [6][17] 市场反馈 - 模型上线后市场反馈呈现两极分化，存在“夸夸派”与“不行派” [1][13] - 正面反馈包括称赞其代码功能和多模态能力 [14] - 负面反馈主要认为其实测体验不及预期，尤其在处理高难度逻辑推理时，500B参数被认为不足 [13] - 有用户和开发者质疑其宣称的“横扫各大榜单”能力可能基于特定的实验室优化环境 [13] - 有测试指出模型的回答偏好高度贴合其创始人马斯克本人，与其宣称的“无偏见”模型存在差距 [14] - 有市场猜测认为，模型能力可能无法与OpenAI和Anthropic的最新模型媲美，且成本较高 [13] 发布历程 - 模型的发布历程多次推迟，自去年12月起创始人多次预告“3–4周内”或“下周上线”，但均未如期实现 [5] - 五天前，因公司联合创始人接连离职，外界一度认为Grok 4.2项目可能终止 [5] - 创始人紧急召开发布会，并宣称Grok 4.2在预测能力上“成功击败所有AI，横扫各大榜单” [5] - 公测Beta版并非默认版本，用户需手动选择才能使用 [9] - 公测将持续到下个月 [2]