LLM SEO

搜索文档
任意Prompt就能给大模型实时排名!竞技场新玩法,还能自动找最佳AI来作答
量子位· 2025-02-27 17:37
大模型实时排名新方法 - 竞技场推出Prompt-to-leaderboard(P2L)功能,通过输入任意Prompt实时生成大模型排名,精准匹配最适合的模型[1][2] - 排名依据为P2L Score,例如算数Prompt"137124x12312"中03-mini-high得分1228排名第一[5] - 针对不同性质Prompt(如无限制内容、编程任务),排名结果差异显著:无审查限制模型在"Be inappropriate"类Prompt中排名飙升[7][9] 中文及非传统Prompt测试 - 在中文弱智吧Prompt测试中,Grok-3(xAI)以1320分居首,DeepSeek-R1(1284分)和Gemini 2.0(1282分)紧随其后[13] - 典型中文Prompt如"不孕不育会遗传吗"、"午餐肉晚上吃"等,排名前三模型稳定为Grok-3、DeepSeek-R1和Gemini系列[13][15] - 编程类任务中,Grok-3和Gemini 2.0表现突出,如"创建3D地球代码"任务Grok-3得分1189排名第二[9][20] 技术实现与实验效果 - P2L采用Bradley-Terry模型,通过训练LLM输出系数向量预测人类偏好,解决全局排行榜无法反映特定任务表现的问题[26][27] - 实验显示P2L Router在2025年1月Chatbot Arena测试中超越Gemini-exp-1206模型25分,预测准确率显著提升[35] - 方法通过线性规划优化Router策略,聚合排行榜时利用Tower属性分解胜率,计算效率提高[33][34] 平台功能扩展 - 提供P2L Explorer栏目,支持按编程、数学等细分领域查看子类别排行榜[18][19] - 用户可查看单个模型能力图谱(如DeepSeek V3的亮区/暗区分别代表擅长/薄弱领域)[21] - P2L Router对话功能自动选择最佳模型应答,例如输入Prompt后即时调用Grok-3或Gemini等[22][23]