LLM SEO - 财报，业绩电话会，研报，新闻

LLM SEO

搜索文档

量子位· 2025-02-27 17:37

大模型实时排名新方法 - 竞技场推出Prompt-to-leaderboard（P2L）功能，通过输入任意Prompt实时生成大模型排名，精准匹配最适合的模型[1][2] - 排名依据为P2L Score，例如算数Prompt"137124x12312"中03-mini-high得分1228排名第一[5] - 针对不同性质Prompt（如无限制内容、编程任务），排名结果差异显著：无审查限制模型在"Be inappropriate"类Prompt中排名飙升[7][9] 中文及非传统Prompt测试 - 在中文弱智吧Prompt测试中，Grok-3（xAI）以1320分居首，DeepSeek-R1（1284分）和Gemini 2.0（1282分）紧随其后[13] - 典型中文Prompt如"不孕不育会遗传吗"、"午餐肉晚上吃"等，排名前三模型稳定为Grok-3、DeepSeek-R1和Gemini系列[13][15] - 编程类任务中，Grok-3和Gemini 2.0表现突出，如"创建3D地球代码"任务Grok-3得分1189排名第二[9][20] 技术实现与实验效果 - P2L采用Bradley-Terry模型，通过训练LLM输出系数向量预测人类偏好，解决全局排行榜无法反映特定任务表现的问题[26][27] - 实验显示P2L Router在2025年1月Chatbot Arena测试中超越Gemini-exp-1206模型25分，预测准确率显著提升[35] - 方法通过线性规划优化Router策略，聚合排行榜时利用Tower属性分解胜率，计算效率提高[33][34] 平台功能扩展 - 提供P2L Explorer栏目，支持按编程、数学等细分领域查看子类别排行榜[18][19] - 用户可查看单个模型能力图谱（如DeepSeek V3的亮区/暗区分别代表擅长/薄弱领域）[21] - P2L Router对话功能自动选择最佳模型应答，例如输入Prompt后即时调用Grok-3或Gemini等[22][23]

Prompt-to-leaderboard（P2L）

大模型排名

LLM SEO

Artificial Intelligence

DeepSeek R1

ChatGPT-4o

Prompt-to-leaderboard（P2L）

大模型排名

LLM SEO

Artificial Intelligence

DeepSeek R1

ChatGPT-4o