爆冷!字节Seed 在CCPC 决赛只做出一道签到题,而DeepSeek R1 直接挂零?
大模型在算法竞赛中的表现 - 字节Seed-Thinking在CCPC决赛中仅完成1道签到题(C题),表现远低于预期 [1][5] - 其他参赛模型表现:o3/o4各完成1题(G题)、Gemini 2.5 Pro完成1题(C题)、DeepSeek R1零题 [5] - 比赛采用纯模型自主解题模式,人类仅担任操作辅助角色,排除人为干预可能性 [6] 模型架构与技术特点 - Seed-Thinking-v1.5采用MoE架构,含200B总参数与20B激活参数,整合STEM问题与代码任务训练 [8] - o3采用128层Transformer+符号推理引擎,数学精度达人类水平;o4-mini参数量为o3五分之一但速度提升3.2倍 [8] - Gemini 2.5 Pro支持百万Token多模态输入,DeepSeek R1直接应用强化学习无需监督微调 [8][9] 大模型在算法领域的局限性 - 非Agentic模式下模型表现显著弱化(如字节比赛),而OpenAI在IOI夺金依赖工具调用等Agentic训练 [11] - 模型对未见过的创意题型适应性差,与人类解题困境类似 [11] - 算法竞赛能力与学历无关,顶尖选手多为青少年群体 [12] 推理模式对性能的影响 - 微软测试显示:模型在经典LeetCode题通过率超95%,但新题通过率骤降至27-80% [15][17] - 启用推理模式的模型(如o3-mini)在新题测试中表现最佳(79.8%通过率),较基础版提升显著 [15][17] - 人类在"未见过"题目中的通过率(37.05%)仍高于多数基础模型 [15]