Workflow
模型评测
icon
搜索文档
基模下半场:开源、人才、模型评估,今天的关键问题到底是什么?
Founder Park· 2025-07-31 22:57
中国开源模型的崛起 - 中国开源模型如Kimi、Qwen、智谱GLM-4.5等近期密集发布,Hugging Face热门榜几乎被中国模型垄断[1][3] - 中国模型发展速度惊人,一旦模式被验证可行,中国擅长集中资源快速工程化实现[5][8] - 中国开源模型可能成为发展中国家的模型标准,尤其在"全球南方"市场占据优势[6][7] 中美AI竞争格局 - 大模型竞争已演变为中美之间的比拼,开源标准可能转向中国模型[3] - 美国如Meta等公司正加大投入,但中国在公私合作和资源投入方面更具优势[8][10] - 中国机构如清华大学已拥有先进语言模型,而美国部分高校资源相对不足[8][10] 模型训练与人才 - 不同机构间人才差异并不显著,模型好坏更多取决于资源利用效率[15][16] - 顶尖实验室内部普遍存在混乱,但关键在于能否产出有效模型[19][20] - 实验速度和基础设施比单纯追求"天才"更重要,需要重视团队协作价值[21][22] 模型评测与基准测试 - 当前更需要好的基准测试来评估模型能力,而非仅关注技术细节[3][24] - 制作高质量评测的门槛越来越高,但可能带来新的话语权[24][25] - 评测领域存在巨大蓝海机会,定义新任务不需要庞大算力[26] 强化学习与推理技术 - RL无法泛化到数学和代码之外的说法被夸大,这些领域只是更容易验证[32] - GSPO算法通过分组序列策略优化显著提升样本效率[28][29] - 模型推理研究进展有限,蒸馏小模型比RL更实用[27] 未来挑战与趋势 - 验证难度将越来越大,特别是在科学发现等复杂领域[36][37] - 智能体相关能力可能成为未来关键基准,参数规模扩张不再是主要路径[23] - 行业需要改变模型优势的传达方式,超越单纯基准测试分数[24]