Qwen3
搜索文档
不是所有token都平等,谷歌提出真·深度思考:思维链长≠深度推理
36氪· 2026-02-25 20:23
行业研究:大模型推理效率评估新范式 - 谷歌研究团队提出全新评估标准“深度思考比率”,用于衡量大语言模型的真实推理质量,该标准与推理准确率的相关系数高达0.82,显著优于传统以生成长度为指标的方法[6][8][9] - 研究发现,模型生成的token可分为“功能性词汇”和“深度思考词”,前者在模型浅层网络即被确定,后者在深层网络中预测分布持续变化,体现真正的思考过程[6][10] - 基于“深度思考比率”开发的Think@n策略,能在推理初期通过短前缀快速筛选高质量样本,将计算资源集中在深度思考上,从而大幅降低算力消耗[2][12] 技术突破:模型推理性能与成本优化 - Think@n策略在多个主流模型上测试,实现了准确率不降甚至略升的同时,将算力成本削减近一半,例如GPT-OSS-120B-medium在AIME 2025数据集上准确率从92.7%提升至94.7%,推理token消耗从355.6k降至181.9k[12] - 该策略在Qwen3-4B-Thinking等模型上也取得显著效果,在多个数据集上实现约50%的成本削减,例如在AIME 25数据集上,token消耗从1073.1k降至537.5k[13] - 研究颠覆了“思维链越长推理越好”的旧有认知,实验数据显示token长度与准确率的平均相关系数为-0.54,呈负相关,表明单纯增加推理步骤可能导致模型逻辑跑偏[3][5] 研究影响与团队背景 - 此项研究由谷歌团队主导,第一作者为弗吉尼亚大学计算机博士Wei-Lin Chen,共同一作为谷歌研究工程师Liqian Peng,指导作者为弗吉尼亚大学助理教授孟瑜[13][15][17] - 研究在AIME2024/2025、HMMT 2025、GPQA-Diamond四个推理数据集上,对GPT-OSS、DeepSeek-R1、Qwen3等8个模型变体进行了测试验证[3] - 该成果为大模型推理效率的评估和优化提供了新方向,强调“深度思考”而非“水字数”,有助于推动行业更高效地利用计算资源[19]
DeepSeek、月之暗面、MiniMax被点“非法提取”,它们做错了吗? | 电厂
新浪财经· 2026-02-25 18:47
事件核心观点 - Anthropic指控三家中国AI公司(DeepSeek、Moonshot、MiniMax)通过约2.4万个欺诈账户与Claude进行超1600万次互动,以“非法提取”其模型输出用于训练自身模型,并将此行为定义为“蒸馏攻击” [1] - 被指控的三家中国公司截至目前均未对Anthropic的声明作出公开回应 [1] - 此次事件是2026年开年不到三个月内,国产模型第二次陷入使用美国领先AI模型进行训练的争议 [1] 指控的具体内容与数据 - **技术手段**:Anthropic称三家中国公司采用了名为“蒸馏”的模型训练手段,将Claude作为“教师模型”,通过交互获取其输出概率分布等信息来训练“学生模型” [4] - **交互规模**:据Anthropic披露,三家中国企业以约2.4万个欺诈账户与Claude进行了超1600万次互动 [1] - **细分数据**:DeepSeek与Claude进行了15万次交换、Moonshot进行了340万次交换、MiniMax进行了1300万次交换 [7] - **提取焦点**:Anthropic认为上述行为针对Claude最独特的三大能力——代理推理、工具使用、编码进行了有意提取 [7] “蒸馏”技术的行业背景与争议 - **技术起源**:蒸馏技术可追溯至2015年,由Geoffrey Hinton及其团队提出 [4] - **行业普遍实践**:蒸馏是常见的让模型快速进化的手段,顶尖的大模型厂商和AI实验室常在自研大版本模型基础上蒸馏出更小版本模型,例如阿里巴巴在Qwen2发布5个月后蒸馏出了DistilQwen2 [6] - **条款禁止**:许多大模型(包括Claude)在其服务条款中明确禁止用户或竞品将模型输出用于训练或开发AI模型 [6] - **行为定性困难**:如何确证模型蒸馏行为的存在、如何定性该行为、是否涉及法律问题等,目前尚无明确路径可循 [10] 涉事各方的历史与回应 - **Anthropic的对华立场**:Claude及其公司Anthropic是对中国用户及客户最不“友好”的大模型公司之一,曾表态支持美国出口管制政策,并于2025年9月更新销售地区限制,不向位于中国或中资持股超50%的海外子公司提供商业访问渠道 [7] - **DeepSeek的历史争议**:2025年1月,OpenAI研究人员曾称DeepSeek可能使用了OpenAI模型的输出来训练R1大模型;DeepSeek在2025年9月发表于Nature的论文中回应称,其部分训练数据源于网页随机抓取,“没有故意加入OpenAI生成的合成数据” [9] - **Moonshot的历史争议**:2026年1月底Moonshot新模型Kimi K2.5发布后,坊间曾质疑其蒸馏自Claude;公司创始人杨植麟公开否认,解释称模型在预训练中采样了最新的互联网数据,而这些数据与“Claude”这个token关联较多 [9] 开源与闭源的生态博弈 - **中国模型的开源政策**:中国多款领先大模型遵循开源协议允许蒸馏行为,例如DeepSeek主要模型系列遵循MIT许可证,MiniMax-M1、Kimi K2、阿里巴巴Qwen3等遵循Apache 2.0许可证 [10] - **闭源模型的受益**:许多闭源模型同样受益于开源模型进行蒸馏,例如有市场消息称,Meta在训练其闭源模型“Avocado”时,会使用包括阿里巴巴Qwen在内的多家第三方模型进行蒸馏 [11] - **竞争逻辑的演变**:在AI新市场,技术先进程度不再是唯一追求,生态、人才、法律、地缘等因素叠加,使得竞争维度不断丰富 [13]
Rokid Glasses支持OpenClaw及私有大模型自定义接入
北京商报· 2026-02-11 20:53
公司动态 - Rokid乐奇于2月11日宣布其灵珠平台正式上线“自定义智能体”功能 [1] - 公司表示此次更新并非简单的功能迭代,而是将AI眼镜的定义权交还给用户的开始 [1] - 用户现可通过标准的SSE接口,将Rokid Glasses接入任何想要的后端,包括OpenClaw、私有部署的DeepSeek R1、Qwen3或Kimi K2.5等 [1] 产品与技术 - 灵珠平台新功能的核心是“自定义智能体”,旨在提升用户对AI眼镜的自主控制能力 [1] - 该功能通过标准化的SSE接口实现,增强了Rokid Glasses与不同后端系统的兼容性和连接灵活性 [1] - 支持的后端类型广泛,既包括当前热门的OpenClaw,也涵盖多种可私有部署的大模型 [1]
传阿里巴巴新一代模型Qwen3.5发布在即
智通财经· 2026-02-09 15:21
阿里巴巴新一代AI模型进展 - 阿里巴巴新一代基座模型Qwen3.5发布在即,相关代码合并申请已出现在全球最大AI开源社区HuggingFace的页面中 [1] - 有信息透露Qwen3.5将采用全新的混合注意力机制,并极有可能是原生可实现视觉理解的VLM类模型 [1] - 开发者挖掘出的信息显示,Qwen3.5或将开源至少2B的密集模型和35B-A3B的MoE模型 [1] 模型发布与开源计划 - 科技新闻网站The Information爆料指,Qwen3.5将在春节期间开源 [1] - 此前,阿里巴巴于2025年4月29日发布了新一代Qwen3模型,该模型一举登顶全球最强开源模型 [1] 技术特点与行业地位 - Qwen3是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型 [1] - 该技术集成大大节省了算力消耗 [1]
传阿里巴巴(09988)新一代模型Qwen3.5发布在即
智通财经网· 2026-02-09 15:21
公司动态 - 阿里巴巴新一代基座模型Qwen3.5发布在即,相关代码合并申请出现在全球最大AI开源社区HuggingFace上[1] - 公司此前于2025年4月29日发布的新一代Qwen3模型,曾登顶全球最强开源模型[1] 技术进展与产品规划 - Qwen3.5将采用全新的混合注意力机制,并极有可能是原生可实现视觉理解的VLM类模型[1] - Qwen3.5或将开源至少2B的密集模型和35B-A3B的MoE模型[1] - 据科技新闻网站The Information爆料,Qwen3.5将在春节期间开源[1] - 公司上一代Qwen3模型是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型,大大节省算力消耗[1]
懂了很多道理,AI 依然要发疯
36氪· 2026-02-09 14:50
文章核心观点 - Anthropic的研究论文《The Hot Mess of AI》揭示了当前以Transformer为基础的自回归大模型在追求AGI(通用人工智能)过程中存在一个根本性缺陷:随着模型规模增大和任务链条变长,模型错误的主要来源从“偏差”(系统性错误)转向了“方差”(随机性错误),导致其行为不可预测且混乱,这被称为“不连贯性”问题[1][7][19][30] - 该问题被归结为自回归模型作为“动力系统”的本质与执行长程任务所需的“优化器”行为之间存在根本冲突,现有技术路径难以根除这种内在的混乱,对当前依赖扩大模型规模的Scaling Law路线构成了直接冲击[20][23][24][40] - 尽管前景严峻,但研究也指出了潜在的缓解路径,包括集成方法、系统2推理以及超越Token的新范式,为行业未来的研发方向提供了线索[33][36][37] 当前AI Agent的困境与核心问题 - 应用层AI Agent在处理真实世界长程任务时不可靠,严重依赖“Skill”等人为辅助[1] - 困境主要源于两个原因:一是模型无法吃透复杂上下文(“上下文的黑洞”),二是随着规划步长增加,模型表现急剧恶化(“长期规划的崩塌”)[1] - 自回归模型(如Transformer)存在“阿喀琉斯之踵”,其核心问题在于长程任务中的错误性质发生了改变[1][7] 研究发现的实证证据:能力与混乱并存 - 研究通过“偏差-方差分解”量化模型错误来源,引入核心指标“不连贯性”,即总错误中由“方差”导致的比例,用以区分模型是因“笨”(高偏差)还是因“疯”(高方差)而犯错[8][9][13] - 实验发现,任务越长,AI越“疯”:在GPQA(科学问答)和SWE-bench(编程)任务中,随着推理链或行动步骤增加,不连贯性直线上升,错误来源从偏差主导变为方差主导[13][14] - 模型规模越大,在最困难任务上的不连贯性反而上升:例如Qwen3模型家族,在简单任务上规模越大越稳定,但在最难任务组中,随着参数量增加,偏差下降快(更聪明),但方差下降慢(更混乱),导致错误更多由随机选择引起[15][17] - 研究发现,推理长度增加带来的混乱(熵增),需要模型规模扩大好几个数量级才能抵消,导致Scaling Law在此失效,单纯扩大模型规模性价比极低且无法消除内在随机性[17][19] 问题的根源:自回归架构的原罪 - 问题的本质是“动力系统”与“优化器”的冲突:自回归模型是一个可以发散、循环的动力系统,而执行目标导向任务的Agent需要是一个行为被目标严格锁定的优化器[20][23] - 数学上,在所有动力系统的集合中,能表现得像固定损失函数优化器的子集,其测度为零,这意味着让自回归模型干优化器的活儿可能性无限接近于零[23] - 即使专门为成为优化器而训练自回归模型,模型规模的扩大也只能提升认知准确性(降低偏差),而无法让行动更稳定(降低方差)[23] - 当模型规模变大时,其内部状态空间呈指数级膨胀,可能性增多,每一步预测的微小随机扰动在长链条推理中被不断放大,导致混乱[24] - 现有的后训练技术(如RLHF/思维链)虽然提升了准确率,但并未改变底层动力学特征,未能降低最困难任务上的不连贯性[27] - 方差具有累积性,长程任务中第一步的微小走神,经过多步推理放大后可能导致结果南辕北辙[29] 对行业未来发展的影响与预测 - 此问题是自回归架构的“内源性疾病”,无论投入多少数据和算力都难以根除,直接冲击了当前通往AGI的路线图[30] - 未来的AI失败图景可能更像“工业事故”而非有预谋的背叛:模型平时完美,一旦出错将是完全不可预测、不可复现的“发疯”,源于混乱而非恶意[30][31][32] - 这警示行业,AGI的终极挑战或许不在于让模型变得更聪明,而在于确保其在漫长的思考和行动中能始终保持连贯和清醒[40] 论文指出的潜在解决方案与研究方向 - **集成方法**:让模型对同一问题多次推理并集成结果,是降低不连贯性最有效的手段,方差随集成样本数量增加以1/样本数的速度下降,这解释了当前Coding Agent通过运行-测试-修正的ReAct循环实现稳定表现的原因[33][34] - **系统2推理**:增加推理预算(如进行大量思维链推导)能稍微降低不连贯性,对应了OpenAI o1的路线,但需注意模型自发长考时方差可能飙升,因此需要结构化的思维过程或更强的纠错模式[36] - **超越Token的新范式**:呼吁在更高抽象层级进行规划,例如基于高维概念或目标表征(如Meta提出的Large Concept Model或世界模型),而非基于容易出错的离散Token,以在长程任务中保持连贯[37][38][39] - **工程绕行方案**:通过沙箱环境让模型“发疯”,严格控制实际产生效果的输出,例如Anthropic在Claude Agent SDK中采用的方法[35]
特稿丨人工智能促变革 美企滥用引风波——2026年首月全球AI产业动态
新华社· 2026-02-03 13:51
全球AI产业技术研发动态 - 英伟达在1月初推出包含6款芯片的系统级AI算力平台“薇拉·鲁宾” [2] - 微软在1月底发布AI芯片Maia 200,旨在推动更深层推理和多步骤智能体功能 [2] - 阿里巴巴旗下平头哥发布AI芯片“真武810E”,采用自研并行计算架构和片间互联技术 [2] - 阿里巴巴发布Qwen3-Max-Thinking模型,参数规模超万亿,创下公司推理大模型迭代规模纪录 [2] - 月之暗面推出并开源Kimi K2.5模型,在智能体任务、代码生成、图像视频处理等领域表现突出 [2] - 深度求索公司开源DeepSeek-OCR 2模型,通过改进的视觉编码技术提升对复杂文档、表格与公式的识别精度 [2] - 谷歌旗下深层思维公司向公众开放基于世界模型Genie 3的工具,用户可通过自然语言描述创建并探索交互式三维虚拟世界 [2] AI应用落地与前沿突破 - 智能体Clawdbot(已改名OpenClaw)在全球流行,能根据指示操作电脑完成整理文件、修改代码、管理投资等复杂任务 [3] - 专为智能体开发的交流平台Moltbook已有上百万个智能体在上面互动 [3] - 深度学习模型AlphaGenome的研究成果登上《自然》期刊封面,该模型能解码人类基因组中占98%的“暗基因组” [3] - 中国企业国星宇航已将Qwen3大模型部署至“星算”计划01组太空计算中心 [3] - 美国航天局“毅力”号火星车在火星表面首次完成由AI规划路线的行驶任务 [3] 行业监管与安全事件 - 美国xAI公司的聊天机器人“格罗克”因被用户用于生成基于真人的色情内容,在印度尼西亚、马来西亚和英国等多国引发调查与限制 [4] - 社交媒体平台X随后宣布禁止“格罗克”生成基于真人的伪造性暴露图像,该限令适用于所有用户包括付费用户 [4] - 在达沃斯世界经济论坛年会上,多方探讨了建立针对AI的国际多边监管机制 [5] - 韩国1月正式施行《关于人工智能发展和构建信赖基础的基本法》 [5] - 哈萨克斯坦通过《数字法典》,强调AI的安全发展 [5] 国际合作趋势 - 马来西亚国家网络安全局局长表示,能力建设是马中AI合作的重要方向,马来西亚高度重视并希望深化与中国合作 [6] - 沙特数据和人工智能管理局发言人表示,中国技术实力雄厚,是沙特推进AI和数字经济发展的重要合作伙伴 [6] - 巴西科技创新部长表示,AI是提升农业生产效率的关键,希望与中国共同推动技术进步和产业升级 [6]
特稿|人工智能促变革 美企滥用引风波——2026年首月全球AI产业动态
新华社· 2026-02-03 12:36
技术研发与产品发布 - 全球AI芯片算力竞争激烈,英伟达在1月初推出包含6款芯片的系统级AI算力平台“薇拉·鲁宾”,微软在1月底发布AI芯片Maia 200以推动更深层推理功能,阿里巴巴旗下平头哥发布AI芯片“真武810E”,采用自研架构和互联技术实现软硬件结合 [2] - 中国大模型迎来集中发布,阿里巴巴发布超万亿参数规模的Qwen3-Max-Thinking模型,创下公司推理大模型迭代规模纪录,月之暗面开源Kimi K2.5模型,在智能体任务、代码生成等领域表现突出,深度求索开源DeepSeek-OCR 2模型,提升了对复杂文档、表格的识别精度 [2] - 谷歌旗下深层思维公司向公众开放基于世界模型Genie 3的工具,用户可通过自然语言描述即时创建并探索可交互的三维虚拟世界,标志着AI在模拟现实世界方面取得进展 [2] 应用落地与行业变革 - 智能体应用引发广泛关注,一款名为Clawdbot(后改名OpenClaw)的智能体能根据用户指示操作电脑和应用程序完成复杂任务,如整理文件、修改代码和管理投资,可能大幅提升工作效率,另有平台Moltbook专供智能体间交流,已拥有上百万个智能体 [3] - AI在科学研究领域取得重大突破,深度学习模型AlphaGenome的研究成果登上《自然》期刊封面,该模型能解码人类基因组中占98%的“暗基因组”,有助于深入了解遗传疾病和改进基因检测 [3] - AI应用扩展至太空与地外探索,中国企业国星宇航已将Qwen3大模型部署至“星算”计划01组太空计算中心,美国航天局的“毅力”号火星车在火星表面首次完成由AI规划路线的行驶任务 [3] 行业监管与安全事件 - 美国xAI公司的聊天机器人“格罗克”因被滥用生成基于真人的伪造色情内容,在印度尼西亚、马来西亚和英国等国引发调查与限制,X平台随后宣布禁止“格罗克”生成此类图像,限令适用于所有用户包括付费用户 [4] - 全球范围内加强AI治理的讨论与实践增多,在达沃斯世界经济论坛年会上多方探讨建立国际多边监管机制,韩国正式施行《关于人工智能发展和构建信赖基础的基本法》,哈萨克斯坦通过《数字法典》,均强调AI安全发展 [4] 国际合作与市场动态 - 多国官员表达在AI领域加强对华合作的期待,马来西亚国家网络安全局局长表示能力建设是马中合作重要方向,马来西亚高度重视并持续深化与中国在AI领域的合作 [5] - 沙特数据和人工智能管理局发言人表示中国在AI领域技术实力雄厚,是沙特推进AI和数字经济发展的重要合作伙伴 [6] - 巴西科技创新部长在中巴研讨会上表示,AI等技术是提升农业生产效率的关键,希望共同推动技术进步和产业升级 [6]
榜单更新!Kimi 2.5表现突出|xbench月报
红杉汇· 2026-02-03 08:04
xBench基准评测平台更新 - 截至2026年1月底,xBench的三个基准评测榜单已完成分数更新,月之暗面公司的Kimi K2.5模型在所有榜单中均表现突出[1] - 平台近期新增两个评测基准:用于评估多模态视觉理解能力的BabyVision,以及用于评估智能体在复杂任务中指令遵循能力的AgentIF-OneDay[1] - 平台采用长青评估机制,持续追踪并汇报最新模型的能力表现,更多榜单将陆续更新[1] ScienceQA基准评测结果 - 在ScienceQA榜单中,Gemini 3 Pro以71.6分排名第一,Grok-4以65.0分排名第二,GPT-5 (high)以64.4分排名第三[3] - Kimi K2.5以63.2分排名第四,在国内模型中排名第一,其BoN(N=5)得分为77.0分[3][4] - 在性能提升的同时,Kimi K2.5的平均响应时间为101.00秒,较前代K2的178.94秒有显著提升,同时其API价格更具性价比,输入/输出价格分别为每百万token 0.57美元和3美元[3][4][5] DeepSearch基准评测结果 - 在DeepSearch榜单中,ChatGPT-5-Pro以75+的档位排名第一,每100题成本约为8.5美元,耗时5-8分钟[7] - Kimi K2.5达到40+档位,跻身榜单第二,成为国内模型中的最佳水平,每道题推理耗时仅2-3分钟,速度提升明显,每100题成本约为28美元[7] BabyVision多模态基准评测结果 - 在BabyVision多模态理解能力评测中,人类基线得分高达94.1%[8] - Gemini 3 Pro以49.7%的得分排名第一,Kimi K2.5以36.5%的得分排名第二,在国内大模型中排名第一[8] - GPT-5.2以34.4%排名第三,字节跳动的Doubao-seed-1.8以30.2%排名第四[8] 月之暗面Kimi K2.5模型技术特点 - Kimi K2.5于2026年1月27日发布,是一款原生多模态模型,深度集成了视觉理解、逻辑推理、编程及智能体能力[10] - 模型基于约15万亿(15T)混合视觉和文本token进行持续预训练,采用混合专家架构,总参数量约为1万亿(1 Trillion),推理时激活参数量约为320亿(32 Billion)[10] - 模型支持超长上下文,版本均支持256k token的上下文窗口,并集成了多模态视觉编码器,标志着其从长文本向多模态与智能体的全面进化[10] 行业最新动态:通用世界模型进展 - Google DeepMind于2025年推出通用世界模型Genie 3,可根据文本或图文提示生成可实时(24 fps)探索、可交互的环境,用于快速生成可探索世界和交互式内容创作[11] - Google DeepMind的D4RT框架将静态3D重建与动态物体追踪统一为4D建模框架,可成为Genie系列的4D数据引擎[12] - Runway公司发布了基于其Gen 4.5模型架构的通用世界模型,其应用包括用于机器人训练和策略评估的生成性模拟器、实时世界模拟与探索,以及能够进行长时间对话的实时虚拟形象[13][14]
给大模型排名,两个博士一年干出17亿美金AI独角兽
36氪· 2026-01-15 21:41
公司概况与融资 - AI大模型评测机构LMArena于近期完成1.5亿美元融资,估值达到17亿美元,成为独角兽公司 [2] - 公司起源于伯克利校园项目,其核心业务是通过众包匿名对战模式,让用户投票评估AI模型 [2] - 公司在2025年9月推出B端评估服务“AI Evaluations”,产品上线4个月后年化经常性收入突破3000万美元,客户包括OpenAI、Google、xAI等头部AI企业 [2] 行业痛点与旧评估体系失效 - 传统基于有限基准测试和排行榜的AI模型评估体系逐渐失灵,模型容易针对题库“过拟合”,导致能力趋同、创造力下降 [4][6][7] - 行业出现“AI疲劳”,模型参数升级与榜单刷新带来的兴奋感衰减,产品落地节奏跟不上宣传节奏 [4] - 旧的评估体系塑造了不健康的激励机制,引导模型优化目标向固定解法收敛,而非真正的理解与推理 [5][6][7] LMArena的解决方案与核心机制 - 平台核心设计为用户提问后,系统随机抽取两个匿名模型作答,用户从有用性、准确性等角度对并排展示的答案进行投票 [12] - 平台采用类似国际象棋的Elo评级系统,通过累计数万至数十万次用户投票对比来计算模型动态排名 [13] - 平台日均进行上千场匿名对战,每月产生超过6000万次模型对话,覆盖超过150个国家,月活跃用户达到500万 [2][19] - 平台设有Arena-Expert模块,筛选约5.5%的“专家级”提示作为高压测试样本,并衍生出Code Arena、Image Arena等专项竞技场 [14] 平台影响力与行业认可 - 平台已成为行业默认的“试金石”,几乎所有头部模型厂商均已接入,包括OpenAI、Anthropic、Google、Meta、DeepSeek等 [19] - 头部公司主动将未公开发布的新品(如Google的Gemini 2.5 Flash Image)接入平台进行内测 [9][10][19] - 2025年8月,匿名模型“nano-banana”在图像编辑竞技场累计获得超500万次社区投票,其中直接胜出票达250万张,带动平台当月访问量增长10倍,月活突破300万,后该模型被证实为Google的Gemini 2.5 Flash Image [9][10] - 在2025年11月的中文榜单中,国产大模型实现对国际模型的系统性反超,前十名中占据八席 [15] 商业模式演进与商业化路径 - 公司业务从免费的公共竞技场,演进至提供B端定制化评测服务,标志着AI评测赛道加速商业化 [17][21] - B端产品“AI Evaluations”允许企业在私有、脱敏数据环境中测试模型,评估模型在听话、合规、多步任务等方面的表现 [21] - 公司计划利用平台积累的数千万条人类偏好数据,训练自己的RLHF模型,使评测结果能反向参与模型优化,嵌入模型研发链条 [21] 面临的争议与挑战 - 众包模式被批评“不够专业”、“易被操纵”,用户投票可能受答案长度、风格(如使用emoji)、格式美观度影响,而非正确性或有用性 [3][22][23][24] - 有抽查数据显示,在500组投票中,52%的获胜回答包含事实错误,39%的投票结果与事实严重不符 [24] - Meta曾为其Llama 4系列模型提交36个私有变体在平台反复测试“刷分”,针对投票偏好进行优化,其实验性对话模型曾冲至总榜第二,但公开版仅排第32名 [25] - 资源充足的科技巨头可能通过反复测试来“刷分”,这重现了行业试图摆脱的“应试准备”问题 [26] 行业竞争与评估范式演进 - 针对众包模式的争议催生了新的竞争形态,例如Scale AI推出由律师、教授等专业人士直接打分的“Seal Showdown”服务 [28] - 评测范式向更垂直化、实战化方向外扩,例如出现让模型在模拟加密市场环境中进行交易对决,以收益定胜负的产品 [29] - 行业对模型评估的理解正走向更深入、更多维的阶段,强调更深度的专家标注和更接近真实世界的挑战任务 [29][30]