Workflow
Claude系列
icon
搜索文档
大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷
量子位· 2025-08-17 11:43
大语言模型作为裁判的评估能力 - 大语言模型(LLM)正从工具进化为"裁判"(LLM-as-a-judge),开始大规模评判AI生成内容,但其可靠性与人类判断的一致性尚未深入验证 [1] - 核心问题在于AI裁判能否准确识别对话中谁在说话,这是评估角色扮演的基础 [2] - 即便表现最好的模型Gemini-2.5-pro准确率仅为68.8%,远低于人类实验组的90.8% [4][15] PersonaEval基准测试 - 上海交通大学课题组提出PersonaEval基准,测试模型从候选角色中选出真正说话者的能力 [2] - 基准特点包括:源于人类创作数据、精心设计语义接近的干扰项、专注于高难度案例 [13] - 包含三个测试集:文学小说、中文剧本、专家对话场景,覆盖不同方向 [19] 模型与人类判断的差异 - 顶尖模型在简单案例中也会失误,如混淆"罗辑"和"史强",因过度关注语言风格而非对话意图 [8][9][12] - 差异源于智能模式不同:LLM依赖语言模式匹配,人类基于意图和认知使用语言 [10] - 微调角色知识反而降低性能,而增强推理能力的模型表现更优 [20][22] 行业影响与未来方向 - 研究揭示了当前LLM-as-a-judge范式在基础维度上的缺陷,需重新思考与人类价值观对齐的方式 [23][24] - 提升方向应聚焦强化模型的上下文感知和推理能力,而非灌输角色知识 [22] - 该领域商业潜力巨大,涉及虚拟伴侣、内容创作等应用场景 [6] 研究团队与成果 - 论文由上海交通大学王德泉课题组完成,第一作者周凌枫 [26][28] - 论文将发表于2025年COLM会议,项目代码和论文已开源 [5][29]
2025上半年大模型使用量观察:Gemini系列占一半市场份额,DeepSeek V3用户留存极高
Founder Park· 2025-07-09 14:11
大模型API市场总览 - 2025年第一季度OpenRouter总Token使用量环比增长4倍,之后稳定在每周2T Token水平[7] - 谷歌以43.1%市场份额居首,DeepSeek和Anthropic分别占19.6%和18.4%[8] - 其他模型合计份额不足10%,Llama系列已萎缩至峰值1/5[11] 头部模型表现 - Gemini-2.0-Flash凭借0.4美元/百万Token低价稳居前三,Gemini-2.5-Flash有望接替其位置[7] - DeepSeek-V3发布后持续Top 10,用户留存率极高,合并免费/付费版使用量可达第二[3][7] - Claude-Sonnet-4接替旧版但增长停滞,OpenAI无稳定Top 10模型[7][8] 细分领域格局 编程领域 - Claude-Sonnet-4占据44.5%绝对优势,Gemini-2.5-Pro以17.6%居次[14] - 前20名中GPT-4o-mini增速达139%,Qwen2.5 Coder增速107%[15] 文本翻译 - Gemini-2.0-Flash以45.7%领跑,前10名中7款为谷歌模型[17] - 第二名"Others"类别占比20.1%,显示长尾需求显著[17] 角色扮演 - 市场高度碎片化,26.6%份额由小众模型占据[21] - DeepSeek-V3以25.2%居首,Gemini-2.0-Flash占18.5%[21] 营销领域 - GPT-4o以32.5%绝对领先,Llama-3.3-70B增速达1,454%[23][24] 技术接口趋势 - 代码编写工具主导接口使用,Cline和RooCode位列前二[25] - liteLLM路由库排名第三,反映开发者生态活跃[25] 厂商战略差异 - 谷歌通过多价位产品矩阵覆盖全场景,Gemini系列价格优势明显[26] - Anthropic专注编程领域实现版本平稳过渡[26] - OpenAI因准入限制和定价问题市场表现弱势[26] - DeepSeek-V3因响应速度优势超越R1版本[26]
AI大佬教你如何中顶会:写论文也要关注「叙事」
量子位· 2025-05-13 15:11
论文写作指南核心观点 - 研究需通过高质量论文实现传播价值,核心在于构建严谨的技术叙事,包含1-3个新颖主张、实证证据和明确的研究意义[7][8][11] - 论文质量关键要素包括叙事构建、写作时机把握、新颖性突出和证据严谨性[12][13][14][15][16] - 写作流程建议先压缩核心内容再迭代扩展,避免常见问题如过度关注发表或内容冗长[22][24] 论文结构解析 - 摘要需激发兴趣并简洁呈现核心主张、证据及研究意义,以具体论文为例进行逐行解析[18] - 引言应介绍背景、贡献和意义,正文涵盖方法结果,讨论需包含局限性和未来方向[26] - 相关工作需差异化前人研究,附录补充非核心信息[26] 作者背景与成果 - Neel Nanda为谷歌DeepMind资深科学家,领导机械可解释性团队,拥有数学与量化金融背景[28] - 主要成果包括多篇机器学习可解释性论文(如Progress measures for grokking)、Transformer Lens工具库及YouTube频道资源[29] 写作资源与参考 - 指南与《Nature》带注释指南理念一致,提供原文链接及作者博客供深度查阅[25][30]
MCP,AI时代的“书同文,车同轨”
21世纪经济报道· 2025-05-08 21:26
MCP协议发展现状 - MCP(模型上下文协议)旨在打造AI模型与软件间的通用接口,实现AI智能体功能,被类比为AI领域的"USB"或"Type-C"标准 [1] - 百度在Create2025大会上发布九大AI产品,重点推出电商交易MCP和搜索MCP,提出"全面拥抱MCP"战略 [1] - 阿里、腾讯、字节等国内互联网巨头2025年纷纷入局MCP,推动概念快速升温 [1] 技术路线竞争格局 - Monica公司采用"虚拟机+云计算"模式开发Manus AI,与MCP形成技术路线差异 [2] - MCP由Anthropic于2024年11月首次提出,早期反响平淡,后因Cursor/VSCode等工具支持而快速普及 [2] - OpenAI 2025年3月发布新版AI智能体SDK深度整合MCP,谷歌同期为Gemini添加MCP支持并推出互补协议A2A [3] 云计算厂商战略布局 - 微软联合Anthropic开发MCP工具包,推出MCP Server服务以强化Azure云生态 [3] - 阿里云推出"百炼平台"集成高德/支付宝等MCP服务,腾讯云TI平台提供微信支付/小程序场景的MCP插件托管 [3] - 字节跳动与华为基于自身云服务推出MCP SDK及Server解决方案 [4] 生态价值与行业影响 - MCP协议类似高铁铁轨,大厂通过自建MCP Server(高铁站)连接各类服务资源,形成生态竞争壁垒 [5] - 开放生态使MCP相比封闭式Manus方案更具扩展性,后者可能转型为MCP Client融入主流生态 [6] - 中金研报指出MCP处于"协议红利期",早期参与者可通过定义接口标准/积累工具资产构建结构性优势 [7]