68页论文再锤大模型竞技场!Llama4发布前私下测试27个版本,只取最佳成绩
量子位· 2025-05-02 12:36
大模型竞技场的可信度,再次被锤。 最近一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文在学术圈引发关注。 它指出,如今被视为LLM领域首选排行榜的Chatbot Arena,存在诸多系统问题。比如: 大神卡帕西也站出来表示,他个人也察觉出了一些异样。 有一段时间,Claude-3.5是我觉得最好用的模型,但是在竞技场中排名很低。当时我在网上也看到了类似的反馈。 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 对于最新质疑,大模型竞技场官方Lmrena.ai已经给出回应: 少数大厂可以私下测试多个模型版本, Llama4在发布前甚至测了27个版本 ,然后只公开最佳表现。 数据访问不平等,专有模型获得的用户反馈数据显著多于开源模型。 试用Arena数据训练,可提升模型性能 高达112% 。 205个模型被悄悄静默弃用,远超过官方列出的47个。 确实帮助厂商进行测试,最后发布最受欢迎的版本; 但这不代表竞技场有偏见,排行榜反映数百万人类的个人真实偏好。 快速刷榜不符合模型进步实际情况 具体来看这项研究,它收集了243个模型的200+万场竞技场battle,并结合私人真实测试,通 ...
微软CEO和奥特曼失了和,OpenAI被“断粮”
量子位· 2025-05-02 12:36
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 就很突然。 许久没有同框的奥特曼和微软CEO纳德拉,刚刚在推特上"大秀恩爱",还透露正在讨论合作新进展。 这没由来的操作,难道是有新发布? 在大多数人模糊的概念里,OpenAI是掀起这一波大模型浪潮的弄潮儿,而微软是其背后的支持者。 在ChatGPT出现之前,微软就为当时还略显透明的OpenAI注入巨额资金,支持其在AI领域的研究。后来又不断加码,给钱,给云服务器…… 但本月月初,微软暂停了美国俄亥俄州中部10亿美元投资计划的三个数据中心园区建设。不只是这一个, 微软正在"放缓或暂停"部分AI数据 中心项目 ,这么看来,OpenAI的算力助力或将因此惨遭骤减。 如今《华尔街日报》一记重锤,直接「揭发」:两人之间还是逐渐生出嫌隙。 ——更准确地说,是 OpenAI和微软的关系日益变得微妙,甚至紧张起来。 奥特曼和纳德拉,离心离德 但仔细一扒,或许更可能是回应新八卦。 就在这两天,《华尔街日报》放出猛料: 奥特曼和纳德拉,这对昔日让两家公司合作共赢的big name, 在诸多事情上分歧日渐加大,渐行渐远 。 奥特曼是谁?OpenAI的掌舵者;纳德拉是谁?微软的 ...
人民日报海外版丨全国充电基础设施数量达1374.9万台
国家能源局· 2025-05-02 12:35
张星表示,五一假期临近,国家能源局已指导各地更新存量老旧充电设施、增配临时充电设备,同时加 派引导值班人员、提前做好设备检修,并通过利用信息化平台加强监测,确保五一假期充电服务工作运 转有序、安全可靠、规范高效。 ( 廖睿灵) (转自《人民日报海外版》) 国家能源局综合司副司长张星介绍,目前,国家能源局正会同有关部门制订大功率充电设施建设改造的 政策文件,鼓励地方和企业以高速公路服务区等即充即走场景为重点,因地制宜布局大功率充电设施。 国家能源局将加强统筹谋划和政策制定,持续完善充电网络,提高设施服务能力,大力推进试点示范, 进一步构建高质量充电基础设施服务体系,更好满足人民群众购置和使用新能源汽车的需要。 全国充电基础设施数量达1374.9万台 记者从国家能源局获悉,截至3月底,全国充电基础设施数量达1374.9万台,同比增长47.6%,其中公共 充电设施390万台,私人充电设施984.9万台。高速公路服务区累计建成充电设施3.8万台,覆盖了全国 98%的服务区。除西藏、青海外,其他省份均实现充电站"县县全覆盖"的建设目标,全国县域充电设施 覆盖率达97.31%;13个省份实现充电桩"乡乡全覆盖",乡镇充电 ...
人民日报海外版丨引导更多电力辅助服务进入市场
国家能源局· 2025-05-02 12:35
两部门发布新规 引导更多电力辅助服务进入市场 "各地结合实际情况,逐步探索建立调峰、调频、备用等辅助服务市场化品种,实现辅助服务从计划到 市场、从发电侧到多元主体的转变。截至目前共有16个省建立调峰市场,15个省建立调频市场,2个省 建立爬坡市场,6个区域分别建立调频、备用、调峰等市场,通过竞争有效提升系统调节能力。电力辅 助服务市场在维持系统稳定、保障电力供应、促进新能源消纳和推动煤电转型等方面发挥重要作 用。"国家能源局有关负责人说。 《规则》明确了辅助服务市场经营主体范围。据介绍,辅助服务市场经营主体包括发电企业、售电企 业、电力用户和新型经营主体。特别明确了储能企业、虚拟电厂、智能微电网、车网互动运营企业等经 营主体地位,引导新型经营主体参与调节。 同时,《规则》规范了辅助服务交易品种设立流程。由电力调度机构根据系统安全稳定运行需要,提出 电力辅助服务市场建设需求并拟定分析报告,报国家能源局派出机构和省级价格、能源主管部门。国家 能源局派出机构会同省级价格、能源主管部门组织论证需求合理性,制定实施方案报国家能源局,经国 家发展改革委同意后实施。设立新品种时,应依序开展模拟试运行、结算试运行、正式运行相 ...
大侠后宫:“网购的裤子能有多抽象??”哈哈哈哈哈网友锐评:是在cos保龄球吗!!
猿大侠· 2025-05-02 12:23
转自:喵大白话 穿这条裤子过安检会很可疑 (来源:小红书@太阳爱菊花) 禁止二次搬运转载! P g ☆ 今 号 · 喵大白 漫 . 爱慕马铃薯 √ 可以去兼职这个 ♀ 公众号·喵大白话 ७ 公众号· 喵大白话 玺玺哈哈 可以这样穿台 . 3 天前 江苏 回复 ♀ 公众号·喵大白话 t A ७ 公众号·喵大白话 当地最优秀的教育资源 都给你了 我表示打印度的 从雪肤 我爸都知引的尊校的作业 容印一份给我 十周猎子 那你学习应该很好吧 23小时前 · 新疆 & 公众号 · 喵大白话 公众号 · 喵大白话 淼淼子 Mmz 音曲同工 3 天前 江苏 回复 Cnc 四开门大冰箱 3天前 山东 回复● 公众号·喵大白话 小车:今天真的撞了鞋了 为什么 它那么潇洒 因为没有牵挂 0 原来关字下拉货的时候是这样呀 有一种别能的到现它 哈哈拉夫可爱了 色 公众号 · 喵大白话 HZJZ I # % 公众号 - 喵大自话 9 2008 11:5 狗:它肿么了 抱着偶也不说话 芮姐早餐=和平饭店 ps:模糊的文字与清晰的实力 带大白话 飞 公众号・喵大白话 为爱出走的那个雨夜 出事了进芮姐早餐店,黑白两道不敢动你 t 21小时前· ...
AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥
猿大侠· 2025-05-02 12:23
转自:新智元 编辑:编辑部 ZJH 【导读】 刚刚,LMArena陷入了巨大争议,斯坦福MIT和Ai2等的研究者联手发论文痛斥,这个排行榜已经被Meta 等公司利用暗中操作排名!Karpathy也下场帮忙锤了一把。而LMArena官方立马回应:论文存在多处错误,指控不 实。 已经有越来越多的人发现:大模型排行榜LMArena,可能已经被大厂们玩坏了! 就在最近,来自Cohere、普林斯顿、斯坦福、滑铁卢、MIT和Ai2等机构的研究者,联手祭出一篇新论文,列出详尽论 据,痛斥AI公司利用LMArena作弊刷分,踩着其他竞争对手上位。 论文地址:https://arxiv.org/abs/2504.20879 与此同时,AI大佬、OpenAI创始成员Andrej Karpathy也直接下场,分享了一段自己的亲身经历。 前一段时间,Gemini模型一度在LMArena排名第一,远超第二名。 但Karpathy切换使用后,感觉还不如他之前用的模型。 相反,大约在同一时间,他的个人体验是Claude 3.5是最好的,但在LMArena上的排名却很低。 | Rank* (UB) A | Model | Arena Sco ...
小公司的通病,面试过了也不一定录用。。
猿大侠· 2025-05-02 12:23
以下文章来源于数据结构和算法 ,作者博哥 数据结构和算法 . 1000多页的pdf算法题我已整理完成,在公众号"数据结构和算法"中回复"pdf"即可下载。 一hr在网上发文称:面试了一个985硕士,技术面试通过了, 业务面试官评价项目经验也有,开发 能力也不错,但还是不录用他!因为他期望薪资是28k,25k也可以接受,而公司最多只能给到 25k。录用的话还得跟领导审批,业务面试官也觉得给太高不利于目前团队薪资平衡。 给高了不利于团队薪资平衡? 哪家公司能做到薪资平衡,一个团队中薪资高低很正常,有的相差 两三倍都有可能,因为每个人的学历不同,工作年薪不同,能力不同,薪资有差别是很正常的。 来看下今天的算法题,这题是LeetCode的第 1546题:和为目标值且不重叠的非空子数组的最大数 目,难度是中等。 给你一个数组 nums 和一个整数 target 。请你返回 非空不重叠子数组的最大数目,且每个子数组 中数字和都为 target 。 示例1: 输入 :nums = [1,1,1,1,1], target = 2 个人的工资水平是根据个人的综合实力来决定的,而不是根节团队的平均薪资来决定的。 -------- ...
韩德洙最后时刻辞职参选、李在明官司重审,韩国大选悬念陡增
第一财经· 2025-05-02 12:16
2025.05. 02 本文字数:2404,阅读时长大约4分钟 导读 :韩国四家民调机构1日联合发布的一份民调显示,李在明以42%的支持率居首。 作者 | 第一财经 潘寅茹 封面图 | 韩德洙宣布参选(来源:新华社) 韩国总统大选即将迎来一个月倒计时,新的变数仍在不断涌现。 据新华社报道,韩国前国务总理韩德洙5月2日正式宣布参选新一届总统。1日,韩德洙发表对国民谈 话,宣布辞去代总统和国务总理职务。 韩国宪法法院4月4日通过弹劾前总统尹锡悦的裁决,尹锡悦即刻被罢免总统职务。韩国政府已正式 确定6月3日为新一届总统选举日。韩国法律规定,政府公职人员若想参选,需在投票日30天前,也 就是最晚5月4日前辞去现有的职务。 在韩德洙辞任的当天,韩国大法院(最高法院)在5月1日下午的庭审中,就李在明涉嫌违反《公职 选举法》案作出三审判决,推翻二审无罪判决结果,将案件发回首尔高等法院重审。这一决定为李在 明后续的竞选增添不少变数。 韩国四家民调机构5月1日联合发布的一份民调显示,李在明以42%的支持率居首。 韩国宪法法院今年2月27日裁定,崔相穆不任命马恩赫构成违宪。3月21日,共同民主党等5个在野党 以此为由,向国会提请 ...
前4月百强房企销售过万亿
第一财经· 2025-05-02 12:16
2025.05. 02 此外,万科地产、建发房产位于四百亿阵营,销售额分别为428.5亿元、426.7亿元,华发股份、越 秀地产、滨江集团卡位最后三个TOP10位次,销售金额分别为353.1亿元、312.4亿元、272.4亿 元。 鉴于楼市仍在恢复进程中,4月百强房企各梯队的销售门槛也出现一定分化,TOP10、TOP30和 TOP50房企的销售操盘金额门槛均有不同程度提升,而TOP20房企销售操盘金额门槛同比降低8.9% 至112.6亿元,TOP100房企门槛降低3.1%至17.9亿元。 在今年召开的业绩发布会上,房企已鲜少提及销售目标,大多判断将维持在近年平均水平。业内表 示,这说明房企不再唯"销售金额"论,将聚焦高质量发展部分,提升签约回款率,以优质项目修复毛 利率。 在销售策略上,房企多实施"一城一策、因城施策"营销策略,以加快应对市场的反应速度,确保每个 项目都有合理流速,持续去化的同时优化区域土储结构。同时,加强自有渠道的建设力度,通过数字 化营销降本增效。 本文字数:1230,阅读时长大约2分钟 作者 | 第一财经 孙梦凡 楼市传统"金三银四"时期,房企销售业绩如何? 克而瑞发布的最新数据显示,4 ...
泽连斯基发表全国讲话
第一财经· 2025-05-02 12:16
泽连斯基还说:"协议在准备过程中发生了重大变化。"他指出,协议文本将很快提交最高拉达(议 会)批准。 乌克兰总统强调,双方4月30日在华盛顿签署的协议版本与美国总统特朗普之前声称的不同。在签署 的版本中,乌克兰不承认因从华盛顿获得军事援助而欠美国任何债务。 泽连斯基还强调,根据协议,两国将设立一个联合基金,用于促进在乌克兰的投资。 该基金的部分资金将来自协议生效后开始开采的乌克兰自然资源所产生的一半利润。 微信编辑 | 格蕾丝 推荐阅读 2025.05. 02 本文字数:349,阅读时长大约1分钟 来源 | 参考消息 据埃菲社5月1日报道,乌克兰总统泽连斯基5月1日晚间向全国发表讲话时表示,乌克兰政府终于与 美国就共同开发乌克兰自然资源达成了协议。 他认为该协议是"公平的",对乌克兰的经济现代化和 法律实践具有积极意义。 多地宣布发钱奖励结婚! ...