AI学术假开源
搜索文档
NeurIPS论文假开源,较真AI研究员开锤了
量子位· 2026-02-04 15:28
文章核心观点 - 一项针对NeurIPS 2024顶会的调查揭露了AI学术界存在严重的“假开源”问题,即论文承诺开源但未兑现,这损害了学术诚信并浪费了社区资源 [3][4][7] - 调查显示,在4035篇论文中,有98篇明确承诺开源并提供了GitHub链接,但代码仓库为空或烂尾状态,真实开源的论文为2404篇 [5] - 作者认为,在Agentic AI时代,利用自动化工具核查学术诚信的成本将趋近于零,投机取巧的行为将无所遁形 [12] - 造成“假开源”现象的直接原因是顶会强制要求填写“可复现性检查表”,使得“承诺开源”成为潜在的录用加分项,但会议并不强制验证,留下了操作空间 [20][21][22] 对NeurIPS 2024“假开源”现象的量化调查 - 调查统计了NeurIPS 2024收录的4035篇论文,其中真实开源的论文有2404篇,未提供GitHub链接的论文有1533篇 [5] - 有98篇论文明确表示开源并提供了代码仓库链接,但点进去后发现是空仓库或“Code coming soon”的烂尾状态,占总论文数的约2.4% [5][16] - 该调查由一位匿名AI研究员发起,其动机是因多次被空仓库浪费学习时间而感到愤怒,进而决定系统性地核查 [8][9] - 核查系统通过Vibe Coding在一夜之间完成,融合了OpenReview/GitHub API以及PDF解析技术,自动从论文PDF中提取并验证GitHub链接 [11][12] “假开源”现象的成因分析 - 直接驱动力来自审稿机制:自2021年起,NeurIPS等顶会强制要求提交“可复现性检查表”,2024年要求更严格,这使勾选“愿意开源”成为潜在的录用加分项 [20][21] - 顶会仅强制提交清单,但不强制验证可复现性,为“假开源”留下了模糊空间 [22] - 现实原因复杂多样:包括工业界论文发布需漫长合规审批、项目复现门槛过高(如训练耗资巨大或使用内部数据)、以及课题组转向或专利问题等 [24] - 这种现象引发了社区不满,前Stability AI研究总监及众多网友都曾公开批评此类行为 [24][25] 对行业规范与诚信的呼吁 - 作者强调“没时间”不应成为违背承诺的借口,若无力开源则不应在论文中做出承诺 [28] - 指出当贪欲超出能力边界,并迫使研究者牺牲学术道德换取虚名时,这就是一种过错 [29] - 在AI领域飞速发展的当下,科研诚信或许是最应该被社区“Fork”和“Star”(即推崇和关注)的东西 [30] - 随着Agentic AI的崛起,深度核查学术诚信的成本将趋近于零,脚踏实地与投机取巧在大数据下一览无余 [12]