ArXiv 严厉打击 AI 垃圾论文：发现虚假文献或 AI 痕迹将封禁作者

知名学术预印本平台 ArXiv 近日发布新规，旨在遏制平台上日益泛滥的“AI 垃圾内容”（AI slop）。根据规定，若论文中存在作者未对大语言模型（LLM）生成结果进行核对的“确凿证据”，如虚假参考文献或遗留的 AI 元注释，相关研究人员将面临封禁。此举标志着学术界对生成式 AI 滥用的监管进一步升级。

核心要点

严厉打击 AI 垃圾内容：ArXiv 明确将采取措施减少平台上的低质量 AI 生成内容（AI slop）。
确凿证据判定标准：处罚依据是论文中存在作者未核对 LLM 生成结果的明显证据。
典型违规特征：包括幻觉产生的虚假参考文献以及 LLM 遗留的“元注释”（meta-comments）。
严厉处罚机制：对于违反规定的研究人员，ArXiv 将采取封禁（Ban）措施。

详细分析

治理“AI 垃圾内容”的紧迫性

随着生成式人工智能技术的普及，学术界正面临前所未有的挑战。ArXiv 作为全球最重要的学术预印本平台之一，近期观察到大量被称为“AI slop”的低质量内容涌入。这些内容通常由大语言模型（LLM）直接生成，且未经作者严谨的后期校对。ArXiv 此次出台新规，核心目的在于维护学术研究的严肃性与真实性，防止低质量、误导性的 AI 生成内容侵蚀学术生态系统的公信力。

判定违规的“确凿证据”标准

ArXiv 在新规中强调，处罚的前提是拥有“确凿证据”（incontrovertible evidence）。这种证据主要体现在两个方面：首先是“幻觉参考文献”，即 AI 模型虚构了现实中并不存在的论文标题、作者或期刊信息，而作者在投稿前显然未进行核实；其次是 LLM 的“元注释”，例如在正文中遗留了类似于“作为一个 AI 语言模型……”或“以下是为您生成的摘要……”等典型的 AI 提示词。这些痕迹直接证明了作者在发布研究成果时缺乏最基本的审慎态度，未能履行科研人员的核查义务。

封禁机制的震慑作用

对于被证实上传“AI 垃圾内容”的研究人员，ArXiv 将采取封禁措施。这一处罚手段在学术界具有极强的震慑力，因为 ArXiv 是许多学科（尤其是计算机科学、物理学和数学）发布最新研究成果的首选平台。一旦被封禁，研究人员将失去在第一时间向全球同行展示成果的机会。这一政策的出台，旨在迫使研究人员在利用 AI 工具辅助写作时保持高度警惕，确保每一份上传的稿件都经过了严格的人工审核。

行业影响

ArXiv 的这一举措对整个 AI 行业及学术界具有深远影响。首先，它为学术预印本平台的管理树立了标杆，预示着未来学术交流平台将从“开放包容”转向“有底线的开放”。其次，这反映了学术界对 AI 工具定位的重新思考：AI 可以作为辅助工具，但不能取代人类的学术判断与责任。对于 AI 开发者而言，这也提出了新的要求，即如何减少模型的幻觉输出，并帮助用户更好地识别和标注 AI 生成的内容。此举将推动 AI 辅助科研向更加规范化、透明化的方向发展。

常见问题

什么是 ArXiv 提到的“AI slop”？

“AI slop”是指那些由大语言模型生成、且未经人工校对或质量把控的低质量、甚至包含错误信息的学术内容。它通常表现为逻辑不通、事实错误或包含明显的 AI 生成痕迹。

哪些具体的证据会导致论文被判定为违规？

主要包括两类：一是论文中引用了完全虚构的、不存在的参考文献（AI 幻觉）；二是论文中保留了 LLM 在生成过程中产生的元注释或提示性语句，证明作者未对内容进行检查。

研究人员还能使用 AI 辅助撰写论文吗？

ArXiv 的新规并非禁止使用 AI，而是禁止发布“未经核对”的 AI 生成内容。只要研究人员对 AI 生成的结果进行了严格的审核、校对，并确保事实准确、引用真实，使用 AI 辅助工具本身并不在封禁范围内。

ArXiv 宣布严厉打击 AI 垃圾论文：发现未校对 LLM 内容将面临封禁处罚