今年 4 月,一篇名为《A Roadmap for Big Model》(大模型路线图)的论文被爆出抄袭,该篇论文中涉及国内 19 家机构和百名 AI 学者,其中不乏业内知名 AI 学术大佬。
事件一出,舆论哗然,也把国内的 AI 学术圈推上了风口浪尖。
作为此篇论文第一单位,北京智源研究院立即对此事做出了积极回应,并邀请第三方专家对此事展开独立调查。智源研究院还就 IEEE 手册条款的理解和抄袭严重程度的认定,通过邮件咨询了 IEEE 学术出版规范负责人的意见。
历时三个月,7 月 15 日,根据CCF调查报告和 IEEE 专家反馈,智源研究院与 16 篇文章的通讯作者进行了沟通,对于存在问题文章的作者责任进行了核查与认定,并将调查和处理情况在官网上进行了通报。
以下为通报全文:
1. 组织失察责任认定
该综述报告由智源研究院大模型研究中心牵头组织、邀请国内外 19 个机构共 100 位科研人员分别撰写的 16 篇独立专题文章组成,每篇文章都有对应的撰写作者和通讯作者(除第 12 篇外),所有作者共同署名整个报告(这种组织模式参考了斯坦福大学“On the Opportunities and Risks of Foundation Models” (https://arxiv.org/pdf/2108.07258v2.pdf) 一文的编撰方式)。综述报告首先上传至预印本网站 arXiv,原计划经过修改完善后再正式出版。
智源研究院大模型研究中心作为组织单位,对综述报告撰写中可能存在的风险隐患缺少充分考虑,未采取必要措施避免相关问题出现,对整个事件负有监督失察责任。
综述报告的第一作者(智源大模型研究中心人员)未严格按照学术出版规范的流程执行,在未与其他作者确认的情况下,于 2022 年 3 月 26 日将综述报告上传至 arXiv,负有主要组织责任。
2. 两处抄袭的责任认定
综述报告 10 处被质疑片段中,2 处属于抄袭。
第 2 篇文章的 2.3.1 节存在共计 179 个单词的多句重复,在最开始明确标注了引用文献,但未明确区别引用文字,且篇幅较大,属于《学术出版规范 期刊学术不端行为界定》“三、论文作者学术不端行为类型”中的 “1.5 文字表述剽窃”:“成段使用他人已发表文献中的文字表述,虽然进行了引注,但对所使用文字不加引号,或者不改变字体,或者不使用特定的排列方式显示”,达到《IEEE 出版物服务和产品委员会操作手册》“对不同等级的抄袭行为进行判定的指南” 中“第 5 级”(认定要点为“对一篇文章的主要部分逐字复制,虽有引注但缺乏清晰区分”。
说明:抄袭共分 5 级,第 1 级最严重,第 5 级最轻微),由该文章的第二作者(智源大模型研究中心人员)完成,应负直接责任。该文章的通讯作者(智源大模型研究中心人员),未对该文章进行有效审查,应负失察责任。该篇文章第 2.4.3 节存在多句重复,有明确参考文献标注,属于规范引用。参与文章的其他作者撰写的部分未发现抄袭。
第 8 篇文章的 8.3.1 节存在 74 个单词的整句重复,无明确引用,属于抄袭,相关段落由该文章第一作者(智源大模型研究中心人员)完成,应负直接责任。该文章其他作者是文章初稿完成人,初稿不涉及被质疑内容。该文章第一作者未经通讯作者及其他作者同意将自己加为第一作者并对文章进行了大篇幅修改,文章发布前未与通讯作者确认,因此通讯作者和其他作者均没有责任。
上述两名作者已经按照 IEEE 手册的对应纠正措施向原作者致歉,并得到原作者谅解,履行了应该承担的相关学术责任。
3. 四处引用不规范的责任认定
除前述 2 处抄袭外,综述报告 10 处被质疑片段中,尚有部分片段属于引用不规范,但不构成抄袭,其他被质疑部分属于规范引用。具体认定如下:
第 10 篇文章存在少数重复文字,是在明确添加标注引用参考文献情况下的转述,属于规范引用。
第 12 篇文章的 12.2.3 节存在共计 36 个单词的重复,无整句重复,相关内容由该文章第二作者完成。重复内容包括两个部分,一部分包含 17 个重复单词,属于规范引用参考文献;另一部分包含 19 个重复单词,在对相关领域介绍时,引用了其他论文引言部分对于本领域的总结,但在本句中未标注引用参考文献,属于引用不规范,但不构成抄袭。该文章无通讯作者,其他作者是文章的完成人,所撰写的部分未发现抄袭。
第 14 篇文章 14.2.2 节一处多句 63 个单词重复,有明确参考文献标注,属于规范引用。14.2.3 节一处一句 30 个单词重复,有明确参考文献标注,属于规范引用。14.2.2 节另存在一处一句 29 个单词的重复,文字上指明了引用对象,但本句没有直接添加引用,相关段落由该文章的第二作者完成;14.2.3 节另存在一处一句 27 个单词重复,在 14.2.3 节中有参考文献标注,在本句中没有直接标注,相关段落由该文章的第四作者完成,上述两处属于引用不规范,但不构成抄袭。该文章其他作者撰写的部分未发现抄袭。
第 16 篇文章 16.1 节一处存在多句重复,相关段落由第二作者完成。该段落起始处对参考文献有明确引用,后续其他句子存在本句未直接标注的情形,属于引用不规范,但不构成抄袭。该文章其他作者撰写的部分未发现抄袭。
综述报告第 3、4、5、6、7、9、11、13、15、17 篇文章未发现抄袭。
4. 处理和整改情况通报
智源研究院在质疑发生后,对照国家新闻出版署《学术出版规范 期刊学术不端行文界定》标准并参照《IEEE 出版物服务和产品委员会操作手册》对抄袭的认定指南,从严要求,安排可能存在问题文章的作者向原作者进行了书面致歉,均已得到原作者反馈和谅解。同时,安排第一作者完成从 arXiv 撤稿。上述的抄袭和引用不规范的调查结论也已通知所有作者并获得确认。对照《IEEE 出版物服务和产品委员会操作手册》对抄袭行为的处罚措施,智源研究院和相关责任人已经从严履行了应该承担的相关学术责任。
鉴于上述两处抄袭和组织失察责任人均为智源研究院大模型研究中心人员,智源研究院决定重组该部门,上述相关责任人均已主动离职。
除上述智源研究院相关责任人外,综述报告其他所有作者没有抄袭及学术不端行为。在此对此次事件给这些作者造成的负面影响和困扰表示诚挚歉意!
针对此次事件发现的论文发表流程中的风险漏洞,智源研究院已经整改了论文发表流程,并修订完善了科研诚信与学风建设制度。后续,智源研究院计划与学界和业界合作,制定更严谨的文献引用规范,开发论文和代码开源检测工具和系统,避免再次出现类似问题。
事件回溯
4 月 8 日,谷歌大脑研究员 Nicholas Carlini 发文指出:
我发现了机器学习研究领域发生了一件论文抄袭事件。一篇名为《A Roadmap for Big Model》(以下简称“大模型论文”)的论文,抄袭了我发表的名为《Deduplicating Training Data Makes Language Models Better》的论文中的几个段落 。Nicholas Carlini 表示,更令人沮丧的是,自己发表的论文并不是唯一被抄袭对象,这篇大模型论文至少抄袭了十几篇其他论文。
此外,Nicholas Carlini 还将论文中内容相似度比较高的地方用绿色进行了标注(左侧是大模型论文中的文本,右侧是原始论文中的相应文本):
由于大模型论文最后的署名中涉及 19 家机构和 100 位 AI 领域知名作者,因此此事一出,在国内外学术圈里引发了极高的关注。
针对质疑,4 月 13 日,北京智源人工智能研究院发布了《关于 “A Roadmap for Big Model” 综述报告问题的致歉信》,首先向相关原文作者和学术界、产业界的同仁和朋友致歉,并公布了初步调查结果:
该报告是一篇大模型领域的综述,希望尽可能涵盖国内外该领域的所有重要文献,由智源研究院牵头,负责框架设计和稿件汇总,并邀请国内外 100 位科研人员分别撰写了 16 篇独立的专题文章,每篇文章分别邀请了一组作者撰写并单独署名,共 200 页。报告发布后,根据反馈持续进行修改完善,到 4 月 2 日在 arXiv 网站上已经更新到第三版。
4 月 13 日,我们获悉谷歌研究员 Nicholas Carlini 在个人博客上指出该报告抄袭了他们论文的数个段落,同时还有其他段落和语句抄袭其他论文。我们对此进行了逐项核查,经查重确认第 2 篇文章的第 3.1 节 179 个词,第 8 篇文章的第 3.1 节 74 个词、第 12 篇文章的第 2.3 节 55 个词、第 14 篇文章的第 2 节 159 个词、第 16 篇文章的第 1 节 146 个词与其他论文重复,应属抄袭。我们决定立即从报告中删除相应内容,报告修订版今天将提交 arXiv 进行更新。目前已通知所有文章的作者对所有内容进行全面审查,后续经严格审核后再发布新版本。
智源作为该报告的组织者,理应对各篇文章的所有内容进行严格审核,出现这样的问题难辞其咎。对此我们深感自责,特别感谢学术界和媒体的朋友们帮助我们发现问题。我们将深刻吸取教训,整改科研管理和论文发表流程,希望各界朋友监督我们工作。
此外,智源研究院还表示:“确认部分文章存在问题后,已启动邀请第三方专家开展独立审查,并进行相关追责。”
随后,4 月 15 日,智源研究院邀请的第三方专家——中国计算机学会(CCF)组成了调查组,就此事展开独立调查。
历时 3 个月,7 月 15 日,智源在官网通报了调查结果。
至此,此次论文抄袭事件最终以第三方介入、独立开展调查的方式为大众交付了一个公开透明的结果。
参考链接:
https://nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html
https://www.baai.ac.cn/portal/article/index/cid/5/id/423.html
https://www.baai.ac.cn/portal/article/index/cid/5/id/504.html
https://www.baai.ac.cn/portal/article/index/cid/5/id/422.html
公众号推荐:
AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国AGI市场发展研究报告 2024》,欢迎大家扫码关注「AI前线」公众号,回复「AGI」领取。
评论