学生在使用聊天机器人完成下一个作业之前可能需要三思。根据宾夕法尼亚州立大学领导的研究小组的说法,根据用户提示生成文本的语言模型以多种方式抄袭内容,该研究小组进行了第一项直接检查该现象的研究。
“剽窃有不同的形式,”宾夕法尼亚州立大学信息科学与技术教授 Dongwon Lee 说。“我们想看看语言模型是否不仅复制和粘贴,而且在没有意识到的情况下诉诸更复杂的抄袭形式。”
研究人员重点确定了三种形式的剽窃:逐字抄袭,即直接复制和粘贴内容;在不引用原始来源的情况下释义、改写和重组内容;和想法,或在没有适当归属的情况下使用文本中的主要想法。他们构建了一个自动检测抄袭的管道,并针对 OpenAI 的 GPT-2 对其进行了测试,因为该语言模型的训练数据可在线获取,使研究人员能够将生成的文本与用于预训练 GPT-2 的 800 万份文档进行比较。
科学家们使用 210,000 个生成的文本来测试预训练语言模型和微调语言模型或进一步训练以专注于特定主题领域的模型是否存在抄袭。在这种情况下,该团队对三种语言模型进行了微调,以专注于科学文档、与 COVID-19 相关的学术文章和专利声明。他们使用开源搜索引擎检索与每个生成的文本最相似的前 10 个训练文档,并修改现有的文本对齐算法以更好地检测逐字、释义和思想抄袭的实例。
该团队发现语言模型犯了所有三种类型的抄袭,并且用于训练模型的数据集和参数越大,抄袭发生的频率就越高。他们还指出,经过微调的语言模型减少了逐字抄袭,但增加了释义和思想抄袭的情况。此外,他们还确定了语言模型通过所有三种形式的剽窃暴露个人私人信息的实例。研究人员将在 4 月 30 日至 5 月 4 日在德克萨斯州奥斯汀举行的 2023 ACM 网络会议上展示他们的发现。
“人们追求大型语言模型,因为模型越大,生成能力就越强,”主要作者、宾夕法尼亚州立大学信息科学与技术学院博士生 Jooyoung Lee 说。“与此同时,它们正在危害训练语料库中内容的原创性和创造性。这是一个重要的发现。”
研究人员表示,该研究强调需要对文本生成器及其提出的伦理和哲学问题进行更多研究。
密西西比大学计算机与信息科学助理教授 Thai Le 表示:“尽管输出可能很吸引人,语言模型使用起来可能很有趣,而且对某些任务似乎很有成效,但这并不意味着它们很实用。”他作为宾夕法尼亚州立大学的博士候选人开始从事该项目。“在实践中,我们需要处理文本生成器带来的道德和版权问题。”
尽管研究结果仅适用于 GPT-2,但研究人员建立的自动抄袭检测过程可应用于 ChatGPT 等较新的语言模型,以确定这些模型是否以及多久抄袭训练内容。然而,研究人员表示,对剽窃的测试取决于开发人员是否可以公开访问培训数据。
科学家们表示,目前的研究可以帮助人工智能研究人员在未来建立更强大、更可靠和负责任的语言模型。目前,他们敦促个人在使用文本生成器时要谨慎行事。
宾夕法尼亚州立大学信息科学与技术助理教授 Jinghui Chen 表示:“AI 研究人员和科学家正在研究如何使语言模型更好、更健壮,与此同时,许多人在日常生活中使用语言模型来完成各种生产力任务。” “虽然利用语言模型作为搜索引擎或堆栈溢出来调试代码可能没问题,但出于其他目的,由于语言模型可能会产生抄袭内容,因此可能会给用户带来负面影响。”
Dongwon Lee 补充说,剽窃的结果并不出人意料。
“作为一只随机鹦鹉,我们教语言模型模仿人类的作品,但没有教他们如何不正确地抄袭,”他说。“现在,是时候教他们更正确地写字了,我们还有很长的路要走。”
编辑:小宇
免责声明:文章未标注“本站原创”或“河南金融网”的文章均转载自网络。文章内容不代表本站观点,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,风险自己甄别并承担后果;如本文内容影响到您的合法权益,请及时联系本站,我们会及时删除处理!