TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
帖子内容
人工智能生成的文本能否被可靠地检测? 大型语言模型(LLMs)的迅速进步使它们能够在各种任务中表现出惊人的能力,包括文档完成和问答。然而,这些模型的不受监管的使用可能会潜在地导致恶意后果,例如抄袭、生成虚假新闻、垃圾邮件等。因此,可靠的AI生成文本检测可以确保LLMs的负责任使用。最近的研究试图通过使用生成文本输出中存在的某些模型特征或应用水印技术来解决这个问题。在本文中,我们在经验和理论上都表明,这些检测器在实际情况下并不可靠。从经验上看,我们展示了轻量级修改文本模型的改写攻击可以破坏一系列的检测器,包括使用水印方案的检测器以及基于神经网络的检测器和零点分类器。然后,我们提供了一个理论上的不可能结果,表明对于足够好的语言模型,即使是最好的检测器的表现也只比随机分类器稍微好一点。最后,我们展示了即使是受到水印方案保护的LLMs也可能会受到欺骗攻击的影响,其中敌对者可以推断隐藏的水印签名并将它们添加到他们生成的文本中,以便被检测为由LLMs生成的文本,这可能会给其开发者带来声誉损害。我们相信这些结果可以在社区中开展有关AI生成文本的道德和可靠使用的诚实对话。 https://arxiv.org/abs/2303.11156