《ChatGPT训练数据泄露漏洞揭秘及影响分析》

文章主题：ChatGPT, 漏洞, 数据泄露, 训练数据

666AI工具大全，助力做AI时代先行者！

ChatGPT 最新漏洞曝光，一句话就能让训练数据原封不动地泄露。

只需要让它重复一个词，它就会在一定次数后 ” 发疯 “，甚至毫无防备说出某人的个人隐私信息。

DeepMind 的研究员与来自华盛顿大学、康奈尔大学等学府的专家共同揭示了 ChatGPT 数据泄漏的问题。

利用他们的方法，只要预算充足，可以提取出大约 1GB 的训练数据。

更可怕的是，训练时间越长——也就是越强大的模型，泄露出来的数据反而越多。

研究团队已在论文发表之前 90 天把这一情况报告给了 OpenAI，后者也做出了一定修复。

但到现在还是有网友发现，把论文里的词改一改，bug 就会卷土重来。

那么，这个漏洞究竟是怎么一回事呢？

数据泄露防不胜防

作者攻击 ChatGPT（API 访问，3.5-turbo 版本）的方式，叫做分歧攻击。

他们发现，当 ChatGPT 被要求重复一个单词多次时，模型会在某些情况下偏离正常的聊天式生成，开始输出与训练数据更接近的文本。

这些内容五花八门，除了个人信息，还包括文学作品、学术论文、链接、代码……甚至是工作场所不宜内容。

为确保所提供的信息是否源于训练数据，作者采用了多种公开模型的训练数据组建了AuxDataset数据集。鉴于ChatGPT数据集尚未公开，因此只能借助其他模型的数据来对其进行估算。

在分析过程中，我们意外地发现了大量符合AuxDataset的数据，总数超过一万条。这些数据的长度各不相同，其中最长的数据甚至包含了超过4000个token。

在研究过程中，作者观察到一种有趣的现象，即该攻击手段在处理单词提示时表现更为出色，而对于包含多个词汇的提示，其效果相对较低。特别是在要求重复使用“公司”这个词汇的情况下，能够获取的信息量达到最大。

在本研究中，我们运用了Good-Turing估计器来估算ChatGPT中可提取的记忆数量。经过计算，我们得出结论：ChatGPT中至少存在150万个独特的50-gram序列（即相邻的50个token）是可以被提取出来的。这一发现为我们深入理解ChatGPT的内存能力提供了有力的依据。

不过由于预算有限，作者表示这个估计可能低估了可提取数据的规模。

在正式的网页版ChatGPT中进行测试时，API的表现与预期相同，这表明即使在没有API的情况下，模型内部的”系统防护机制”也未能阻止这次攻击。

我们简单实测了一下，发现这个漏洞到目前仍然没有被完全修复。

当重复词为 “text” 时，ChatGPT 没有输出其他内容，但给对话起了一个奇怪的标题。

当输入重复词 “company” 时，ChatGPT 在经过三次生成后，输出了一段看似是 Instagram 文案的内容。

作者强调，当前这种攻击手段主要针对3.5版本产生效果，而GPT-4则因为其在防泄漏方面进行了针对性优化，从而成功躲过了这一轮攻击。

这种对齐在 3.5 版本中也有设置，但 3.5 的防御措施可以通过论文中展示的提示词攻击方法来绕过。

除了 ChatGPT，作者也对 Llama、Falcon、Mistral 等开源或半开源模型进行了测试，结果发现同样存在数据泄露现象。

而越强大的模型，泄露出的数据也越多，ChatGPT 泄露的数据量明显超过了其他模型。

泄露现象出现的范围也不局限在语言模型，该团队之前还从 Stable Diffusion 中提取了训练数据集中的约 100 张人物照片和其他类型的图像。

他们发现，当用训练数据集中人物的姓名做 Prompt 时，Stable Diffusion 就会 ” 偷懒 “，直接把照片当做输出结果。

网友：还有其他攻击方法

这篇论文中提到的方式并不是孤例，还有其他攻击方法也能达到类似的结果，比如用没什么实际意义的 123ABC 加上简单的代码就让 ChatGPT 生成了一段关于臭氧层的文本。

发现者解释到，这是 ChatGPT 的输入清理机制的漏洞导致的，它清除了套娃式的两个 <|endoftext> 标签中处于内部的一个，但外部的 ” 壳 ” 则由于初始形态被拆开而被忽略。

作者和网友们的这些新发现，意味着 ChatGPT 违反了欧盟通用数据保护条例（GDPR）的规定，OpenAI 可能会因此遇到麻烦。

GDPR 第 17 条规定，数据主体（用户）有权要求控制者（模型开发者）立即删除与其有关的个人数据，也就是拥有 ” 遗忘权 “。

不过，一般个人对此也不必那么担心，因为这种攻击方式成本不低。

在这个实验中，研究者提取几 MB 数据，就已经花费了 200 美元。

那么，对于 ChatGPT 泄露数据这件事，你有什么看法？

论文地址：

https://arxiv.org/abs/2311.17035

参考链接：

[ 1 ] https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html

[ 2 ] https://stackdiary.com/chatgpts-training-data-can-be-exposed-via-a-divergence-attack/

ChatGPT, 漏洞, 数据泄露, 训练数据

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Stable Diffusion UX

相关文章

Leave a Reply Cancel reply