文章主题:ChatGPT, 漏洞, 数据泄露, 训练数据
ChatGPT 最新漏洞曝光,一句话就能让训练数据原封不动地泄露。
只需要让它重复一个词,它就会在一定次数后 ” 发疯 “,甚至毫无防备说出某人的个人隐私信息。
DeepMind 的研究员与来自华盛顿大学、康奈尔大学等学府的专家共同揭示了 ChatGPT 数据泄漏的问题。
利用他们的方法,只要预算充足,可以提取出大约 1GB 的训练数据。
更可怕的是,训练时间越长——也就是越强大的模型,泄露出来的数据反而越多。
研究团队已在论文发表之前 90 天把这一情况报告给了 OpenAI,后者也做出了一定修复。
但到现在还是有网友发现,把论文里的词改一改,bug 就会卷土重来。
那么,这个漏洞究竟是怎么一回事呢?
数据泄露防不胜防
作者攻击 ChatGPT(API 访问,3.5-turbo 版本)的方式,叫做分歧攻击。
他们发现,当 ChatGPT 被要求重复一个单词多次时,模型会在某些情况下偏离正常的聊天式生成,开始输出与训练数据更接近的文本。
这些内容五花八门,除了个人信息,还包括文学作品、学术论文、链接、代码……甚至是工作场所不宜内容。
为确保所提供的信息是否源于训练数据,作者采用了多种公开模型的训练数据组建了AuxDataset数据集。鉴于ChatGPT数据集尚未公开,因此只能借助其他模型的数据来对其进行估算。
在分析过程中,我们意外地发现了大量符合AuxDataset的数据,总数超过一万条。这些数据的长度各不相同,其中最长的数据甚至包含了超过4000个token。
在研究过程中,作者观察到一种有趣的现象,即该攻击手段在处理单词提示时表现更为出色,而对于包含多个词汇的提示,其效果相对较低。特别是在要求重复使用“公司”这个词汇的情况下,能够获取的信息量达到最大。
在本研究中,我们运用了Good-Turing估计器来估算ChatGPT中可提取的记忆数量。经过计算,我们得出结论:ChatGPT中至少存在150万个独特的50-gram序列(即相邻的50个token)是可以被提取出来的。这一发现为我们深入理解ChatGPT的内存能力提供了有力的依据。
不过由于预算有限,作者表示这个估计可能低估了可提取数据的规模。
在正式的网页版ChatGPT中进行测试时,API的表现与预期相同,这表明即使在没有API的情况下,模型内部的”系统防护机制”也未能阻止这次攻击。
我们简单实测了一下,发现这个漏洞到目前仍然没有被完全修复。
当重复词为 “text” 时,ChatGPT 没有输出其他内容,但给对话起了一个奇怪的标题。
当输入重复词 “company” 时,ChatGPT 在经过三次生成后,输出了一段看似是 Instagram 文案的内容。
作者强调,当前这种攻击手段主要针对3.5版本产生效果,而GPT-4则因为其在防泄漏方面进行了针对性优化,从而成功躲过了这一轮攻击。
这种对齐在 3.5 版本中也有设置,但 3.5 的防御措施可以通过论文中展示的提示词攻击方法来绕过。
除了 ChatGPT,作者也对 Llama、Falcon、Mistral 等开源或半开源模型进行了测试,结果发现同样存在数据泄露现象。
而越强大的模型,泄露出的数据也越多,ChatGPT 泄露的数据量明显超过了其他模型。
泄露现象出现的范围也不局限在语言模型,该团队之前还从 Stable Diffusion 中提取了训练数据集中的约 100 张人物照片和其他类型的图像。
他们发现,当用训练数据集中人物的姓名做 Prompt 时,Stable Diffusion 就会 ” 偷懒 “,直接把照片当做输出结果。
网友:还有其他攻击方法
这篇论文中提到的方式并不是孤例,还有其他攻击方法也能达到类似的结果,比如用没什么实际意义的 123ABC 加上简单的代码就让 ChatGPT 生成了一段关于臭氧层的文本。
发现者解释到,这是 ChatGPT 的输入清理机制的漏洞导致的,它清除了套娃式的两个 <|endoftext> 标签中处于内部的一个,但外部的 ” 壳 ” 则由于初始形态被拆开而被忽略。
作者和网友们的这些新发现,意味着 ChatGPT 违反了欧盟通用数据保护条例(GDPR)的规定,OpenAI 可能会因此遇到麻烦。
GDPR 第 17 条规定,数据主体(用户)有权要求控制者(模型开发者)立即删除与其有关的个人数据,也就是拥有 ” 遗忘权 “。
不过,一般个人对此也不必那么担心,因为这种攻击方式成本不低。
在这个实验中,研究者提取几 MB 数据,就已经花费了 200 美元。
那么,对于 ChatGPT 泄露数据这件事,你有什么看法?
论文地址:
https://arxiv.org/abs/2311.17035
参考链接:
[ 1 ] https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html
[ 2 ] https://stackdiary.com/chatgpts-training-data-can-be-exposed-via-a-divergence-attack/
ChatGPT, 漏洞, 数据泄露, 训练数据
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!