研究者发现DALL-E 2在用自创语言生成图像:全文黑话,人类看不懂
机器之心报道 机器之心编辑部 人工智能 DALLE 善于画出各种神奇图像的原因在于——它不说人话。 「我们发现 DALLE-2 似乎有一个隐藏的词汇表,用于生成各种荒谬描述内容的图像。例如,Apoploe vesrreaitais 似乎是指鸟类,而 Contarra ccetnxniams luryca tanniounons 有时指虫子。我们发现这些 prompt 通常在孤立的情况下是一致的,但有时也是组合的,」研究人员写道。 DALL-E 生成的各种诡异图片在社交网络上刷屏已经持续了一段时间,有关为什么人工智能可以生成自然界中不存在的事物,很多研究者正在寻根问底。近日,来自德克萨斯大学奥斯丁分校的学者发现,DALL-E2 会使用看似随机但与视觉概念有一些关联的单词来形容自己做的事。 简而言之,AI 自创了一门语言,这份可解释性研究让人们细思极恐,连 Gary Marcus 也受到震撼。 自从 OpenAI 发布 DALLE 和 DALLE-2 以来,多模态大模型的视觉生成能力有目共睹。它们以文本标题作为输入,就能生成与给定文本相匹配的高质量图像。 DALLE-2 使用无分类器的扩散引导,但其众多周知的局限性是它会与文本相抗。比如文本 prompt 是「An image of the word airplane」的时候,通常会导致生成图像完全没听懂文本的内涵。研究者们发现,这个生成的文本不是随机的,而是揭示了一套隐藏的体系,这个词汇模型似乎是从内部发展出来的。比如说,当输入这些不知所云的的文本时,模型经常会生成飞机。 这些隐藏词汇中的一些是可以被学习的,并用来创造出一些离奇的 prompt,最终生成自然的图像。例如,Apoploe vesrreaitais 似乎意味着「鸟类」,Contarra ccetnxniams...