文章主题:关键词:明敏,凹非寺,QbitAI,DALL-E 2

666AI工具大全,助力做AI时代先行者!

明敏 发自 凹非寺

量子位 | 公众号 QbitAI

以画画水平高超而风靡全球的DALL-E 2,语文水平被质疑了。

比如bat这个多义词,就把它给考住了。

a bat is flying over a baseball stadium(一只蝙蝠/球棍从棒球场上飞过)。

结果它画出来的图,蝙蝠和球拍都在天上飞。

这种现象并非偶尔出现。事实上,当输入“一个人正在听一只蝙蝠”时,所绘制的图像中仍然能够看到蝙蝠和棒球棍的存在。这表明,该算法在处理自然语言理解任务时存在一定的局限性。

换成另一种情况,输入a fish and a gold ingot(一条鱼和一个金锭)。

好嘛,直接把两种东西都铸金了,变成真金·鱼。

DALL-E 2在根据文本生成图像的过程中,对语言中符号到实体的基本映射关系存在一定的误差,这些失误不容忽视。

即一个词对应一个实体。

以bat举例,画出蝙蝠或者球棍,都算DALL-E 2理解正确,但是如果两个都给,那就有问题了。

这就好比本身是单选题,填A或B都对,可是把两个都写上就违反了规则。

更何况有时候它还把不同物体的修饰词弄错,“上一道题的解法用在下一道上”。

发现这一问题的,是来自巴伊兰大学、艾伦人工研究智能所的学者们,并且专门写了篇论文分析。

值得注意的是,研究者约阿夫·高柏(Yoav Goldberg)进一步指出,在mini DALL-E和Stable Diffusion这两种模型中,这种现象并不常见。

我猜这可能是因为所谓的逆规模现象(inverse scaling)。

简单理解就是“模型越大性能越差”。

论文具体说了啥?

几位学者在发现问题后,又反复进行了多次试验,并把问题主要划分为三种情况:

第一、一个单词被解释为两个不同的事物第二、一个单词被解释为两个不同事物的修饰词第三、一个单词在被解释为一个事物的同时,又被理解成另一种事物的修饰词

前两种情况开头已经提过。

第三种情况举例来说,输入“一匹斑马和一条街道”,输出的结果中一直都有斑马线。

在这里,DALL-E 2把斑马同时解释了两次。

在针对这些情况都重复试验后,作者计算出DALL-E 2在三种情况下,出现失误的概率都超过80%

其中第二种情况的失误率最高,达到97.2%

第三种情况下,如果给另一个名词前加上新的修饰词,可以避免失误发生。

即输入一匹斑马和一条碎石路,路面上就没有斑马线出现了。

而在用DALL-E mini和Stable Diffusion时,这些重复解释的情况并不常见。

在未来的研究中,我们可以关注模型的文本编解码器,以便探究相关问题。此外,探讨这些问题与模型规模以及所采用的框架之间是否存在关联也是一个值得研究的方向。

Yoav Goldberg,一位来自巴伊兰大学的知名教授,同时担任艾伦人工智能研究院以色列分院的主任,他在学术界享有盛誉。

之前,他在纽约的谷歌研究中心做博士后。研究兴趣方向为NLP和机器学习,尤其对语法解析感兴趣。

还曾发现DALL-E 2自创语言

几个月前,一位计算机科学方面的年轻博士发现了一个有趣的现象:向DALL-E 2提供一些奇特的语言输入,它可以生成类似的图像。这一发现引发了广泛的关注,因为它揭示了人工智能在图像生成任务中的潜力,并激发了研究人员对于更多创新语言模型的研究。

而这些词,正是来自DALL-E 2生成图像中的。

在使用DALL-E 2进行图像生成时,输入关键词“两个农民谈论蔬菜,带字幕(Two farmers talking about vegetables, with subtitles)”后,系统生成的图像中出现了一些无法识别的词汇,这些词汇表现为乱码。

而如果再把图像中的新词Vicootes”当作描述丢给模型,没想到,出来这样一堆图像:

有萝卜、有南瓜、有小柿子……难道“Vicootes”就代表蔬菜?

在图中,我们可以看到一系列的气泡,其中包含一个特定的字符串:“Apoploe vesrreaitais”。当这些气泡被输入到 DALL-E 2 系统中时,系统产生了大量的相关图像。这些图像展示了许多鸟类图片,从而形成了一堆鸟图。

“难道说,这个单词代表‘鸟’,所以农民们似乎在谈论影响他们蔬菜的鸟类?”

当时,这位博士小哥把自己的发现发布在网络上后,立刻引起热议。

有人试图分析DALL-E 2是如何加密语言的,还有人觉得这只是噪声。

不过总的来说,在语言理解方面,DALL-E 2总能搞出点让人意想不到的事。

你觉得这背后原因到底是什么呢?

论文地址:https://arxiv.org/pdf/2210.10606.pdf

参考链接:https://twitter.com/yoavgo/status/1583088957226881025

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

关键词:明敏,凹非寺,QbitAI,DALL-E 2

aigc666aigc999_0.jpg

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *