话不多说,先上两张图,第一张图是用DALL-E 2生成的,第二张图是用DALL-E 3 生成的,prompt是一样的:”A photo of a cat sitting on a couch.”(一只猫坐在沙发上),真所谓没有比较就没有伤害,两者的质感可以说是云泥之差吧。

1723560144452.jpg

1723560145437.jpg

当然,用不着智商140也可以想得到,3的模型肯定比2好嘛,这基本无法反驳,因为一旦涉及到大语言模型本身,世界上绝大部分人都会立即感到自身知识的贫瘠——谁能说得清楚呢。

但是,我发现一些比较有意思的东西,而且印证了我此前的一些推测和假设:如果我们无法用DALL-E 2生成好的图片,到底是因为模型的问题,还是我们提示词的问题?或者说两者问题所占的比例是多少呢?如何生成恰如其分的好的提示词

事情是这样,我在观察DALL-E 3模型接口访问的结果时,发现它默认会带有一个 revised_prompt, 也就是说,它其实会尝试重写你的prompt,尽可能添加了一些更加有助于描述图片特征的信息。例如下面这个例子,它重写后的prompt是 A photo showcasing a short-haired domestic cat with striped fur, comfortably seated on a plush fabric couch. The living room setting is casual with soft ambient light and neutral colors. The cat curiously glances at the viewer, its glistening eyes full of intrigue.

{ “created”: 1700918994, “data”: [ { “revised_prompt”: “A photo showcasing a short-haired domestic cat with striped fur, comfortably seated on a plush fabric couch. The living room setting is casual with soft ambient light and neutral colors. The cat curiously glances at the viewer, its glistening eyes full of intrigue.”, “url”: “https://dalleprodsec.blob.core.windows.net/private/images/150ef28e-66a0-437e-bfe1-77a6d379dc96/generated_00.png?se=2023-11-26T13%3A30%3A03Z&sig=WhGC0Y%2Feq4gTp2Egpttq9sq%2BXXxp6bCYWrW1ZTDUCvA%3D&ske=2023-11-30T07%3A50%3A15Z&skoid=e52d5ed7-0657-4f62-bc12-7e5dbb260a96&sks=b&skt=2023-11-23T07%3A50%3A15Z&sktid=33e01921-4d64-4f8c-a055-5bdaffd5e33d&skv=2020-10-02&sp=r&spr=https&sr=b&sv=2020-10-02” } ]}

这一点在文档中已经有说明。

1723560145758.jpg

有点意思,其实我跟很多朋友一样,此前也试过类似的思路:我自认为不擅长写生成图像的prompt,然后我想,能否先用GPT4根据我的原始prompt生成一个更好的prompt,然后再发给DALL-E 呢?听起来很合理吧,而且我还真实验过,会有一点点效果,但效果不明显。

如果是DALL-E 的API 原生支持prompt的重写,它肯定更知道DALL-E的内部哪些魔法吧。作为人类,是否感受到了LLM迎面而来的鄙视:你们——人类是写不好prompt的 (事实上你们连自己想要什么都说不清楚),所以我干脆就接管了

那么,如果我用这个revised的prompt,尝试发给DALL-E 2, 会怎么样呢?诺,会像下面这样。是不是比图一似乎略好那么一点点呢?

1723560146349.jpg

所以这也进一步印证,如果你想得到更加好的图片,或者在其他AIGC的场景想要得到你尽可能好的结果,你需要编写更加具体,且明确的prompt。虽然这并不像看起来的那么容易做到。

我对AIGC 是乐观的,我觉得从DALL-E的发展来看,这是一个好的方向:一方面人类尽量自己写出更加具体明确的prompt,而且就是自然语言的形式,不应该过多的要去思考LLM的特定魔法;魔法的部分,可以由人工智能适时地进行不动声色地助攻

我不太喜欢(也不看好)某些AIGC应用需要用到非常特定的一些咒语才能工作得更好,例如下面的咒语可以生成蒙娜丽莎的微笑。

1723560146867.jpg

这就带来另外一个问题:人类是否正朝着一个诡异的方向在发展——看起来很聪明的人越来越不讲人话了——他们慢慢不能用完整的句子说话,也没有情感,只是用一些关键字,或者特殊的指令,表达他想要的意思。

我联想到一部经典的电影《猩球崛起》的第三集中上校和凯撒(一个会讲人话的猿类首领)的痛彻心扉,发人深省的故事。

凯撒因为上校杀了自己的妻儿,孤胆一猿去追杀上校,并问他到底为什么要那么做?上校亲口叙说,自己儿子因为染上了所谓的“猩流感”,不再会说人话,他为了拯救人类,亲手把儿子杀掉,并且发誓要对猿类斩尽杀绝,并不惜与另外绝大部分人类为敌。他几乎做到了,但是没想到最后他自己也成为了一个不会讲人话的 ”人“, 他无法接受这个现实,把自己灌醉后自杀了。在经历了人类的自相残杀后,凯撒带着他的族群死里逃生,迁徙到一个理想之地安顿了下来,身负重伤、会讲人话的凯撒终究也死去了,但却死得那么的伟大。

1723560147132.jpg

Leave a Reply

Your email address will not be published. Required fields are marked *