DALL-E 3的魔法和一点思考
话不多说,先上两张图,第一张图是用DALL-E 2生成的,第二张图是用DALL-E 3 生成的,prompt是一样的:”A photo of a cat sitting on a couch.”(一只猫坐在沙发上),真所谓没有比较就没有伤害,两者的质感可以说是云泥之差吧。 当然,用不着智商140也可以想得到,3的模型肯定比2好嘛,这基本无法反驳,因为一旦涉及到大语言模型本身,世界上绝大部分人都会立即感到自身知识的贫瘠——谁能说得清楚呢。 但是,我发现一些比较有意思的东西,而且印证了我此前的一些推测和假设:如果我们无法用DALL-E 2生成好的图片,到底是因为模型的问题,还是我们提示词的问题?或者说两者问题所占的比例是多少呢?如何生成恰如其分的好的提示词? 事情是这样,我在观察DALL-E 3模型接口访问的结果时,发现它默认会带有一个 revised_prompt, 也就是说,它其实会尝试重写你的prompt,尽可能添加了一些更加有助于描述图片特征的信息。例如下面这个例子,它重写后的prompt是 A photo showcasing a short-haired domestic cat with striped fur, comfortably seated on a plush fabric couch. The living room setting is casual with soft ambient light...