扫除AI绘画的迷雾,全面解读AIGC的秘密!加入《AI绘画与AIGC实践之路》专栏,快速入门!

1725273299314.jpg

1725273299718.jpg

自OpenAI宣布推出DALL-E 3以来,引发大量的关注,但绝大多数人并没能亲身体验他的真实效果。根据官方介绍,DALL-E 3是OpenAI最新推出的文本转图像工具,它可以根据用户提供的文本描述生成各种类型和风格的图像。

DALL-E 3是在DALL-E 2的基础上升级而来,具有以下四个方面的优势:

DALL-E 3能够更好地理解用户的命令,生成更符合文本要求的图像。例如,如果用户输入“一个穿着芭蕾舞裙的小萝卜在遛狗”,DALL-E 3可以生成一张清晰可爱的插画,而不是一些模糊不清或者与文本无关的图像。

DALL-E 3能够生成具有可读性的文本和排版,这是DALL-E 2或者其他竞争对手难以做到的。例如,如果用户输入“一个有‘openai’字样的店铺”,DALL-E 3可以生成一张包含不同字体和颜色的‘openai’标志的店铺图片,而不是一些随机或者不清楚的文字。

DALL-E 3能够与ChatGPT聊天机器人无缝整合,让用户可以直接在ChatGPT中使用DALL-E 3生成图像,或者让ChatGPT帮助用户完善文本描述。例如,如果用户只输入“一个沙发”,ChatGPT可以自动给出一些更具体和有趣的描述,如“一个形状像牛油果的沙发”,然后DALL-E 3根据这些描述生成相应的图像。

DALL-E 3在安全性方面也有所改进,它可以拒绝生成一些涉及公众人物、暴力、成人或仇恨内容的图像。此外,OpenAI也在研究如何帮助人们识别哪些图像是由AI生成的,以防止可能存在的滥用或误导。

一个好消息是,Dall-E3已经在必应中推出,现在你可以直接在必应的聊天界面使用Dall-E3模型生成图像,体验一下官方提到的优点是否真实。建议先打开Bing的创意开关。下面先看一个快速体验视频:

一、DALL-E 3生成可读性的文本

1725273299909.jpg

下面我们先来体验一下DALL-E 3生成可读性文本的能力,首先让Dall-E3生成一张“一个人坐在电脑前,屏幕上显示着‘Im working! ’”

1725273300279.jpg

二、DALL-E 3与ChatGPT交互修改图像

接下来提示:将电脑改为Mac。结果如下。

1725273300588.jpg

继续修改,把坐着的人改成美女。

1725273300997.jpg

甲方脑子短路,要求改为室外场景,没问题:

1725273301407.jpg

甲方表示,要中国人,不要老外,好的,继续改:

1725273301758.jpg

但应该注意到的是,在Bing里的ChatGPT只能根据用户提示不断修改提示语,并不能直接修改已生成的图像,也就无法根据创作者的意图调整图像细节和走向,实用性大打折扣,碾压Midjourney和Stable Diffusion还需要时日。如果未来能够直接根据语义修改已有图像,那才是碾压性的能力,这从理论上来说是可以实现的。

三、DALL-E 3生成图像的质量如何

1725273302311.jpg

1725273302658.jpg

1725273302987.jpg

1725273303471.jpg

1725273303939.jpg

1725273304666.jpg

四、DALL-E 3对复杂语义的理解能力:

风来了,猪都能飞上天。

探险家在海底发现了泰坦尼克号的残骸。

哥特教堂的局部雕塑,异形大战铁血战士。

梵高的作品,巨人举起光剑,周围一群人围观。

日本富士山沉没在海底,火山熔岩。

更复杂的:牛顿和史蒂夫并肩站着,中间有“每个苹果都有一个故事”这句话,牛顿留着浓密的卷发,穿着17世纪的服装,手里拿着一个红苹果。在他旁边,史蒂夫穿着他标志性的黑色高领毛衣和眼镜,拿着一个时尚的iPad。

改成摄影风格

人物不太像的原因是DallE3在安全性方面的改进,拒绝生成公众人物的真实结果。

从上面的结果来看,DALL-E 3确实是一个强大而创新的文本转图像工具,它可以让用户轻松地将自己的想法转化为高质量的图像,能够和ChatGPT紧密结合进行图像的创建和修改,能够理解复杂的语义。如果你对DALL-E 3感兴趣,现在可以直接在Bing上尝试体验。

五、Midjourney已死?

Dalle3和Midjourney以及Stable Diffusion都是基于深度学习的文本转图像工具,它们各有优势和缺点。我简单总结了以下几点:

Dalle3的优势是它的界面简单易用,不需要安装任何第三方平台,只要在网页上输入文本就可以生成图像。它还可以创建、编辑和融合多个图像,以及生成具有可读性的文本和排版。Dalle3的缺点是它生成的图像质量较低,不够清晰或真实,而且只能生成正方形的图像。另外,Dalle3生成的图像还无法修改,也无法微调,只能重新生成。

Midjourney的优势是它能够生成高度艺术化和逼真的图像,超过了其他竞争对手的水平。它还有一些独特的功能,如缩放、变形、平移等。Midjourney的缺点是它只能通过Discord机器人来使用,需要创建一个Discord账号并邀请机器人进入自己的服务器。而且,它需要输入一些命令来生成图像,不够直观或方便。

Stable Diffusion的优势是它提供了更多的图像定制选项,可以调整图像大小、精度、种子值、采样器等参数,以及从数千个模型中选择不同的风格。它还可以在本地运行,不依赖于云服务。Stable Diffusion的缺点是它需要安装一些复杂的步骤才能运行,而且对硬件要求较高。另外,它生成的图像有时候会出现一些噪声或失真。

总之,Dalle3、Midjourney和Stable Diffusion都有各自的特点和适用场景,没有一个工具可以完全替代另一个。用户完全可以根据自己的需求和喜好来选择合适的工具来创造你想要的图像。

想更快掌握最新AI技术的应用,欢迎加入我的公众号专栏《AIGC从入门到精通专栏》,及时获取最新技术和教程

如果你还没接触过AI视频,想快速入门学习AI视频技术,可以看一下《AI视频生成从入门到精通(录播课)

公众号精选内容

基础入门 | 建筑室内 | 模型训练 | ChatGPT

StableDiffusion  |  Midjourney  |  进阶专栏

2023.9|2023.82023.72023.62023.5

2023.4 2023.3 | 2023.2 | 2022

☞三连击支持点赞 + 在看 + 分享👇

Leave a Reply

Your email address will not be published. Required fields are marked *