文章主题:鱼羊, 凹非寺, AI P图大师, DALL·E

666AI工具大全,助力做AI时代先行者!

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

把椅子上的萌犬P成猫猫,需要几步?

第一步,圈出狗狗。第二步,告诉AI你的需求。鼠标一点,齐活。

1701778866258.jpg

这位AI P图大师,其实是位老朋友——OpenAI风靡全球的那位DALL·E。

现在,它刚刚完成了“2.0超进化”。不仅新学了一手出神入化的P图绝技,创作质量也有了飞跃式的提升。

话不多说,直接看作品感受一下~

这是DALL·E 2在“星云爆炸状柯基头”这一提示下的创作出来的画作:

1701778866892.jpg

这幅萨尔瓦多·达利的画像,是不是有点萨尔瓦多·达利内味儿了?

1701778867947.jpg

跟初代DALL·E比起来,着实是画质与艺术感双双飞升了。

1701778868210.jpg

△“日出时分安坐在田野里的狐狸,莫奈风格”

所以,研究人员具体如何点亮了DALL·E的新技能点?

CLIP+扩散模型

DALL·E此番进化,简单来说就是分辨率更高了,延迟更低了。

此外,还有更新2大新功能:

首先,在更细粒度上实现文本→图像功能。

DALL·E 2具有根据自然语言提示生成图片的能力,同时在生成图片的过程中,会综合考虑多种因素的影响,如阴影、反射和纹理等。

比如在左图标“2”的位置P一个火烈鸟泳圈,DALL-E 2会把水面倒影这种细节也处理到位。

1701778868537.jpg

其次,是可以在保留原作核心元素的基础之上,赋予原作船新的风格。

并且生成画面的画质是DALL·E 1的4倍,即从256×256提升到了1024×1024。

1701778868759.jpg

CLIP作为原版DALL·E功能实现的基石,是一款具备卓越零样本学习能力的模型。它在各类视觉与语言任务中展现出了惊人的性能,为图像重排序这一任务注入了强大的动力。

而扩散模型的特点在于,在牺牲多样性的前提下,能大大提升生成图像的逼真度。

于是,OpenAI的研究人员设计了这样一种方案:

1701778869077.jpg

在这个名为unCLIP的架构中,CLIP文本嵌入首先会被喂给自回归或扩散先验,以产生一个图像嵌入。

而后,这个嵌入会被用来调节扩散编码器,以生成最终的图像。

DALL·E是OpenAI开发的一项强大技术,能够建立图像与描述性文本之间的关联。该技术的图像生成过程,可类比为从无数个基本像素点出发,通过逐步增加细节信息,最终构建出完整的图像。换言之,DALL·E在”扩散”过程中实现了图像的生成。

1701778869236.jpg

研究人员将DALL·E 2与DALL·E、GLIDE等模型进行了对比。

1701778869669.jpg

实验结果显示,DALL·E 2的图像生成质量与GLIDE相当,但DALL·E的生成结果更具多样性。

1701778870516.jpg

目前,DALL·E 2并未对公众开放,不过如果你感兴趣,可以在线注册申请一发~

1701778870754.jpg

项目地址:

https://openai.com/dall-e-2/#demos

—完—

@量子位 · 追踪AI技术和产品新动态

深有感触的朋友,欢迎赞同、关注、分享三连վᴗ ի ❤

鱼羊, 凹非寺, AI P图大师, DALL·E

aigc666aigc999_0.jpg

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *