DALL-E 2的工作原理原来是这样!
Midjourney

DALL-E 2的工作原理原来是这样!

CLIP+修改版GLIDE双管齐下。 作者 | Ryan OConnor 编译丨王玥 编辑 | 陈彩娴 OpenAI的模型DALL-E 2于本月初发布,刚一亮相,便在图像生成和图像处理领域卷起了新的风暴。 只需要给到寥寥几句文本提示,DALL-E 2就可以按文本指示生成全新图像,甚至能将毫不相关的物体以看似合理的语义方式组合在一起。 比如用户输入提示“一碗汤是另一个次元的入口”后,DALL-E 2便生成了以下的魔幻图片。 “一碗汤是另一个次元的入口” 图源:https://openai.com/dall-e-2/ DALL-E 2不仅能按用户指令生成明明魔幻,却又看着十分合理不明觉厉的图片。作为一款强大的模型,目前我们已知DALL-E 2还可以: 生成特定艺术风格的图像,仿佛出自该种艺术风格的画家之手,十分原汁原味! 保持一张图片显著特征的情况下,生成该图片的多种变体,每一种看起来都十分自然; 修改现有图像而不露一点痕迹,天衣无缝。 感觉有了DALL-E 2,艺术家都可以下岗了。 DALL-E 2目前曝光的功能令人瞠目结舌,不禁激起了众多AI爱好者的讨论,这样一个强大模型,它的工作原理到底是什么?! 1工作原理:简单粗暴 “一只在吹喷火喇叭的柯基”——DALL-E 2图片生成流程解析 图源:https://arxiv.org/abs/2204.06125 针对图片生成这一功能来说,DALL-E 2的工作原理剖析出来看似并不复杂: 首先,将文本提示输入文本编码器,该训练过的编码器便将文本提示映射到表示空间。 接下来,称为先验的模型将文本编码映射到相应的图像编码,图像编码捕获文本编码中包含的提示的语义信息。 最后,图像解码模型随机生成一幅从视觉上表现该语义信息的图像。 2工作细节:处处皆奥妙 可是以上步骤说起来简单,分开看来却是每一步都有很大难度,让我们来模拟DALL-E 2的工作流程,看看究竟每一步都是怎么走通的。 我们的第一步是先看看DALL-E 2是怎么学习把文本和视觉图像联系起来的。 第一步 – 把文本和视觉图像联系起来 输入“泰迪熊在时代广场滑滑板”的文字提示后,DALL-E 2生成了下图: 图源:https://www.assemblyai.com/blog/how-dall-e-2-actually-works/ DALL-E 2是怎么知道“泰迪熊”这个文本概念在视觉空间里是什么样子的?...
DALL-E 3动嘴改图上线,四大优点快速上手体验!碾压对手还需要时间!
Midjourney

DALL-E 3动嘴改图上线,四大优点快速上手体验!碾压对手还需要时间!

扫除AI绘画的迷雾,全面解读AIGC的秘密!加入《AI绘画与AIGC实践之路》专栏,快速入门! 自OpenAI宣布推出DALL-E 3以来,引发大量的关注,但绝大多数人并没能亲身体验他的真实效果。根据官方介绍,DALL-E 3是OpenAI最新推出的文本转图像工具,它可以根据用户提供的文本描述生成各种类型和风格的图像。 DALL-E 3是在DALL-E 2的基础上升级而来,具有以下四个方面的优势: DALL-E 3能够更好地理解用户的命令,生成更符合文本要求的图像。例如,如果用户输入“一个穿着芭蕾舞裙的小萝卜在遛狗”,DALL-E 3可以生成一张清晰可爱的插画,而不是一些模糊不清或者与文本无关的图像。 DALL-E 3能够生成具有可读性的文本和排版,这是DALL-E 2或者其他竞争对手难以做到的。例如,如果用户输入“一个有‘openai’字样的店铺”,DALL-E 3可以生成一张包含不同字体和颜色的‘openai’标志的店铺图片,而不是一些随机或者不清楚的文字。 DALL-E 3能够与ChatGPT聊天机器人无缝整合,让用户可以直接在ChatGPT中使用DALL-E 3生成图像,或者让ChatGPT帮助用户完善文本描述。例如,如果用户只输入“一个沙发”,ChatGPT可以自动给出一些更具体和有趣的描述,如“一个形状像牛油果的沙发”,然后DALL-E 3根据这些描述生成相应的图像。 DALL-E 3在安全性方面也有所改进,它可以拒绝生成一些涉及公众人物、暴力、成人或仇恨内容的图像。此外,OpenAI也在研究如何帮助人们识别哪些图像是由AI生成的,以防止可能存在的滥用或误导。 一个好消息是,Dall-E3已经在必应中推出,现在你可以直接在必应的聊天界面使用Dall-E3模型生成图像,体验一下官方提到的优点是否真实。建议先打开Bing的创意开关。下面先看一个快速体验视频: 一、DALL-E 3生成可读性的文本 下面我们先来体验一下DALL-E 3生成可读性文本的能力,首先让Dall-E3生成一张“一个人坐在电脑前,屏幕上显示着‘Im working! ’” 二、DALL-E 3与ChatGPT交互修改图像 接下来提示:将电脑改为Mac。结果如下。 继续修改,把坐着的人改成美女。 甲方脑子短路,要求改为室外场景,没问题: 甲方表示,要中国人,不要老外,好的,继续改: 但应该注意到的是,在Bing里的ChatGPT只能根据用户提示不断修改提示语,并不能直接修改已生成的图像,也就无法根据创作者的意图调整图像细节和走向,实用性大打折扣,碾压Midjourney和Stable Diffusion还需要时日。如果未来能够直接根据语义修改已有图像,那才是碾压性的能力,这从理论上来说是可以实现的。 三、DALL-E 3生成图像的质量如何 四、DALL-E 3对复杂语义的理解能力: 风来了,猪都能飞上天。 探险家在海底发现了泰坦尼克号的残骸。 哥特教堂的局部雕塑,异形大战铁血战士。 梵高的作品,巨人举起光剑,周围一群人围观。 日本富士山沉没在海底,火山熔岩。 更复杂的:牛顿和史蒂夫并肩站着,中间有“每个苹果都有一个故事”这句话,牛顿留着浓密的卷发,穿着17世纪的服装,手里拿着一个红苹果。在他旁边,史蒂夫穿着他标志性的黑色高领毛衣和眼镜,拿着一个时尚的iPad。 改成摄影风格...
OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人
Midjourney

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自 | 机器之心 打开 ChatGPT 就能用 DALL・E 3 生成图片了,OpenAI 还罕见地发布了一些技术细节。 终于,「OpenAI 又 Open 了」。在看到 OpenAI 刚刚发布的 DALL・E 3 相关论文后,一位网友感叹说。 DALL・E ‍3 是 OpenAI 在 2023 年 9 月份发布的一个文生图模型。与上一代模型 DALL・E 2 最大的区别在于,它可以利用 ChatGPT 生成提示(prompt),然后让模型根据该提示生成图像。对于不擅长编写提示的普通人来说,这一改进大大提高了 DALL・E 3 的使用效率。 此外,与 DALL・E 2 相比,DALL・E 3 生成的图质量也更高。 DALL・E 2...
10 分钟速成!Midjourney 网页版保姆级手册,全员免费体验
Midjourney

10 分钟速成!Midjourney 网页版保姆级手册,全员免费体验

Midjourney 官方在 8 月 22 日的凌晨,发布了网页版向所有人开放的新闻。并且临时开放了免费试用。 官方之前已经迫于用户的呼声,开放了网页版。但是需要在 Discord 上生成图片到一定数量才能使用。而生成图片都是收费的,所以一般用户根本没有机会体验。 这次开放了限时免费,而且还是网页版,还不抓紧时间薅起来! 速成教程 一、登录 地址: https://www.midjourney.com/ 右下角有「注册」、「登录」按钮 可以选择 Discord 或者 Google,一般推荐用 Google 邮箱注册,适用范围更广。 授权登录后就来到了主界面,具体的模块如下。 二、社区探索 和之前功能差不多,右上角可以根据关键字搜索,相当于是一个图库。 随机刷图,查看最热门的图片,也可以分别选择本天 / 本周和本月的 Top 图,方便我们去寻找优质的图片。 点开单张图片,会展示用于生成该图片的提示词,还有一些快捷操作按钮。 右上角的 1 标志处,可以以图搜图,非常强大,同类型的图片一网打尽。2 标志处是加入收藏夹,方便查看。 Use 按钮处可以一键将图片、风格和 Prompt 加入到输入框,想要模仿图片出图时非常方便。 三、生成图片 基本操作 关键词输入在下图标志 1 区域,文字信息直接输入在框里。 点击右边标志 2 区域的小图标,可以看到...