ChatGPT4.0的DALL-E 3的全面攻略!
Midjourney

ChatGPT4.0的DALL-E 3的全面攻略!

想要制作AI图像,首先要做的就是选择一个合适的绘画软件。我应该使用 Midjourney、DALL-E 3、Adobe Firefly 2 还是 Stable Diffusion? 主流 AI 绘画软件比较如下: 而DALL-E 3的出现,可以说彻底改变了游戏规则。现在,我们将深入探索一下DALL-E 3这个”革命”产品。 简单、大量的实际用例、细节易控制、支持中文、审查严格,还有最重要的——它是免费的。 (一)DALL-E 3提供了两种使用方式: 付费版需要成为ChatGPT的plus订阅用户免费版只需要通过newbing链接使用即可(已更名为Copilot) (二)DALL-E 3基本使用: 1.在DALL-E 3中,你可以自由发挥创意,为你的图像添加各种元素。你可以给出中文提示,DALL-E 3会自动转化为更详细的英文提示并生成多个图像 比如输入中文提示语:“画一个 18 岁的中国美少女” 2.指定长宽比,使图像满足你的特殊需求,你可以根据你的想象力,形容各种复杂的场景 提示语:“以图 4 为基础进行修改,3:2,生成少女 喜、怒、哀、乐,四张图” 3.为你的图像定制风格,指定画家、摄影家、图片风格等参数。 提示语:“1940 年代的卡通,画面中有一个机器人拿着一只冒着热气的咖啡杯,上面有一个闪电符号,文字气泡上写着“need love”,坐在咖啡店内的窗边桌子旁。” 提示语:“一尊折纸雕塑,描绘了一个骑士手持盾牌与一只喷火的龙激战的场景,轻微景深效果。” (三)ChatGPT+Dalle3 系统提示 1.限定词:DALL-E 3的系统在创建图像时,有一些政策和指导方针需要遵守 描述不是英文则需要翻译成英文,不要因用户需求而创建超过4个图像,不要创建政客或其他公众人物的形象等等。这些限定词都是为了让用户更好的使用DALL-E 3。 2.参数组合:在一次成功的AI绘画中,你需要考虑以下几个因素: 主题、图片类型、分辨率、图片数量、种子值和奇怪度。 例如,“真实的照片,Kpop girls,在海滩,举着牌子,写着“free...
文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM’23
Midjourney

文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM’23

扩散模型已经成为了主流的文本到图像生成模型,可以基于文本提示的引导,生成高质量且内容丰富的图像。 但如果输入的提示过于简洁,现有的模型在语义理解和常识推理方面都存在局限,导致生成的图像质量下降明显。 为了提高模型理解叙述性提示的能力,中山大学HCP实验室林倞团队提出了一种简单而有效的参数高效的微调方法SUR-adapter,即语义理解和推理适配器,可应用于预训练的扩散模型。 论文地址:https://arxiv.org/abs/2305.05189 开源地址:https://github.com/Qrange-group/SUR-adapter 为了实现该目标,研究人员首先收集并标注了一个数据集SURD,包含超过5.7万个语义校正的多模态样本,每个样本都包含一个简单的叙述性提示、一个复杂的基于关键字的提示和一个高质量的图像。  然后,研究人员将叙事提示的语义表示与复杂提示对齐,并通过知识蒸馏将大型语言模型(LLM)的知识迁移到SUR适配器,以便能够获得强大的语义理解和推理能力来构建高质量的文本语义表征用于文本到图像生成。 通过集成多个LLM和预训练扩散模型来进行实验,结果展现了该方法可以有效地使扩散模型理解和推理简洁的自然语言描述,并且不会降低图像质量。 该方法可以使文本到图像的扩散模型更容易使用,具有更好的用户体验,可以进一步推进用户友好的文本到图像生成模型的发展,弥补简单的叙事提示和复杂的基于关键字的提示之间的语义差距。 背景介绍 目前,以Stable diffusion为代表的文生图 (text-to-image)预训练扩散模型已经成为目前AIGC领域最重要的基础模型之一,在包括图像编辑、视频生成、3D对象生成等任务当中发挥着巨大的作用。 然而目前的这些预训练扩散模型的语义能力主要依赖于CLIP等文本编码器 (text encoder),其语义理解能力关系到扩散模型的生成效果。 本文首先以视觉问答任务(VQA)中常用问题类别的”Counting (计数)”, “Color (颜色)”以及”Action (动作)”构造相应的本文提示来人工统计并测试Stable diffusion的图文匹配准确度。 下表给出了所构造的各种prompt的例子。 结果如下表所示,文章揭示了目前文生图预训练扩散模型有严重的语义理解问题,大量问题的图文匹配准确度不足50%,甚至在一些问题下,准确度只有0%。 因此,需要想办法增强预训练扩散模型中本文编码器的语义能力以获得符合文本生成条件的图像。 方法概述 1. 数据准备 首先从常用的扩散模型在线网站lexica.art,civitai.com,stablediffusionweb中大量获取图片文本对,并清洗筛选获得超过57000张高质量 (complex prompt, simple prompt, image) 三元组数据,并构成SURD数据集。 如图所示,complex prompt是指生成image时扩散模型所需要的文本提示条件,一般这些文本提示带有复杂的格式和描述。simple prompt是通过BLIP对image生成的文本描述,是一种符合人类描述的语言格式。 一般来说符合正常人类语言描述的simple prompt很难让扩散模型生成足够符合语义的图像,而complex prompt(对此用户也戏称之为扩散模型的“咒语”)则可以达到令人满意的效果。 2. 大语言模型语义蒸馏 本文引入一个transformer结构的Adapter在特定隐含层中蒸馏大语言模型的语义特征,并将Adapter引导的大语言模型信息和原来文本编码器输出的语义特征做线性组合获得最终的语义特征。 其中大语言模型选用的是不同大小的LLaMA模型。扩散模型的UNet部分在整个训练过程中的参数都是冻结的。 3....
Midjourney新版本上线即爆火!网友已玩疯:和摄影几乎没区别
Midjourney

Midjourney新版本上线即爆火!网友已玩疯:和摄影几乎没区别

明敏 发自 凹非寺 量子位 | 公众号 QbitAI Midjourney v6.1刚刚发布立刻爆火! 各种人像大片,一气呵成。 画面、光线、人物表情动作……都更加逼近现实。 雕像的细致纹理,也能细致还原。 对比上一版本v6,各方面提升都非常显著。 网友感慨:这和摄影大片已经几乎没区别了。 结合最近runway的Gen-3,有人只用45分钟就做出来了细节真实度都拉满的风格大片。 时隔半年,Midjourney带来重磅更新,现在已开放体验。 v6.1在8个方面进行升级。一句话总结,就是让生成图像看上去更好看。 而且再下一个版本马上就会发布,官方表示v6.2可能在下月和大家见面,将会做更多升级,比如文字方面。 现在他们需要先收集大量用户使用数据,现在打开Midjourney默认版本就是v6.1。 人像方面强得无敌 按照官方介绍,此次版本升级主要有以下几方面提升: 更强一致性(比如手臂、腿、身体、动植物等) 更高图像质量(减少伪影、增强纹理等) 更准确的、更细节的、更精确理解小图像特征(比如眼睛、小的脸等) 更好图像/纹理质量 更快生成速度,标准图像提升25% 提高文本准确性 一个新的个性化模型 个性化代码版本控制:可以将之前版本的代码用在新版本中 一个新的-q2模式,可以增加更多纹理,但是需要更长时间(增加25%),一致性也会下降 最突出的改变就是在人像方面,几乎已经无可挑剔。 结合网友们的实测,可以更直观看到如上提升。 相对而言,v6.1版本的真实性更强。 生成的物体看上去也更加合理。 一些之前v6无法搞定的提示词,现在v6.1能呈现出更理想的效果。 可以搞定此前一些明显扭曲的生成元素。 一些超现实的合成上,看着似乎也更舒服了。 不过在生成很多人和群像上,似乎还存在挑战。 有人测试“一群人在广场上做瑜伽”,输出结果里的“人”都很抽象。 而且生成每个人的错误都差不多:四肢数量不对、向同一个方向延伸。 群像生成里,前两三排的人面部还比较正常,但是到后面就变得扭曲恐怖。 有人觉得这是因为AI只会画一个人,但是理解不好一群人是由一个个人组成的。 就好比让MJ画一棵树,它知道如何画好一片叶子,但是不知道树冠就是由一堆叶子组成,所以它就只能画好几片最突出的叶子,其他就乱七八糟了。 如果是人物背面的话,效果会稍微好些。 你有上手体验吗?感觉如何? 参考链接:...
AI绘画界的“国产之光”?亲测秒画VS Midjourney,结果震惊了!
Midjourney

AI绘画界的“国产之光”?亲测秒画VS Midjourney,结果震惊了!

在浏览文章之际,偶然瞅见一个大V所发的,题目里带着“国产之光”之类的字眼。这年头啊,为了博取流量,不是说“比肩MJ”,就是讲“国产之光”,通常都有夸大其辞之嫌。南叔一开始其实也没太当回事,不过他提到的这个“秒画”其开发者乃是国内AI界大名鼎鼎的商汤。在好奇心的驱使下,南叔打算体验一下所谓的“国产之光”究竟有多耀眼。结果却发现,这个秒画还真有两把刷子,感觉前段时间崭露头角的可灵绘画就不那么香了! 文末有相关软件测试地址 一、介绍 秒画的出图引擎Artist最近推出了1.0版本,采用百亿级参数的Transformer扩散模型,出图质量相当高,语义理解也很到位。南叔体验下来的一个明显感受就是,正如其名,秒画的出图速度非常快(有些时段可能因为服务器负载会变慢),而且倒计时是能看得到的,用户体验着实不错。但不管怎么说,作为一款AI绘画工具,出图质量肯定是最为重要的。下面南叔就用秒画与AI绘画界的扛把子Midjourney,来给大家做个对比。 二、对比 AI绘画比拼的,首先自然是画质,其次是对语义的理解,最后是对一些特殊画风的把控力。下面就从这几个方面来进行对比。 (一)画质 “哥特式风格,冷艳气质,20 岁的日本知名偶像,傲视群雄的表情,俯拍视角,暗黑女王装,红色血雾背景合成” 这张图要是南叔不说,你可能会以为是Midjourney生成的呢,但这可是秒画的效果,怎么样还不错吧?Midjourney的效果是下面这样,南叔个人觉得是各有千秋。 再来看一组提示词: “中国山水画,淡蓝色,浅绿色的山脉和淡黄色的植被。前景是一个古老的中国村庄,上面的天空是金色的,创造了一个色彩深邃的壮丽景象。黄金背景。浅靛蓝和金色风格,高视角。” 先来看Midjourney的效果 再来看看秒画的效果,南叔认为在中国画方面,秒画还是有一点优势的。 最后一组提示词: “商业摄影,特写,香水,花朵绽放,最好的质量,超详细” 先是秒画的结果 再来看看MJ的结果,不得不说,在光影控制方面还是MJ比较强啊! (二)语义理解 语义理解这块南叔觉得大家都差不多。我们来试试看一些特殊“用词”能不能很好地体现出来。 提示词:“呆萌的胖胖的彩色棒棒糖,亮晶晶的糖体,呈倾斜姿势,粗壮的手柄裹着彩色糖纸,在梦工厂人物设计的风格,在一个浅粉色的背景下,作为一个 3D 动画,绚烂的色彩组合,柔和的灯光,和光滑的糖体表面,有一个惊喜的表情。” 先是秒画的结果 再来一个MJ的结果 语意理解南叔认为基本持平,但是画面细节还是MJ略胜一筹啊! (三)特殊效果 特殊效果是Midourney所擅长的,这也是MJ断层式领先的最主要因素。但南叔还是想看看咱们国产的AI和这位老大哥之间的差距。 提示词:“卡通风格的彩虹竖琴,以晨曦为背景,五彩缤纷的霞光,充满希望元素的美妙氛围。乐器设计具有高清晰度插画风格的精密细节。竖琴被天边的彩云所簇拥,塑造了一个活泼的色彩和明媚的灯光的欢快场景。” 先来看看秒画的结果 再来看看MJ的结果,只能说大哥就是大哥… 三、总结 通过以上对比,不知大家感觉怎样?南叔觉得作为国产的绘画软件能做到这样,已经很不错了。国产软件最主要的优势就是我们可以直接用中文来输入我们需要写的提示词,而且我个人感觉对中文的理解秒画还是很有优势的。也希望我们的国产软件越做越好,越做越强! 最后,给出秒画的注册链接: https://miaohua.sensetime.com/inspiration?invite_code=9yvxNzyEz 通过南叔的注册邀请链接注册,将获得三天无限出图机会,感兴趣的小伙伴一定要试试呀!如果你觉得南叔的分享有用,一定要转发推荐给你的朋友们哦~