保姆级教程来了!AI绘画提示词原理揭秘
绘画指令

保姆级教程来了!AI绘画提示词原理揭秘

为了让你快速上手从 0 到 1 的绘图流程,在这篇文章中,我们将重点讲解 Prompt 提示词。 1、解析提示词的概念 在深入讲解之前,我们首先来了解一些基本概念,以便更好地学习和理解。 提示词,也就是 Prompt,主要是指用户输入的文本或图像信息,其目的是为了引导模型根据特定需求生成相应的作品。简单来说,就是用来告诉 AI 我们想要创作什么样的图片,这可以被理解为一种与 AI 沟通的特定格式的语言。 在之前的文章中,我们介绍了 SD 的「文生图」和「图生图」两种功能。 「文生图」主要通过文字与 AI 模型沟通,而这就需要使用到我们的提示词。 「图生图」则是通过图片来传递信息给 AI 模型,这里同样会用到提示词。 提示词在 AI 绘图中的应用范围非常广泛,包括但不限于图片的主题、风格、场景、人物特征、服装特点和其他额外参数等。 有时候为了生成一幅图片,我们可能需要用到十几行的提示词。事实上,许多提示词都是固定和规律的。 描述越详细,提示词就越长,AI 模型就能更精确地输出与我们需求一致的作品。 2、分类与书写提示词 那么,我们该如何书写提示词呢? 书写提示词其实没有严格的限制,不管你输入什么,AI 都会尝试为你生成一幅图片。但如果你想让 AI 更准确地理解你的需求,那么掌握基本的语法和规则是非常必要的。 以 SD 为例,在「文生图」操作中,你会看到输入「正向提示词」和「反向提示词」的区域。 首先,提示词仅支持英文输入。如果你的英语水平尚可,你可以直接输入英文;否则,你可以借助翻译工具。 其次,提示词应以词组为基本单位,各个词组之间用英文逗号「,」分隔。 例如,如果你想要 AI 为你生成「一个又高又瘦的女生和一杯又浓又香的咖啡」的图片,你可以将其拆分为以下词组:「女生, 高, 瘦,...
文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM’23
绘画指令

文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM’23

扩散模型已经成为了主流的文本到图像生成模型,可以基于文本提示的引导,生成高质量且内容丰富的图像。 但如果输入的提示过于简洁,现有的模型在语义理解和常识推理方面都存在局限,导致生成的图像质量下降明显。 为了提高模型理解叙述性提示的能力,中山大学HCP实验室林倞团队提出了一种简单而有效的参数高效的微调方法SUR-adapter,即语义理解和推理适配器,可应用于预训练的扩散模型。 论文地址:https://arxiv.org/abs/2305.05189 开源地址:https://github.com/Qrange-group/SUR-adapter 为了实现该目标,研究人员首先收集并标注了一个数据集SURD,包含超过5.7万个语义校正的多模态样本,每个样本都包含一个简单的叙述性提示、一个复杂的基于关键字的提示和一个高质量的图像。  然后,研究人员将叙事提示的语义表示与复杂提示对齐,并通过知识蒸馏将大型语言模型(LLM)的知识迁移到SUR适配器,以便能够获得强大的语义理解和推理能力来构建高质量的文本语义表征用于文本到图像生成。 通过集成多个LLM和预训练扩散模型来进行实验,结果展现了该方法可以有效地使扩散模型理解和推理简洁的自然语言描述,并且不会降低图像质量。 该方法可以使文本到图像的扩散模型更容易使用,具有更好的用户体验,可以进一步推进用户友好的文本到图像生成模型的发展,弥补简单的叙事提示和复杂的基于关键字的提示之间的语义差距。 背景介绍 目前,以Stable diffusion为代表的文生图 (text-to-image)预训练扩散模型已经成为目前AIGC领域最重要的基础模型之一,在包括图像编辑、视频生成、3D对象生成等任务当中发挥着巨大的作用。 然而目前的这些预训练扩散模型的语义能力主要依赖于CLIP等文本编码器 (text encoder),其语义理解能力关系到扩散模型的生成效果。 本文首先以视觉问答任务(VQA)中常用问题类别的”Counting (计数)”, “Color (颜色)”以及”Action (动作)”构造相应的本文提示来人工统计并测试Stable diffusion的图文匹配准确度。 下表给出了所构造的各种prompt的例子。 结果如下表所示,文章揭示了目前文生图预训练扩散模型有严重的语义理解问题,大量问题的图文匹配准确度不足50%,甚至在一些问题下,准确度只有0%。 因此,需要想办法增强预训练扩散模型中本文编码器的语义能力以获得符合文本生成条件的图像。 方法概述 1. 数据准备 首先从常用的扩散模型在线网站lexica.art,civitai.com,stablediffusionweb中大量获取图片文本对,并清洗筛选获得超过57000张高质量 (complex prompt, simple prompt, image) 三元组数据,并构成SURD数据集。 如图所示,complex prompt是指生成image时扩散模型所需要的文本提示条件,一般这些文本提示带有复杂的格式和描述。simple prompt是通过BLIP对image生成的文本描述,是一种符合人类描述的语言格式。 一般来说符合正常人类语言描述的simple prompt很难让扩散模型生成足够符合语义的图像,而complex prompt(对此用户也戏称之为扩散模型的“咒语”)则可以达到令人满意的效果。 2. 大语言模型语义蒸馏 本文引入一个transformer结构的Adapter在特定隐含层中蒸馏大语言模型的语义特征,并将Adapter引导的大语言模型信息和原来文本编码器输出的语义特征做线性组合获得最终的语义特征。 其中大语言模型选用的是不同大小的LLaMA模型。扩散模型的UNet部分在整个训练过程中的参数都是冻结的。 3....
AI生成图标的提示词Prompt ,看这篇总结就够了!
绘画指令

AI生成图标的提示词Prompt ,看这篇总结就够了!

Halo,这里是设计夹,今天分享的是「AI 图标设计」。 对于整个界面来说,图标属于相对细节的设计元素,那么功能强大的 AI 工具能否生成符合我们要求的图标呢? 本次精选 20+AI 关键词提示,协助大家快速生成不同类型和风格的图标,满足更多的设计使用场景,一起来看看吧~ 一、APP 启动图标 我们先从启动图标开始。APP 的启动图标代表着这款产品的品牌形象,是特殊且重要的图标类型。当前简约的启动图标越来越受欢迎,给用户提供干净、简单且易于识别的设计。 如果想用 AI 生成 APP 启动图标,可以包含以下:「APP 图标、iOS、扁平图标、圆形、方形」等关键词。 关键词:「flat ios app icon for chatbot, minimalist, baby blue and white」 关键词:「squared with round edges mobile app logo design, flat vector app icon of a classic sculpture of...