文章主题:面向Stable Diffusion的自动Prompt工程算法, BeautifulPrompt, 自然语言处理, 图像生成
原题:探讨Stable Diffusion中自动Prompt工程算法的卓越之路——BeautifulPrompt。
近期,阿里云人工智能平台PAI与华南理工大学朱金辉教授团队合作,在自然语言处理领域的顶级会议EMNLP2023上,成功发布了一项创新研究——BeautifulPrompt深度生成模型。该模型具备从简洁的图片描述中提取高质量提示的能力,进而推动文生图模型生成更为美观的图像。此外,BeautifulPrompt还针对低质量与高质量提示进行了精细调整,同时提出了一种结合强化学习及视觉信号反馈的技术,旨在实现生成提示的奖励值的最大化。
论文: Tingfeng Cao, Chengyu Wang, Bingyan Liu, Ziheng Wu, Jinhui Zhu, Jun Huang. BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis. EMNLP 2023 (Industry Track)背景
文生图(文生图)是人工智能生成对抗网络(AIGC)领域中备受关注且广泛运用的技术之一。其核心目标在于通过输入文本信息,生成高度逼真的图像。近期,得益于大型模型建模能力的不断提升,文生图模型取得了飞速发展。一些大规模的TIS(变分自编码器)模型,例如DALLE-2、Imagen和stable diffusion等,已经显著提升了最前沿的性能表现,并使得非艺术专业的用户能够借助个人的想象力,创造出之前从未见过的独特图像。
然而,文成图模型所要求的用户预先编写的文本提示(如“一艘壮观的帆船”),对于设计师或艺术家来说,其难度犹如开启一个充满惊喜的盲盒。这主要源于训练数据质量的不足,使得生成的图像仅通过详细描述方可达到高质量标准。在实际应用场景中,非专业人士往往难以独立完成这些提示的编写,同时还需要经历试错与迭代的修改过程,以重新生成图像。这将不可避免地导致宝贵的时间和计算资源的大量消耗。
提示工程(prompt engineering)作为一门新兴研究领域,致力于研究如何为深度生成模型提供有效提示,从而提升人机互动的效率。在此背景下,我们关注于大型语言模型(LLM)自动生成的优质提示词,图示了在简洁图片描述与BeautifulPrompt的共同作用下,生成的图片质量得到显著提升。
算法概述
数据收集
我们提出一个自动化收集prompt优化的数据集方案:
作为一篇高质量的文章,我们需要首先明确数据的来源,即DiffusionDB。这个数据库主要包含了未配对的提示信息。为了更好地理解和处理这些数据,我们采取了一种启发式的方法,那就是根据提示的长度和所包含的特定标签等因素,将这些提示分为两个类别:低质量提示和高质量提示。这种分类方式不仅可以提高我们处理数据的效率,还可以帮助我们更好地识别出那些具有较高价值的信息。
接下来,我们
在图像识别领域,我们经常使用BLIP(Bidirectional Image Prompt)技术对相关图像进行标注。当这些图像涉及到高质量提示时,我们会将所生成的 captions 视为对应的低质量提示。这主要是因为所提供的说明文字往往较为简短,缺乏足够的细节信息。
ii) 使用ChatGPT对高质量的提示进行总结,并将总结视为低质量的提示;
iii) 使用ChatGPT从低质量的提示生成更好的提示;结果被认为是高质量的提示。
在获取大量提示对的过程中,尽管我们已经采用了三种方法,但是这些提示对的品质却难以保证。因此,为了确保数据质量,我们还需要进行深度的数据清理和筛选工作。具体来说,我们对包含色情和政治敏感等不适当内容的数据进行了移除,并对图片的审美价值进行了优化。最终,我们得到了一个符合要求的数据集。借鉴InstructGPT的经验,我们也采用了三阶段的训练方式,整个训练框架如图所示:
Step 1. SFT
Step 2. RM
我们基于PickScore 和 Aesthetic Score来训练奖励模型。
简单地说,PickScore是一个基于文本到图像提示和真实用户偏好的大型数据集训练的偏好模型,它在预测人类对图像的偏好方面表现出超人的表现。我们计算低质量提示和相应高质量提示生成的图像的PickScore。为了减少随机种子对TIS模型生成的图像质量的影响,我们使用8种不同的随机种子生成图像并对结果进行平均。计算的平均PickScore 被用作训练奖励模型的基础真相。损失函数为:
Step 3. PPO(RL)
算法评测
为了验证BeautifulPrompt的有效性,我们在一些基于模型打分的客观指标和人类主观评估上做了实验:
我们也对算法的模块进行了详细有效性分析,我们可以算法的各个流程都是有效的。
为了更好地服务开源社区,BeautifulPrompt算法的源代码即将贡献在自然语言处理算法框架EasyNLP中,欢迎NLP从业人员和研究者使用。
EasyNLP开源框架:https://github.com/alibaba/EasyNLP
参考文献
Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. EMNLP 2022 Stiennon, Nisan, et al. “Learning to summarize with human feedback.” Advances in Neural Information Processing Systems 33 (2020): 3008-3021 Rombach, Robin, et al. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022 Kirstain, Yuval, et al. “Pick-a-pic: An open dataset of user preferences for text-to-image generation.” arXiv preprint arXiv:2305.01569 (2023)论文信息
论文标题:BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis
论文作者:曹庭锋、汪诚愚、刘冰雁、吴梓恒、朱金辉、黄俊
论文pdf链接:https://arxiv.org/abs/2311.06752
原文链接:https://developer.aliyun.com/article/1390710?utm_content=g_1000385401
本文为阿里云原创内容,未经允许不得转载。返回搜狐,查看更多
责任编辑:
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!