Midjourney和Stable Diffusion都是图像生成领域的预训练语言模型,但是它们在一些方面有所不同。以下是它们之间的详细比较:

模型结构: Midjourney是基于CLIP和VQGAN模型的组合,完全在Discord平台上运行。相比之下,Stable Diffusion则采用了cliptext(基于gpt的模型)

1723593867470.jpg

Stable Diffusion生成的图

预训练数据: Midjourney和Stable Diffusion都使用大规模的文本数据进行预训练。Midjourney使用了来自维基百科和其他互联网来源的约40TB的数据进行预训练,而Stable Diffusion则使用了一些类似维基百科的数据集以及一些其他来源的数据集进行预训练。

1723593868068.jpg

Midjourney生成的图

模型参数: Midjourney是目前已知参数最多的预训练图像模型之一,它拥有350亿个参数。Stable Diffusion的模型参数相对较少,为24亿个。

生成能力: Midjourney和Stable Diffusion都可以生成高质量的图像。Midjourney在生成长篇文章和段落时表现很好,而Stable Diffusion则在生成短文本和多样化的图像上表现良好。这两个模型都可以生成高度仿真的图像,并能够在多个任务上进行微调。

可解释性: Stable Diffusion模型具有更好的可解释性,因为它使用了自回归模型和自编码器模型的结合。这种结构使得Stable Diffusion可以通过一种称为反向Diffusion的技术进行生成和控制。

训练效率: Midjourney的训练时间可能会更长,因为它的参数数量更多,需要更多的计算资源。相比之下,Stable Diffusion的训练时间可能较短。

1723593868757.jpg

Stable Diffusion生成的图

总的来说,Midjourney和Stable Diffusion都是非常强大的预训练图像模型。Midjourney对语句的训练更精准,图片存储更友好;图片跑出来后调整空间不大,只能通过垫图继续“精准”一点,建议ps会更快,而Stable Diffusion则跑小图会更快,目前一次最多可以跑出9张图,垫图的时候可以使用画笔涂抹区域,更人性化,Stable Diffusion的结构使得它更容易进行解释和控制,因此对于某些应用程序来说可能更具有吸引力。

Leave a Reply

Your email address will not be published. Required fields are marked *