StableDiffusion_Page 2_666智慧设计

Stable Diffusion又出大招！「文生动画」震撼发布淘汰导演，DC英雄一秒变身

新智元报道编辑：Aeneas 润【新智元导读】Stability AI又来卷了AI视觉圈了！Stable Animation震撼发布，动画效果令人惊叹。Stability AI又放大招！现在，Stable Diffusion也能生成视频了。AI届，实在是太卷了。昨天，Stability AI发布了一款专为艺术家和开发人员设计的工具——Stable Animation SDK。用户可以通过多种方式创建令人惊叹的动画效果。此前，Runway的Gen-2就相当炸裂，宣传词非常霸气——「say it，see it」。现在，Stability AI也有比肩Gen-2的视频生成工具了！Stable Diffusion能做视频了借助Stability AI的动画端点，美术师可以使用所有Stable Difusion模型来生成动画，包括Stable Diffusion 2.0和Stable Diffusion XL。不过，有别于之前发布的开源模型，Stable Animation目前仅能通过SDK和付费API使用。现在，用这三种方式，都可以创建动画了——经典的prompt就像使用Stable Diffusion、Midjourney或DALL-E 2一样，用文本生成动画。输入prompt，调整各种参数，就能生成动画。prompt+图像提供一个初始图像，作为动画的基础。之后，结合prompt和这个初始图像，就能生成最终输出的动画。prompt+视频提供一个初始视频，作为动画的基础。同样，通过各种参数的调整，外加prompt的引导，最终得到输出的动画。 1块钱，就能生成100帧动画该软件似乎仍处于测试阶段。Stability AI并没有通过他们的浏览器平台（如DreamStudio或ClipDrop）提供，而是仅提供软件开发套件（SDK）和付费API。当然，这并不妨碍第三方通过服务提供这种动画模型。不过，目前想试用这个功能的话，门槛还比较高，因为SDK和API要通过Python脚本来调用。与Stability AI的图像模型类似，Stable Animation也可以设置许多参数，例如step、sampler、scale或seed。此外，还提供了诸如outpainting或prompt interpolation等功能。不同的参数也会影响价格。所以创建一个视频要花费多少钱，并不确定。Stability给出的报价范围是，在不同设置下，每100帧的价格从3美分到18美分不等。Stability AI以输出动画的积分值作为收费的依据，用户生成的动画会被换算成一个积分，每1000个积分消耗1美元。小编算了一下，根据官方公布的积分计算方法，一块钱人民币大概能生成一段100帧的1024*1024分辨率的动画。但是其他的参数也会影响价格，官方给了一个表来说明支持调整的参数，以及是否会影响到生成动画的价格。与Stable Diffuision XL兼容 Stable Animation可以与每个版本的Stable Diffusion结合使用。它的默认版本是1.5，但我们也可以选择使用新版的Stable Diffusion XL。里面有很多样板，包括动漫、漫画书、低多边形、像素艺术。原始分辨率是512 x 512像素，可以增加到1,024 x 1,024像素。此外，可以使用升频器。Stable...

5 days前 0

StableDiffusion

DALL-E、Stable Diffusion 等 20+ 图像生成模型综述

一、背景最近两年图像生成领域受到广泛关注，尤其是 Stable Diffusion 模型的开源，以及 DALL-E 系列模型的不断迭代更是将这一领域带到了新的高度。我们决定从头开始，逐步了解这些模型的演化过程，以便更好地理解 Stable Diffusion 以及 DALL-E 3 等最新的图像生成模型。在之前文章中，我们逐步回顾了 VAE 系列生成模型和 Diffusion 系列模型，针对 Diffusion 系列模型我们也按照 OpanAI 模型，Google 模型以及 Stable Diffusion 系列模型分别做了具体介绍。在这里，我们对这一系列模型进一步的总结，包括任务场景、评估指标、模型类型、效率优化、局限性等 11 个方面分别总结，以便更好地对比和理解。文本生成图相关总结也可参考： 1. 文生图模型演进：AE、VAE、VQ-VAE、VQ-GAN、DALL-E 等 8 模型2. OpenAI 文生图模型演进：DDPM、IDDPM、ADM、GLIDE、DALL-E 2、DALL-E 33. Google 图像生成模型 ViT-VQGAN & Parti-20B4. Google 图像生成模型 MaskGIT & Muse, 并行解码...

5 days前 0

StableDiffusion

18种 DALL-E 3 炫酷的文字效果和提示词

在图片上添加文字不仅可以传达信息，还可以吸引观众的注意力。DALL-E 3 不仅可以在图片上生成文字，还可以把文字巧妙地融合到图像中。这种自然而然的效果让很多设计师都望尘莫及。虽然在提示词中告诉 DALL-E 3 要添加的文本，生成的效果也经常让我感到惊喜。但我会不由自主地想，是否能够自定义文字的效果，让 DALL-E 3 更懂我的心意呢？在各种试错之后，我终于总结出了这 18 种效果，希望能给正在阅读本文的你带来一些灵感。PS: 它目前还无法生成中文。如果你还没有用过 ChatGPT 中的 DALL-E 3的话，可以看看这篇文章： 👉重磅！ChatGPT 可以进行 AI 绘图了，来看教程吧 # 叠加 Prompt: [image prompt], with text [text] overlaid, prominent and aligns with the images style. 提示词： [图像提示词]，并叠加文本[文本]，突出并与图像样式保持一致。范例：粉彩绘画：柔和的粉彩渲染出一片花田，娇嫩的花瓣在微风中摇曳，”宁静 “的文字叠加在上面，非常突出，与图片风格一致。示例：水彩画：夜幕下的繁华都市景象，被迷人的烟花表演照亮，”活力 “字样叠加在画面上，非常突出，与画面风格一致。 # 以下/以上 Prompt:...

5 days前 0

StableDiffusion

DALL-E

DALL-E是一种专注于从文本描述生成图像的深度学习的模型。该模型能够在没有针对特定任务的额外训练的情况下，直接根据文本生成图像。由openAI发布，参数量达到了120亿，被称为“图像版GPT-3” 原理： DALL-E 的核心是使用Transformer架构，将文本描述和图像数据结合起来进行联合训练。模型通过学习文本与图像之间的对应关系，能够理解文本中的语义信息，并生成符合这些描述的图像。方法： DALL-E在VQ-VAE-2(先训练一个codebook，然后又训练一个pixel CNN做生成)基础上进行改进，生成模型部分用GPT替换pixel CNN，用文本引导图像生成。训练时，输入图像文本对，文本部分通过BPE编码，得到M=256维特征；图像(256×256)经过dVAE获取N=32×32维codebook作为1024维图像特征；然后将图像和文本特征cocat起来(1024+256=1280)作为一个序列送入GPT，训练时进行mask然后预测生成即可。推理时，只提供文本，然后用文本特征经过GPT用自回归的方式将图像生成出来。推理时会生成多张图像候选，使用CLIP模型进行排序，最终输出生成的图片和文本最贴切的个体。模型结构： DALL-E包括三个独立训练得到的模型：dVAE，Transformer和CLIP，其中dVAE的训练与VAE基本相同，Transformer采用类似GPT-3的生成式预训练方法。数据集：DALL-E 使用了大规模的图文配对数据集进行训练。这些数据集包含了各种各样的图像及其对应的文本描述，使得模型能够学习到多样化的视觉概念和语言表达。编码器-解码器结构：模型采用了编码器-解码器架构。文本输入经过编码器处理后，生成一个高维的特征表示。然后，这些特征通过解码器生成相应的图像。自回归生成：DALL-E 使用自回归的方法生成图像。基于之前生成的部分和输入的文本信息，模型逐步生成图像的每个部分。 zero-shot学习：DALL-E通过在训练过程中学习到的广泛的知识和概念，能够在没有针对特定任务的训练数据情况下直接生成图像。特点：多样性：DALL-E能够生成多种风格和内容的图像，展示出强大的创造力和多样性。灵活性：模型能够理解用户输入的任意文本描述，生成相应的图像。这种灵活性使得DALL-E在艺术创作、设计、广告等领域具有广泛的应用潜力。高质量生成：生成的图像通常具有较高的清晰度和细节，能够准确反映文本描述中的信息。概念组合能力：DALL-E 可以将不同的概念结合在一起生成新的图像，例如“一个穿着宇航服的猫”。总之，DALL-E 的研究展示了深度学习在图像生成领域的巨大潜力，并为未来的研究和应用提供了新的思路。 ‍参考：Zero-Shot Text-to-Image Generationhttps://arxiv.org/pdf/2102.12092

6 days前 0

2/110 上一页 1 2 3 4 5 6 下一页