DALL-E如何推动创意革命
Midjourney

DALL-E如何推动创意革命

每隔几年,就会出现一种技术,将世界整齐地分成前后。我记得我第一次看到YouTube视频嵌入在网页上;我第一次在设备之间同步Evernote文件;我第一次浏览附近人的推文,看看他们对我参加的音乐会有什么看法。 我记得我第一次Shazam写了一首歌,召唤了一辆Uber,并使用Meerkat直播了自己。我认为,使这些时刻脱颖而出的是,一些不可预测的新可能性已经被解锁了。当您可以轻松添加视频剪辑时,网络会变成什么样子?什么时候可以从云端将任何文件召唤到手机?什么时候你可以向世界广播自己? 自从我看到那种新兴的技术以来,已经有几年了,这种技术让我打电话给我的朋友说:你必须看到这个。但本周我做到了,因为我有一个新的要添加到列表中。这是一个名为DALL-E的图像生成工具,虽然我对它最终将如何被使用知之甚少,但它是我开始撰写本新闻稿以来我看到的最引人注目的新产品之一。 从技术上讲,所讨论的技术是DALL-E 2。它是由OpenAI创建的,OpenAI是一家拥有七年历史的旧金山公司,其使命是创建一种安全有用的人工通用智能。OpenAI在其领域已经众所周知,它创建了GPT-3,GPT-3是一种从简单提示生成复杂文本段落的强大工具,以及Copilot,一种帮助软件工程师自动编写代码的工具。 DALL-E是超现实主义者萨尔瓦多·达利(Salvador Dalí)和皮克斯(Pixar)的WALL-E的波特曼托(PORTMANTEAU),它采用文本提示并从中生成图像。2021年1月,该公司推出了该工具的第一个版本,仅限于256×256像素的正方形。 但第二个版本在四月份进入了私人研究测试阶段,感觉就像是一个彻底的飞跃。这些图像现在是1,024 x 1,024像素,可以结合新技术,如“内画” – 用另一个替换图像的一个或多个元素。(想象一下,在碗里拍一张橙子的照片,然后用苹果代替它。DALL-E在理解物体之间的关系方面也有所提高,这有助于它描绘越来越奇妙的场景——考拉扣篮打篮球,宇航员骑马。 几周来,DALL-E生成的图像线程一直在占据我的Twitter时间线。在我思考了我可能会用这项技术做些什么之后——也就是说,浪费无数个小时在它上面——OpenAI的一个非常好的人怜悯我,邀请我参加私人研究测试版。一位发言人今天告诉我,现在有访问权限的人数只有数千人。该公司希望每周增加1000人。 创建帐户后,OpenAI使您同意DALL-E的内容政策,该政策旨在防止平台的大多数明显潜在滥用行为。不允许仇恨,骚扰,暴力,性或裸体,公司还要求您不要创建与政治或政治家相关的图像。(这里似乎值得注意的是,OpenAI的联合创始人中有埃隆·马斯克(Elon Musk),他对Twitter的一套限制性要小得多的政策感到愤怒。他于2018年离开了董事会。 DALL-E还通过将关键字(例如“拍摄”)添加到阻止列表中来防止许多潜在的图像创建。您也不允许使用它来创建旨在欺骗的图像 – 不允许使用深度伪造。虽然没有禁止尝试根据公众人物制作图像,但未经许可,您不能上传人物的照片,并且该技术似乎稍微模糊了大多数面孔,以清楚地表明这些图像已纵。 一旦你同意了这一点,你会看到DALL-E令人愉快的简单界面:一个文本框,邀请你创建你能想到的任何东西,内容政策允许。想象一下,使用谷歌搜索栏就像Photoshop一样 – 那就是DALL-E。DALL-E从搜索引擎中借用了一些灵感,包括一个“给我惊喜”按钮,该按钮根据过去的成功,用建议的查询预先填充文本。我经常用它来尝试我可能从未考虑过的艺术风格的想法 – 例如“微距35mm照片”或像素艺术。 对于我的每个初始查询,DALL-E大约需要15秒才能生成10张图像。(本周早些时候,图像的数量减少到六个,以允许更多的人访问。几乎每一次,我都会发现自己大声咒骂,嘲笑结果有多好。 例如,这是“一只打扮成消防员的柴犬”的结果。 这是一个来自“一只打扮成巫师的斗牛犬,数字艺术。 我非常喜欢这些假的AI狗。我想收养他们,然后写关于他们的儿童读物。如果元宇宙曾经存在过,我希望他们能和我一起去那里。 你知道还有谁能来吗?“戴着帽子的青蛙,数字艺术。 为什么他真的是完美的? 在我们的Sidechannel Discord服务器上,我开始接受请求。有人要求描绘“夜晚的元宇宙,数字艺术”。我认为,回来的东西是恰如其分的宏伟和抽象: 我不会试图在这里解释DALL-E是如何制作这些图像的,部分原因是我自己仍在努力理解它。(所涉及的核心技术之一“扩散”在去年Google AI的这篇博客文章中得到了有益的解释。但是,我一再被这种图像生成技术看起来的创造性所震撼。 例如,在我的Discord中,另一个具有DALL-E访问权限的读者分享了两个结果。首先,看看“熊市经济学家在股价图表崩盘前,数字艺术”的一组结果。 其次,“一个牛市经济学家在一张飙升的股市图表前,上面有上涨线,合成波,数字艺术。 DALL-E在这里捕捉情感的程度令人震惊:熊的恐惧和愤怒,以及公牛的攻击性。将其中任何一种描述为“创造性”似乎都是错误的——我们在这里看到的只不过是概率性的猜测——但它们对我的影响与看到真正有创意的东西会产生同样的影响。 DALL-E的另一个引人注目的方面是它将尝试以各种方式解决单个问题的方式。例如,当我要求它给我看“一个带有粘稠眼睛的美味肉桂面包”时,它必须弄清楚如何描绘眼睛。 有时,DALL-E会在卷轴上添加一双塑料般的眼睛,就像我本来会做的那样。其他时候,它在霜冻中创造了负空间的眼睛。在一个案例中,它使眼睛从微型肉桂卷中脱颖而出。 那是我大声咒骂并开始大笑的一次。 DALL-E是我迄今为止见过的最先进的图像生成工具,但它远非唯一一个。我还用一个名为Midjourney的类似工具进行了轻微的实验,该工具也处于测试阶段。谷歌已经宣布了另一个名为Imagen,但尚未让外人尝试。第三个工具DALL-E Mini在过去几天里产生了一系列病毒式图像;不过,它与OpenAI或DALL-E无关,我想开发人员很快就会收到一封停止和终止信。 OpenAI告诉我,它还没有做出任何决定,关于DALL-E是否有一天以及如何更广泛地使用。当前研究测试版的目的是展示人们使用这项技术,并在必要时调整工具和内容政策。 然而,艺术家们为DALL-E发现的用例数量已经令人惊讶了。一位艺术家正在使用DALL-E为社交应用创建增强现实过滤器。迈阿密的一位厨师正在用它来获得如何摆盘菜肴的新想法。Ben Thompson写了一篇关于如何使用DALL-E在元宇宙中创建极其廉价的环境和物体的有先见之明的文章。 担心这种自动化可能会对专业插画家造成什么影响是很自然的,也是恰当的。很可能是许多工作都失去了。然而,我不禁认为像DALL-E这样的工具可以在他们的工作流程中发挥作用。例如,如果他们要求DALL-E在开始之前为他们勾勒出一些概念,该怎么办?该工具允许您创建任何图像的变体;我用它来建议替代的平台游戏徽标: 我会坚持我得到的标志。但是,如果我是一名插画家,我可能会欣赏其他建议,哪怕只是为了获得灵感。...
Stable Diffusion新玩法火了!给几个词就能生成动图,连动图人物的表情和动作都能随意控制
Midjourney

Stable Diffusion新玩法火了!给几个词就能生成动图,连动图人物的表情和动作都能随意控制

大数据文摘受权转载自夕小瑶科技说作者 | 小戏单说大模型 AI 的发展对人们想象力释放的助力,基于 Stable Diffusion 模型的方法首当其冲。透过文本描述到图像生成技术,大模型为我们的想象力打开了一个恢弘的梦幻世界。透过点滴文字,就有可能重现禁锢在我们脑海中无法释放的光怪陆离。而最近,Stable Diffusion 持续进化,打个响指加一个框架使用 AnimateDiff,文本图像生成便可以由静到动,一次性的将个性化文本生成的图像进行动态化,实现一键生成 GIF 动图!首先,来展示一下 AnimateDiff 的动图生成效果,当我们希望生成展示一个在客厅高兴的穿着自己新盔甲的女孩的图像时,捕捉关键词 cybergirl,smiling,armor,living room 等等,稍作修饰输入如下 Prompt:long highlighted hair, cybergirl, futuristic silver armor suit, confident stance, high-resolution, living room, smiling, head tilted.即可以得到一段自然逼真的动态图像:类似的,使用 Prompt:1 girl, anime, long pink hair, necklace, earrings, masterpiece, highly detailed, high...
Stable Diffusion又出大招!「文生动画」震撼发布淘汰导演,DC英雄一秒变身
Midjourney

Stable Diffusion又出大招!「文生动画」震撼发布淘汰导演,DC英雄一秒变身

新智元报道   编辑:Aeneas 润【新智元导读】Stability AI又来卷了AI视觉圈了!Stable Animation震撼发布,动画效果令人惊叹。Stability AI又放大招!现在,Stable Diffusion也能生成视频了。AI届,实在是太卷了。昨天,Stability AI发布了一款专为艺术家和开发人员设计的工具——Stable Animation SDK。用户可以通过多种方式创建令人惊叹的动画效果。此前,Runway的Gen-2就相当炸裂,宣传词非常霸气——「say it,see it」。现在,Stability AI也有比肩Gen-2的视频生成工具了!Stable Diffusion能做视频了 借助Stability AI的动画端点,美术师可以使用所有Stable Difusion模型来生成动画,包括Stable Diffusion 2.0和Stable Diffusion XL。 不过,有别于之前发布的开源模型,Stable Animation目前仅能通过SDK和付费API使用。现在,用这三种方式,都可以创建动画了——经典的prompt就像使用Stable Diffusion、Midjourney或DALL-E 2一样,用文本生成动画。输入prompt,调整各种参数,就能生成动画。prompt+图像提供一个初始图像,作为动画的基础。之后,结合prompt和这个初始图像,就能生成最终输出的动画。prompt+视频提供一个初始视频,作为动画的基础。同样,通过各种参数的调整,外加prompt的引导,最终得到输出的动画。 1块钱,就能生成100帧动画 该软件似乎仍处于测试阶段。Stability AI并没有通过他们的浏览器平台(如DreamStudio或ClipDrop)提供,而是仅提供软件开发套件(SDK)和付费API。 当然,这并不妨碍第三方通过服务提供这种动画模型。不过,目前想试用这个功能的话,门槛还比较高,因为SDK和API要通过Python脚本来调用。与Stability AI的图像模型类似,Stable Animation也可以设置许多参数,例如step、sampler、scale或seed。此外,还提供了诸如outpainting或prompt interpolation等功能。不同的参数也会影响价格。所以创建一个视频要花费多少钱,并不确定。Stability给出的报价范围是,在不同设置下,每100帧的价格从3美分到18美分不等。Stability AI以输出动画的积分值作为收费的依据,用户生成的动画会被换算成一个积分,每1000个积分消耗1美元。小编算了一下,根据官方公布的积分计算方法,一块钱人民币大概能生成一段100帧的1024*1024分辨率的动画。但是其他的参数也会影响价格,官方给了一个表来说明支持调整的参数,以及是否会影响到生成动画的价格。 与Stable Diffuision XL兼容 Stable Animation可以与每个版本的Stable Diffusion结合使用。 它的默认版本是1.5,但我们也可以选择使用新版的Stable Diffusion XL。里面有很多样板,包括动漫、漫画书、低多边形、像素艺术。原始分辨率是512 x 512像素,可以增加到1,024 x 1,024像素。此外,可以使用升频器。Stable...
DALL-E、Stable Diffusion 等 20+ 图像生成模型综述
Midjourney

DALL-E、Stable Diffusion 等 20+ 图像生成模型综述

一、背景 最近两年图像生成领域受到广泛关注,尤其是 Stable Diffusion 模型的开源,以及 DALL-E 系列模型的不断迭代更是将这一领域带到了新的高度。我们决定从头开始,逐步了解这些模型的演化过程,以便更好地理解 Stable Diffusion 以及 DALL-E 3 等最新的图像生成模型。在之前文章中,我们逐步回顾了 VAE 系列生成模型和 Diffusion 系列模型,针对 Diffusion 系列模型我们也按照 OpanAI 模型,Google 模型以及 Stable Diffusion 系列模型分别做了具体介绍。 在这里,我们对这一系列模型进一步的总结,包括任务场景、评估指标、模型类型、效率优化、局限性等 11 个方面分别总结,以便更好地对比和理解。 文本生成图相关总结也可参考: 1. 文生图模型演进:AE、VAE、VQ-VAE、VQ-GAN、DALL-E 等 8 模型2. OpenAI 文生图模型演进:DDPM、IDDPM、ADM、GLIDE、DALL-E 2、DALL-E 33. Google 图像生成模型 ViT-VQGAN & Parti-20B4. Google 图像生成模型 MaskGIT & Muse, 并行解码...