每隔几年,就会出现一种技术,将世界整齐地分成前后。我记得我第一次看到YouTube视频嵌入在网页上;我第一次在设备之间同步Evernote文件;我第一次浏览附近人的推文,看看他们对我参加的音乐会有什么看法。
我记得我第一次Shazam写了一首歌,召唤了一辆Uber,并使用Meerkat直播了自己。我认为,使这些时刻脱颖而出的是,一些不可预测的新可能性已经被解锁了。当您可以轻松添加视频剪辑时,网络会变成什么样子?什么时候可以从云端将任何文件召唤到手机?什么时候你可以向世界广播自己?
自从我看到那种新兴的技术以来,已经有几年了,这种技术让我打电话给我的朋友说:你必须看到这个。但本周我做到了,因为我有一个新的要添加到列表中。这是一个名为DALL-E的图像生成工具,虽然我对它最终将如何被使用知之甚少,但它是我开始撰写本新闻稿以来我看到的最引人注目的新产品之一。
从技术上讲,所讨论的技术是DALL-E 2。它是由OpenAI创建的,OpenAI是一家拥有七年历史的旧金山公司,其使命是创建一种安全有用的人工通用智能。OpenAI在其领域已经众所周知,它创建了GPT-3,GPT-3是一种从简单提示生成复杂文本段落的强大工具,以及Copilot,一种帮助软件工程师自动编写代码的工具。
DALL-E是超现实主义者萨尔瓦多·达利(Salvador Dalí)和皮克斯(Pixar)的WALL-E的波特曼托(PORTMANTEAU),它采用文本提示并从中生成图像。2021年1月,该公司推出了该工具的第一个版本,仅限于256×256像素的正方形。
但第二个版本在四月份进入了私人研究测试阶段,感觉就像是一个彻底的飞跃。这些图像现在是1,024 x 1,024像素,可以结合新技术,如“内画” – 用另一个替换图像的一个或多个元素。(想象一下,在碗里拍一张橙子的照片,然后用苹果代替它。DALL-E在理解物体之间的关系方面也有所提高,这有助于它描绘越来越奇妙的场景——考拉扣篮打篮球,宇航员骑马。
几周来,DALL-E生成的图像线程一直在占据我的Twitter时间线。在我思考了我可能会用这项技术做些什么之后——也就是说,浪费无数个小时在它上面——OpenAI的一个非常好的人怜悯我,邀请我参加私人研究测试版。一位发言人今天告诉我,现在有访问权限的人数只有数千人。该公司希望每周增加1000人。
创建帐户后,OpenAI使您同意DALL-E的内容政策,该政策旨在防止平台的大多数明显潜在滥用行为。不允许仇恨,骚扰,暴力,性或裸体,公司还要求您不要创建与政治或政治家相关的图像。(这里似乎值得注意的是,OpenAI的联合创始人中有埃隆·马斯克(Elon Musk),他对Twitter的一套限制性要小得多的政策感到愤怒。他于2018年离开了董事会。
DALL-E还通过将关键字(例如“拍摄”)添加到阻止列表中来防止许多潜在的图像创建。您也不允许使用它来创建旨在欺骗的图像 – 不允许使用深度伪造。虽然没有禁止尝试根据公众人物制作图像,但未经许可,您不能上传人物的照片,并且该技术似乎稍微模糊了大多数面孔,以清楚地表明这些图像已纵。
一旦你同意了这一点,你会看到DALL-E令人愉快的简单界面:一个文本框,邀请你创建你能想到的任何东西,内容政策允许。想象一下,使用谷歌搜索栏就像Photoshop一样 – 那就是DALL-E。DALL-E从搜索引擎中借用了一些灵感,包括一个“给我惊喜”按钮,该按钮根据过去的成功,用建议的查询预先填充文本。我经常用它来尝试我可能从未考虑过的艺术风格的想法 – 例如“微距35mm照片”或像素艺术。
对于我的每个初始查询,DALL-E大约需要15秒才能生成10张图像。(本周早些时候,图像的数量减少到六个,以允许更多的人访问。几乎每一次,我都会发现自己大声咒骂,嘲笑结果有多好。
例如,这是“一只打扮成消防员的柴犬”的结果。
这是一个来自“一只打扮成巫师的斗牛犬,数字艺术。
我非常喜欢这些假的AI狗。我想收养他们,然后写关于他们的儿童读物。如果元宇宙曾经存在过,我希望他们能和我一起去那里。
你知道还有谁能来吗?“戴着帽子的青蛙,数字艺术。
为什么他真的是完美的?
在我们的Sidechannel Discord服务器上,我开始接受请求。有人要求描绘“夜晚的元宇宙,数字艺术”。我认为,回来的东西是恰如其分的宏伟和抽象:
我不会试图在这里解释DALL-E是如何制作这些图像的,部分原因是我自己仍在努力理解它。(所涉及的核心技术之一“扩散”在去年Google AI的这篇博客文章中得到了有益的解释。但是,我一再被这种图像生成技术看起来的创造性所震撼。
例如,在我的Discord中,另一个具有DALL-E访问权限的读者分享了两个结果。首先,看看“熊市经济学家在股价图表崩盘前,数字艺术”的一组结果。
其次,“一个牛市经济学家在一张飙升的股市图表前,上面有上涨线,合成波,数字艺术。
DALL-E在这里捕捉情感的程度令人震惊:熊的恐惧和愤怒,以及公牛的攻击性。将其中任何一种描述为“创造性”似乎都是错误的——我们在这里看到的只不过是概率性的猜测——但它们对我的影响与看到真正有创意的东西会产生同样的影响。
DALL-E的另一个引人注目的方面是它将尝试以各种方式解决单个问题的方式。例如,当我要求它给我看“一个带有粘稠眼睛的美味肉桂面包”时,它必须弄清楚如何描绘眼睛。
有时,DALL-E会在卷轴上添加一双塑料般的眼睛,就像我本来会做的那样。其他时候,它在霜冻中创造了负空间的眼睛。在一个案例中,它使眼睛从微型肉桂卷中脱颖而出。
那是我大声咒骂并开始大笑的一次。
DALL-E是我迄今为止见过的最先进的图像生成工具,但它远非唯一一个。我还用一个名为Midjourney的类似工具进行了轻微的实验,该工具也处于测试阶段。谷歌已经宣布了另一个名为Imagen,但尚未让外人尝试。第三个工具DALL-E Mini在过去几天里产生了一系列病毒式图像;不过,它与OpenAI或DALL-E无关,我想开发人员很快就会收到一封停止和终止信。
OpenAI告诉我,它还没有做出任何决定,关于DALL-E是否有一天以及如何更广泛地使用。当前研究测试版的目的是展示人们使用这项技术,并在必要时调整工具和内容政策。
然而,艺术家们为DALL-E发现的用例数量已经令人惊讶了。一位艺术家正在使用DALL-E为社交应用创建增强现实过滤器。迈阿密的一位厨师正在用它来获得如何摆盘菜肴的新想法。Ben Thompson写了一篇关于如何使用DALL-E在元宇宙中创建极其廉价的环境和物体的有先见之明的文章。
担心这种自动化可能会对专业插画家造成什么影响是很自然的,也是恰当的。很可能是许多工作都失去了。然而,我不禁认为像DALL-E这样的工具可以在他们的工作流程中发挥作用。例如,如果他们要求DALL-E在开始之前为他们勾勒出一些概念,该怎么办?该工具允许您创建任何图像的变体;我用它来建议替代的平台游戏徽标:
我会坚持我得到的标志。但是,如果我是一名插画家,我可能会欣赏其他建议,哪怕只是为了获得灵感。
同样值得考虑的是,这些工具可能会为那些永远不会想到(或负担得起)聘请插画家的人带来什么样的创造潜力。小时候,我写了自己的漫画书,但我的插画技巧从未取得过很大的进步。如果我能指示DALL-E为我画出我所有的超级英雄呢?
一方面,这似乎不像大多数人每天都会使用的那种工具。然而,我想在未来的几个月和几年里,我们会发现越来越多的创造性技术应用:在电子商务、社交应用中、在家庭和工作中。对于艺术家来说,它似乎可能是我们见过的最强大的文化混合工具之一——假设版权问题得到解决。(我被告知,使用人工智能生成受保护作品的图像是否被视为合理使用,目前还不完全清楚。如果你想看DALL-E对“蝙蝠侠吃三明治”的演绎,请DM ME。
我怀疑我们也会看到这个工具的一些有害应用。虽然我相信OpenAI能够执行强有力的政策来防止滥用DALL-E,但类似的工具肯定会出现,并采取更多的无所不能的方法进行内容审核。人们已经在使用当今可用的粗糙工具创建恶意的,通常是色情的深度伪造来骚扰他们的前任;技术只会变得更好。
通常的情况是,当一项新技术出现时,我们专注于它更快乐、更异想天开的用途,却忽略了它在未来可能被滥用的方式。尽管我对使用DALL-E感到兴奋,但我也非常担心类似的工具在不那么谨慎的公司手中可以做些什么。
同样值得思考的是,即使是这项技术的积极用途也可以大规模地做些什么。当我们在网上遇到的大多数图像都是由人工智能创造的,这对我们的现实感有什么影响?我们怎么知道我们看到的任何东西都是真实的?
就目前而言,DALL-E感觉像是消费技术历史上的突破。问题是,几年后,我们是否会将其视为创造性革命的开始,还是更令人担忧的事情。未来已经到来,每周增加1000名用户。现在是讨论其影响的时候了,在世界其他国家掌握它之前。