1725273740119.jpg

文末有福利

三年前,Thomas Smith 担任 OpenAI 的早期 Beta 测试员。在发布前几个月或几年使用最终成为 ChatGPT 的模型是令人兴奋的。

虽然OpenAI早期的文本模型让Thomas Smith惊叹不已,但他仍然记得第一次使用OpenAI第一代图像创建系统DALL-E的情景。

作为一名摄影师,您可以输入简单的提示并获取实际图像的想法是开创性的。虽然这些图像只有 500 像素宽,而且常常非常奇怪,但它仍然感觉很科幻。

快进两年,像 Midjourney 这样的人工智能图像生成系统可以生成照片高质量的图像,足以赢得摄影比赛。

当 OpenAI本周发布了万众期待的 DALL-E3 模型时,整个 AI 和摄影界都屏息以待,想看看 DALL-E3 能实现什么新魔力。

上周,Thomas Smith是第一批访问 DALL-E3 的用户之一。不幸的是,对于专业用户来说,新系统并不像许多人希望的那样具有开创性或有趣。

尽管如此,对于某些类型的用户来说,DALL-E3 仍然是向前迈出的一大步。原因如下。

盲目飞行

与 ChatGPT Vision(一项真正革命性的、接近 OpenAI 的功能)一样,新的 DALL-E3 直接内置于 ChatGPT 界面中。您可以通过选择 DALL-E3 模型来访问它,就像您在不同的 ChatGPT 文本模型之间进行选择一样。

1725273740393.jpg

在 DALL-E3 的最初演示中,OpenAI 展示了如何与 ChatGPT 进行对话,以便使用 DALL-E3 创建图像。

从表面上看,DALL-E3 似乎能够理解它所生成的图像的实际内容。

鉴于它与 ChatGPT 集成,并且 ChatGPT 现在具有强大的视觉功能,看起来 DALL-E3 将是一个真正的多模态模型 – 能够基于对文本输入的充分理解来创建图像。

这将释放一些惊人的能力。如果 DALL-E3 真正理解它正在创建的内容,您可以要求它生成例如特定汽车的图像。

如果它有一个功能错误——比如包括错误类型的扰流板或畸形的前灯——你可以简单地写一些类似“那个前灯看起来有点不对劲。你能把它弄得更宽、更圆吗?” 有了对图像的真正理解,ChatGPT 和 DALL-E3 应该能够共同努力做出这些改变。

不幸的是,这根本不是 OpenAI 实际提供的。事实证明,DALL-E3 只是一个普通的 AI 图像生成系统,嫁接到开箱即用的 ChatGPT 上。

新系统实际上并不理解它创建的图像 – 它只是使用 ChatGPT 根据与用户的对话编写图像提示,然后将这些提示输入 DALL-E3,就像您输入人工编写的图像一样提示进入中途。

DALL-E3 的不足之处

SEO 专家兼专业博主 Anne Moss 是最早发现这一点的人之一。

1725273740624.jpg

在一条推文中,她分享了 DALL-E3 难以创建逼真的图像,很大程度上是因为用户交互和图像创建之间存在一个中间步骤 – 自动编写提示。

如果 ChatGPT 正确理解了用户的意图并为 DALL-E3 编写了良好的提示,那么事情就会进展顺利。但如果它误解了——或者用户要求它做一些现有人工智能图像生成器无法做到的事情——它就会失败。

以下是测试的一些示例。

Thomas Smith的网站《湾区电讯报》中,他想制作一张有关 BART 列车系统客流量的信息图。他向 ChatGPT 提供了一些有关 BART 乘客量的数据,要求它制作一个信息图。

1725273740824.jpg

这是 DALL-E3 给出的:

1725273741178.jpg

这些都是很酷的图形。但它们甚至没有远程反映交给系统的数据。

为什么?当要求 ChatGPT 根据提供的数据制作信息图时,它实际上并没有将该数据交给 DALL-E3。相反,它使用提供的数据和指令来编写提示:

照片信息图显示折线图,直观显示 2019 年至 2023 年每月 BART 乘客量。x 轴标记为 1 月到 12 月的月份,y 轴显示乘客数量,范围从 0 到 500,000。每年的线条都用颜色编码:2019 年为蓝色,2020 年为红色,2021 年为绿色,2022 年为紫色,2023 年为橙色。每个月的数据点都用小圆圈清楚地标记。该图表右侧附有图例,指示每年的颜色。

然后将该提示输入 DALL-E3 以创建图像。

这里有几个问题:

该提示实际上并不包含提供的数据

提示本身毫无意义。鉴于此提示,即使是人类设计师也无法创建良好的信息图表

即使有提示,生成的图像也没有准确的比例、图例或标题

1725273741605.jpg

同样,我向 ChatGPT 提供了一篇我写的关于最近的 Google 有用内容更新的博客文章,并要求它为这个故事创建一个插图。

同样,ChatGPT 经历了为 DALL-E3 编写提示的中间步骤,因为它实际上无法直接与图像生成系统进行通信。

这是它创建的提示:

数字战场的图示:一方面,标有 Reddit、Quora、Medium 和 YouTube 标签的大型巨头举着盾牌和旗帜向前冲锋,而另一边,独立博主则被描绘成拿着笔和记事本的小人物,试图捍卫自己的利益。地面。头顶上,一朵标有“谷歌有用内容更新”的云在战场上投下阴影。

对于人类设计师来说,这实际上并不是一个可怕的提示。但对于人工智能图像生成器来说,它太复杂了,难以理解。

不出所料,DALLE-3 完全未能以任何有用或现实的方式解释它。

1725273742104.jpg

公平地说,midjourney的表现也同样糟糕。

1725273742509.jpg

相比之下,以下是我为Midjourney提供的用于说明该故事的实际图像的基本提示:

插图:大型 Google 徽标落入垃圾箱火灾中

这是人工智能生成器实际上可以理解的东西。它很简单并且具有清晰的视觉概念。经过一些手动编辑后,它生成了一张非常适合故事的图像。

1725273742887.jpg

图像自动传输

简而言之,DALL-E3 和它的朋友 ChatGPT 失败了,因为它们没有很好地沟通。ChatGPT 编写了一个在概念上有意义的提示,但生成式人工智能图像系统在实际执行时会感到困惑。

相比之下,作为一个人,我既了解我在故事中试图传达的想法,也了解人工智能图像生成器的功能和局限性。

这些知识使我能够编写比 DALL-E3 的提示更简单的提示,并且生成了视觉上引人注目的图像。

当前形式的 DALL-E3 存在不足,因为它需要 ChatGPT 写入提示的中间步骤。这会夺走用户的控制权,导致大多数情况下图像质量更差。

那么,DALL-E3 有点像一辆带有自动变速箱的汽车。是的,在人类和底层机构(汽车发动机)之间放置一台机器(自动变速箱)可以使日常驾驶变得更容易。

您无需考虑转速、发动机制动、即将发生的道路变化等。您只需开车即可。

职业赛车手不会因为驾驶自动变速箱的汽车而被抓。

他们的技能和理解使他们能够比机器更好地与汽车发动机进行交互。根据汽车发动机的调制轰鸣声以及他们对道路或赛道的了解,他们可以精确地确定换档时间,并将其与转向、加速和无数其他因素同步。

最终,这些知识、技能和经验使他们在比赛中拥有巨大的竞争优势。

使用 DALL-E3 的感觉很相似。是的,借助系统由 ChatGPT 驱动的“自动传输”,您无需亲自编写实际提示。

但是,如果将这一责任交给机器,您就剥夺了自己与创建图像的底层机器直接交互的能力。

就像驾驶普锐斯的 F1 车手一样,您失去了利用人类技能和经验来做真正伟大事情的机会。

DALL-E3 是为谁服务的

因此对于专业插画师和创作者来说,DALL-E3 很难代表一个大的飞跃。当然,它不是我们所期望的信息图表图像编辑机器。

尽管如此,我预计 DALLE-3 将对生成人工智能领域产生重大影响。

为什么?正如大多数休闲驾驶员不想学习驾驶变速杆一样,大多数 ChatGPT 用户也不想学习视觉提示工程的微妙而复杂的艺术。他们只想点击基本图像的快速描述并在几秒钟后下载它。

凭借其 ChatGPT 界面和自动提示,DALL-E3 在这方面表现出色。

例如,假设您正在为所在行业的贸易协会编写一份时事通讯。您被要求添加一个有关影响您所在行业的法律判决的部分,并且您需要一张简单的照片来说明它。

使用 DALL-E3,您可以直接请求。例如,输入:

为我制作一张图片来说明有关法律案件的故事

产生这些图像:

当然,他们不会赢得设计竞赛。但它们是完全合格的库存插图,非常适合行业新闻通讯。

相比之下,当您将相同的文本插入 Midjourney 时,您会得到以下结果:

这是史诗般的!太棒了!但是它与您所讨论的主题完全没有任何关系!!

是的,像我这样的专家可以为 Midjourney 写一个提示(“法庭桌子上木槌的特写镜头,35 毫米照片,弥漫的蓝色背景,强烈的散景,逼真”),生成的图像是更适合我们想象的时事通讯:

但事实上,一个正常人没有即时写作经验就可以使用DALL-E3,使用他们已经熟悉的界面, 和在几秒钟内创建可用的 AI 图像是一项非常强大的新功能。

大多数 ChatGPT 用户不需要完美的艺——他们需要基本的人工智能图像,这些图像可以服务于简单的日常用途,并且不需要数月的即时工程培训来创建。

DALL-E3 非常擅长制作这些。

DALL-E3 的未来

根据迄今为止我在 DALLE-3 测试中看到的情况,可以肯定地说,许多专业创作者目前可以坚持使用手动提示和 Midjourney。

但随着时间的推移,这种情况可能会改变。随着 OpenAI 迈向完全多模式系统,他们可能会将 ChatGPT Vision 和 DALL-E3 集成在一起。一旦发生这种情况,系统就可以真正提供专业创作者所希望的一些功能,例如从数据表创建信息图表的能力。

在此之前,DALL-E3 将主要作为向日常用户介绍 AI 图像生成器功能的工具。从这个意义上说,它可能仍然很受欢迎。

请记住,OpenAI 的大型语言模型 GPT-3 已经存在了 18 个月,然后 ChatGPT 的简单、易于访问的界面使其可供日常使用。将 GPT 模型的强大功能与聊天机器人的简单界面相结合,诞生了历史上增长最快的产品。

界面、可访问性和简单性很重要。正是这些因素有可能使 DALL-E3 的影响力远远超出许多专业人士的预期。

—END—

有个好消息,目前我们团队已经将 DALL-E3 接入微信群了,如果你不是gpt plus会员也没有魔法上bing去体验,那你可以进我的群免费体验。

Leave a Reply

Your email address will not be published. Required fields are marked *