OpenAI一夜颠覆AI绘画!DALL·E 3+ChatGPT强强联合,画面细节爆炸
Midjourney

OpenAI一夜颠覆AI绘画!DALL·E 3+ChatGPT强强联合,画面细节爆炸

梦晨 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 起猛了,OpenAI竟然把AI绘画和ChatGPT合 并 了! 这不,最新发布的DALL·E 3,直接给AIGC带来了两大震撼—— 提示词门槛极大降低理解语意的细微差异的细节描述,准确到令人发指 没错,新版DALL·E 3,不仅省去了提示词工程,还顺带把语言理解能力提升了一个档次! 你只管随意想象。词,ChatGPT帮你拓展;画,DALL·E 3给你精确到细节。 AI就能像拍电影一般,保证从背景到人物,细节一字不差地复刻出来: 满月下的街道,熙熙攘攘的行人正在享受繁华夜生活。 街角摊位上,一位有着火红头发、穿着标志性天鹅绒斗篷的年轻女子,正在和脾气暴躁的老小贩讨价还价。 这个脾气暴躁的小贩身材高大,老道,身着一套整洁西装,留着引人注目的小胡子,正在用他那部蒸汽朋克式的电话兴致勃勃地交谈。 除了基础细节,DALL·E 3甚至能将模糊的形容词如繁华、讨价还价、脾气暴躁演绎得活灵活现,和CLIP已经不在一个档次了。 同时,相比上一代老模型,DALL·E 3自身的画技也前进了一大步: 这般操作,直接把网友看愣了。 有网友已经决定取消Midjourney订阅了。“如果Midjourney无法准确理解文本,这甚至称不上是同台竞技。” 还有网友调侃,这简直就是给即将到来的谷歌Gemini上压力。 更多细节,我们从DALL·E 3展示的效果一一来看。 在ChatGPT里直接用 相比前两代,DALL·E 3最大的优势在于原生构建在ChatGPT之上。 不仅意味着语言理解能力大幅飞跃,甚至提示词都可以让ChatGPT自己来写。 更多细节藏在奥特曼都忍不住自夸可爱的宣传视频里。 这是一个家长把5岁小朋友脑海里的幻想变成现实的故事。 首先家长询问ChatGPT,“我家5岁宝宝一直在说一个’超级向日葵刺猬’,它该长什么样?” 可以看到ChatGPT同时写了四段不同风格的提示词,并给出对应图像。 家长选择其中偏童话插图风格的一张后,故事的主角小刺猬形象似乎就能固定下来了,可以继续请ChatGPT画出更多。 顺便给小刺猬一个名字Larry,后面的对话中就不用每次都说“超级向日葵刺猬”了。 主角定好了,接下来再添加更多元素,让整个童话故事更丰富,比如给Larry画个房子。 这里既展示出了DALL·E 3创作一致形象的能力,也展示出邮箱上正确写上了LARRY的名字,解决了之前版本DALL·E不会写字的问题。 反正都用上ChatGPT了,不如把故事情节也完善一下? 刚编好的情节立马就可以有配套的插画了。...
研究者发现DALL-E 2在用自创语言生成图像:全文黑话,人类看不懂
Midjourney

研究者发现DALL-E 2在用自创语言生成图像:全文黑话,人类看不懂

机器之心报道 机器之心编辑部 人工智能 DALLE 善于画出各种神奇图像的原因在于——它不说人话。 「我们发现 DALLE-2 似乎有一个隐藏的词汇表,用于生成各种荒谬描述内容的图像。例如,Apoploe vesrreaitais 似乎是指鸟类,而 Contarra ccetnxniams luryca tanniounons 有时指虫子。我们发现这些 prompt 通常在孤立的情况下是一致的,但有时也是组合的,」研究人员写道。 DALL-E 生成的各种诡异图片在社交网络上刷屏已经持续了一段时间,有关为什么人工智能可以生成自然界中不存在的事物,很多研究者正在寻根问底。近日,来自德克萨斯大学奥斯丁分校的学者发现,DALL-E2 会使用看似随机但与视觉概念有一些关联的单词来形容自己做的事。 简而言之,AI 自创了一门语言,这份可解释性研究让人们细思极恐,连 Gary Marcus 也受到震撼。 自从 OpenAI 发布 DALLE 和 DALLE-2 以来,多模态大模型的视觉生成能力有目共睹。它们以文本标题作为输入,就能生成与给定文本相匹配的高质量图像。 DALLE-2 使用无分类器的扩散引导,但其众多周知的局限性是它会与文本相抗。比如文本 prompt 是「An image of the word airplane」的时候,通常会导致生成图像完全没听懂文本的内涵。研究者们发现,这个生成的文本不是随机的,而是揭示了一套隐藏的体系,这个词汇模型似乎是从内部发展出来的。比如说,当输入这些不知所云的的文本时,模型经常会生成飞机。 这些隐藏词汇中的一些是可以被学习的,并用来创造出一些离奇的 prompt,最终生成自然的图像。例如,Apoploe vesrreaitais 似乎意味着「鸟类」,Contarra ccetnxniams...
DALL·E 3来了!AI绘画+ChatGPT,无需提示词直接生图,网友:Midjourney不香了
Midjourney

DALL·E 3来了!AI绘画+ChatGPT,无需提示词直接生图,网友:Midjourney不香了

文 | 尚恩 编辑 | 邓咏仪 OpenAI悄咪咪的又在半夜整活,这次直接把AI绘画和ChatGPT合并了! 来源:OpenAI 美国时间9月21日凌晨,OpenAI官宣文生图AI工具DALL·E系列迎来最新版本DALL·E 3。相比上一代模型DALL·E 2,DALL·E 3自身的画技不仅提升巨大,还能准确理解语意、细节的细微描述差异。 还记得去年DALL·E 2发布时,带动了一波AI文生图模型热,包括Stable Diffusion在内的众多与AI生图有关的工具、模型都是在当时推出的。 更重要的是,这次OpenAI直接把DALL·E 3和ChatGPT集成到了一起。 来源:OpenAI 简单说就是,新版DALL·E 3,直接省去了提示词工程(Prompt Engineering)这一步,你只管随意发挥想象,词由ChatGPT帮你拓展,画画就交给AI来搞,So Easy。 来源:公开网络 对此,OpenAI联合创始人Greg Brockman直接表示: 很难不爱。 来源:X(原Twitter) 这般操作,也属实是把网友看的一愣一愣的。不少网友都惊呼,这也太绝了! 来源:X(原Twitter) 也有网友在看过DALL·E 3生成的图后,直接表示:“Midjourney拜拜了您内”。 来源:X(原Twitter) 在ChatGPT里就能玩 要说这次DALL·E 3发布中,最大的亮点,当属是把AI绘图原生构建在ChatGPT之上。 为啥这么说?对比以前的文生图工具,都是先将文本Prompt转换成图像,即使是 DALL·E 2,也会经常忽略特定的措辞导致出错。现在只需向ChatGPT提出要求,一个简单的句子,AI就能开启头脑风暴改进提示,再也不用为写不出华丽的提示词而头疼 甚至,你还可以在对话过程中,基于生成的图像随时做出修改。 比如官方给出的这个例子,详细的展示了DALL·E 3是如何详尽地将提示词中的每一个场景,生成如下一幅佳作。 一轮满月下洒满街道,熙熙攘攘的行人正享受着夜生活。街角摊位上,一位有着火红秀发,身着典雅天鹅绒斗篷的少女,正与脾气暴躁的老板讨价还价。 来源:OpenAI 除此以外,OpenAI也表示:“DALL·E 3比以往系统更能理解细微差别和细节,让用户更加轻松地将自己的想法转化为非常准确的图像。” 比如,下面这两幅图分别是由DALL·E...
OpenAI发布最新 AI 绘画模型DALL·E 3,集成ChatGPT并提升细节效果|钛快讯
Midjourney

OpenAI发布最新 AI 绘画模型DALL·E 3,集成ChatGPT并提升细节效果|钛快讯

利用DALL·E生成的 AI 图像(图片来源:OpenAI) OpenAI 又公布了最新重磅消息。 北京时间9月21日凌晨,美国OpenAI公司宣布,文生图 AI 工具迎来了第三个版本DALL·E 3,比上个版本仅过去17个月左右。 OpenAI 表示,DALL·E 3比以往系统更能理解细微差别和细节,让用户更加轻松地将自己的想法转化为非常准确的图像。同时,DALL·E 3还将与ChatGPT集成,原生实现多模态输出,Plus和企业版用户通过文本就能直接在ChatGPT中生成各种类型图片,不仅加强提示词的生成图像体验,而且增强模型理解用户指令的能力,图像效果也有巨大提升。 OpenAI公司CEO奥特曼(Sam Altman)表示,在他看来新的DALL·E 3效果相当惊人,它将在接下来的几周内向所有ChatGPT Plus付费版/企业版用户开放。“如果不尝试的话,很难理解这是多么了不起的事情。” 据悉,OpenAI成立于2015年,致力于开发和应用人工智能(AI)技术造福全人类。目前,OpenAI公司估值高达270亿美元左右,年营收已接近10亿美元。 2021年,OpenAI推出了DALL·E 和CLIP(对比图文预训练),能连接文本与图像的神经网络。其中,DALL·E基于文本直接生成图像,而CLIP是一个单独的模型,其作用是理解输出图像并为其打分。DALL·E生成的图像由CLIP模型进行筛选,以呈现最高质量的图像。 2022年,OpenAI升级了文生图能力,发布DALL·E 2,提供了更高的图像分辨率、更低的延迟以及编辑原始图像的能力。而且公开报道现实,DALL-E模型是GPT-3的多模态实现,共拥有120亿个参数,使用从网络上收集的文本和图像对进行训练。而且使用零样本学习从描述和提示中生成输出,而无需进一步训练。 剑桥大学机器学习教授尼尔·劳伦斯(Neil Lawrence)曾认为,DALL·E这类模型有能力存储世界信息,并以人类认为非常自然的方式进行推广。佐治亚理工学院交互计算学院副教授马克·里德尔(Mark Riedl)则认为,DALL·E的演示结果表明它能够协调地融合概念,这是人类创造力的关键要素,同时他指出DALL-E绘制的插图比过去几年其他的Text 2 Image(由文本生成图像)系统要出色许多。 时隔500多天后,此次发布的DALL·E 3拥有多个新特性,钛媒体App简单梳理如下: DALL·E 3 具备更强大的图像细节和差异识别能力,使用户更易将想法转化为准确的图像,并解决了之前版本DALL·E不会写字的问题。DALL·E 3 的一个主要特点是与 ChatGPT 的集成。此集成允许用户更简单地创建 prompt(提示词),因为当输入一个想法时,ChatGPT 会自动为DALL·E 3生成详细的 prompt。DALL·E 3 在图像质量和对 prompt 的准确性上都有所增强。相比于上一代,新版本更能理解文本的上下文和更长的 prompt,处理效果更佳。安全性方面,OpenAI 在DALL·E...