研究者发现DALL-E 2在用自创语言生成图像:全文黑话,人类看不懂
Midjourney

研究者发现DALL-E 2在用自创语言生成图像:全文黑话,人类看不懂

机器之心报道 机器之心编辑部 人工智能 DALLE 善于画出各种神奇图像的原因在于——它不说人话。 「我们发现 DALLE-2 似乎有一个隐藏的词汇表,用于生成各种荒谬描述内容的图像。例如,Apoploe vesrreaitais 似乎是指鸟类,而 Contarra ccetnxniams luryca tanniounons 有时指虫子。我们发现这些 prompt 通常在孤立的情况下是一致的,但有时也是组合的,」研究人员写道。 DALL-E 生成的各种诡异图片在社交网络上刷屏已经持续了一段时间,有关为什么人工智能可以生成自然界中不存在的事物,很多研究者正在寻根问底。近日,来自德克萨斯大学奥斯丁分校的学者发现,DALL-E2 会使用看似随机但与视觉概念有一些关联的单词来形容自己做的事。 简而言之,AI 自创了一门语言,这份可解释性研究让人们细思极恐,连 Gary Marcus 也受到震撼。 自从 OpenAI 发布 DALLE 和 DALLE-2 以来,多模态大模型的视觉生成能力有目共睹。它们以文本标题作为输入,就能生成与给定文本相匹配的高质量图像。 DALLE-2 使用无分类器的扩散引导,但其众多周知的局限性是它会与文本相抗。比如文本 prompt 是「An image of the word airplane」的时候,通常会导致生成图像完全没听懂文本的内涵。研究者们发现,这个生成的文本不是随机的,而是揭示了一套隐藏的体系,这个词汇模型似乎是从内部发展出来的。比如说,当输入这些不知所云的的文本时,模型经常会生成飞机。 这些隐藏词汇中的一些是可以被学习的,并用来创造出一些离奇的 prompt,最终生成自然的图像。例如,Apoploe vesrreaitais 似乎意味着「鸟类」,Contarra ccetnxniams...
DALL·E 3来了!AI绘画+ChatGPT,无需提示词直接生图,网友:Midjourney不香了
Midjourney

DALL·E 3来了!AI绘画+ChatGPT,无需提示词直接生图,网友:Midjourney不香了

文 | 尚恩 编辑 | 邓咏仪 OpenAI悄咪咪的又在半夜整活,这次直接把AI绘画和ChatGPT合并了! 来源:OpenAI 美国时间9月21日凌晨,OpenAI官宣文生图AI工具DALL·E系列迎来最新版本DALL·E 3。相比上一代模型DALL·E 2,DALL·E 3自身的画技不仅提升巨大,还能准确理解语意、细节的细微描述差异。 还记得去年DALL·E 2发布时,带动了一波AI文生图模型热,包括Stable Diffusion在内的众多与AI生图有关的工具、模型都是在当时推出的。 更重要的是,这次OpenAI直接把DALL·E 3和ChatGPT集成到了一起。 来源:OpenAI 简单说就是,新版DALL·E 3,直接省去了提示词工程(Prompt Engineering)这一步,你只管随意发挥想象,词由ChatGPT帮你拓展,画画就交给AI来搞,So Easy。 来源:公开网络 对此,OpenAI联合创始人Greg Brockman直接表示: 很难不爱。 来源:X(原Twitter) 这般操作,也属实是把网友看的一愣一愣的。不少网友都惊呼,这也太绝了! 来源:X(原Twitter) 也有网友在看过DALL·E 3生成的图后,直接表示:“Midjourney拜拜了您内”。 来源:X(原Twitter) 在ChatGPT里就能玩 要说这次DALL·E 3发布中,最大的亮点,当属是把AI绘图原生构建在ChatGPT之上。 为啥这么说?对比以前的文生图工具,都是先将文本Prompt转换成图像,即使是 DALL·E 2,也会经常忽略特定的措辞导致出错。现在只需向ChatGPT提出要求,一个简单的句子,AI就能开启头脑风暴改进提示,再也不用为写不出华丽的提示词而头疼 甚至,你还可以在对话过程中,基于生成的图像随时做出修改。 比如官方给出的这个例子,详细的展示了DALL·E 3是如何详尽地将提示词中的每一个场景,生成如下一幅佳作。 一轮满月下洒满街道,熙熙攘攘的行人正享受着夜生活。街角摊位上,一位有着火红秀发,身着典雅天鹅绒斗篷的少女,正与脾气暴躁的老板讨价还价。 来源:OpenAI 除此以外,OpenAI也表示:“DALL·E 3比以往系统更能理解细微差别和细节,让用户更加轻松地将自己的想法转化为非常准确的图像。” 比如,下面这两幅图分别是由DALL·E...
OpenAI发布最新 AI 绘画模型DALL·E 3,集成ChatGPT并提升细节效果|钛快讯
Midjourney

OpenAI发布最新 AI 绘画模型DALL·E 3,集成ChatGPT并提升细节效果|钛快讯

利用DALL·E生成的 AI 图像(图片来源:OpenAI) OpenAI 又公布了最新重磅消息。 北京时间9月21日凌晨,美国OpenAI公司宣布,文生图 AI 工具迎来了第三个版本DALL·E 3,比上个版本仅过去17个月左右。 OpenAI 表示,DALL·E 3比以往系统更能理解细微差别和细节,让用户更加轻松地将自己的想法转化为非常准确的图像。同时,DALL·E 3还将与ChatGPT集成,原生实现多模态输出,Plus和企业版用户通过文本就能直接在ChatGPT中生成各种类型图片,不仅加强提示词的生成图像体验,而且增强模型理解用户指令的能力,图像效果也有巨大提升。 OpenAI公司CEO奥特曼(Sam Altman)表示,在他看来新的DALL·E 3效果相当惊人,它将在接下来的几周内向所有ChatGPT Plus付费版/企业版用户开放。“如果不尝试的话,很难理解这是多么了不起的事情。” 据悉,OpenAI成立于2015年,致力于开发和应用人工智能(AI)技术造福全人类。目前,OpenAI公司估值高达270亿美元左右,年营收已接近10亿美元。 2021年,OpenAI推出了DALL·E 和CLIP(对比图文预训练),能连接文本与图像的神经网络。其中,DALL·E基于文本直接生成图像,而CLIP是一个单独的模型,其作用是理解输出图像并为其打分。DALL·E生成的图像由CLIP模型进行筛选,以呈现最高质量的图像。 2022年,OpenAI升级了文生图能力,发布DALL·E 2,提供了更高的图像分辨率、更低的延迟以及编辑原始图像的能力。而且公开报道现实,DALL-E模型是GPT-3的多模态实现,共拥有120亿个参数,使用从网络上收集的文本和图像对进行训练。而且使用零样本学习从描述和提示中生成输出,而无需进一步训练。 剑桥大学机器学习教授尼尔·劳伦斯(Neil Lawrence)曾认为,DALL·E这类模型有能力存储世界信息,并以人类认为非常自然的方式进行推广。佐治亚理工学院交互计算学院副教授马克·里德尔(Mark Riedl)则认为,DALL·E的演示结果表明它能够协调地融合概念,这是人类创造力的关键要素,同时他指出DALL-E绘制的插图比过去几年其他的Text 2 Image(由文本生成图像)系统要出色许多。 时隔500多天后,此次发布的DALL·E 3拥有多个新特性,钛媒体App简单梳理如下: DALL·E 3 具备更强大的图像细节和差异识别能力,使用户更易将想法转化为准确的图像,并解决了之前版本DALL·E不会写字的问题。DALL·E 3 的一个主要特点是与 ChatGPT 的集成。此集成允许用户更简单地创建 prompt(提示词),因为当输入一个想法时,ChatGPT 会自动为DALL·E 3生成详细的 prompt。DALL·E 3 在图像质量和对 prompt 的准确性上都有所增强。相比于上一代,新版本更能理解文本的上下文和更长的 prompt,处理效果更佳。安全性方面,OpenAI 在DALL·E...
终于来了,Midjourney V6 很强大
Midjourney

终于来了,Midjourney V6 很强大

我们一直在等待的时刻终于来了——Midjourney V6来了!作为这个极其强大的人工智能艺术生成的长期粉丝,当 David Holz 在圣诞节前宣布发布 alpha 版本时,大家都很开心。 MidjourneyV6有什么新功能? V6可以更准确地理解提示V6 可以遵循更长的提示提高一致性和模型知识改进的图像提示和重新混合文字绘制能力较弱(必须将文字写在“引文”中)改进的升级器,具有“微妙”和“创意”模式(分辨率提高 2 倍) 如何激活MidjourneyV6 前往Discord上的 Midjourney 服务器。 打开 Midjourney 聊天实例并键入/settings以调出设置菜单。在默认模型下拉列表中,选择“Midjourney Model V6 [ALPHA]”。您可以尝试其他设置,但我现在将它们保留为默认值。 接下来,输入imagine关键字,弹出提示框,您可以在其中描述要生成的图像。 这是以下提示的结果: 提示:一张 32 岁女性在丛林中的照片,她是一位崭露头角的自然资源保护主义者;运动型短卷发和温暖的微笑 — s 250 — v 6.0 人工智能将生成结果的四种变体。单击 U1 至 U4 按钮,选择您想要升级的版本。 在此示例中,我想放大第二张图像。这是最终结果: 这是更多示例照片 提示:成年女性的照片。你的美丽无与伦比 全新的“文本”功能 我想强调一下这个包括我在内的粉丝们一直在等待的全新功能——文本功能。尽管 Midjourney 团队称该功能是“次要的”,但我的初步测试证明它已经相当优秀了。 这是一个例子:...