文章主题:v6, Midjourney, 文生图模型, 腾讯科技

666AI工具大全,助力做AI时代先行者!

文 / 腾讯科技 郝博阳

在12月21日这个特殊的日子里,Midjourney在Discord平台上正式推出了他们最新的测试版v6。这款模型经过长达9个月的精心训练,虽然目前还没有明确的基准比较数据,但从网友们实际测试的结果来看,它无疑已经成为当前最为先进的人工智能助手。这次发布的模型不仅令设计领域感受到了压力,甚至直接影响了摄影行业的发展。

(先来点真实性震撼 )

Midjourney 历代全家福:

从官方 Discord 介绍上看,这一次 Midjourney 的模型提升主要在以下几个方面:

1)更准确的提示遵循以及更长的提示词上下文长度。

在经过实际测试后,我们的用户反馈称,V6 版本的提示词长度已经超过了 350 个字符。此外,当前版本允许用户在提示中选择多个主题/颜色以及其他细节,提供了更为灵活的定制选项。

在准确遵循提示这点上,从网友测试来看提升也很明显。

比如当用法语测试时,v6 模型生成的图像明显更符合提示词的具体语义:有拳击手套,面带一点微笑。

下面这个例子更明显,v5.2 数不到 1000。

动作理解的提升:v5.2 理解不了躺着,想再爬起来卷。v6 就彻底躺平了。

2)改进的连贯性和模型知识

在公告中,Midjourney 表示

● v6 对提示现在更敏感。别再用像 ” 令人印象深刻的,逼真的,4k,8k” 这样的无用词汇了。

在撰写文章时,我们需要清晰地传达出我们想要表达的信息。尽管这样做可能会使得内容显得乏味,但是当我们能够明确地阐述我们的观点时,它在理解读者意图方面会表现得更加出色。因此,在创作过程中,务必确保我们的语言能够准确地传达出我们的想法,这样才能使文章更具说服力。

V6版本的更新,使得其对标点和语法细节的理解能力有了显著提升。这样的升级对于整体用户体验的影响不容忽视。曾经,用户常常依赖于粗略的提示词来获得信息,但这次更新可能会让更加精确的描述取而代之。究竟这是提高了还是降低了新手入門难度,这个问题或许并不好回答。

在面对这一变化时,一位设计专家为我们提供了适用于Midjourney的最新建议技巧:关键在于保持简洁、不炫耀且结构化的表达方式。

在模型知识领域,V6的进化和一个细微之处具有很高的代表性。以下示例中的关键词是日本女性。V6能够区分在微妙的不同亚洲族群之间存在的相貌差异。相较于V5.2版本,图像中女性的外形更具日本特色。这种欧洲人难以理解的亚洲外貌差异已被AI精准捕捉。

(左 v5.2,右 v6)

3)改进的图像提示和混合

在这里,我们所说的改进图像提示主要是针对图像生成的优化,其目的是提升图像的质量,使之能够根据文本描述生成更为精细且逼真的图像。而对于图像混合的改善,则主要是指v6版本能够实现不同元素和风格之间的融合更加 seamless且和谐。

通过网友们的实际操作测试,我们可以明显观察到v6的图像生成能力有了显著的提升。相比于v5.2版本,v6生成的图像更加丰富、细腻且逼真。尽管v5.2在细节表现上已经达到了相当高的水准,接近”乱真”,但v6却给人一种真实的感觉,而非仅仅是对物体的仿真。如果使用正确的提示词,其结果甚至能呈现出类似于相机直接拍摄的真实质感。

比如这两盘土豆炖牛肉,明显右侧 v6 版本的会更让人有食欲。

(左:v5.2 右 v6)

环境还原能力上看,差异也非常明显:v6 版本的罗马帝国市场,不说你会以为是《罗马》剧组的场景。而 v5.2 就略显平面,房子也略有些奇怪。

(上 v6,下 v5.2)

这两组图的对比差异就更明显了。提示词都是纪录片风格,上面真的很纪录,而下面那组细看问题还是很多,缺乏真实的光影和细节深度。

上为 v6,下为 v5.2

人像方面,其实 v5 已经做到相当还原了。但在 v6 中,脸上的小疙瘩,帽檐上的褶皱与污迹,鼻子上紧贴弧线充满变化的光影让 v5.2 的照片看起来更像是美颜过的,太平面了。就算同样是雀斑,v6 的表现也更让人信服,充满符合人体呈现的集中性,而非平铺感。

v5.2

v5.2

4)文本绘制能力提升

简单来说,v6 现在可以在图像中更明确地绘制文本,甚至可以规定其风格。为了获得最佳效果,文本应该用引号标出。这样做可以帮助模型区分哪些是描述性的提示,哪些是实际要在图像中呈现的文本。例如,如果用户想要生成一张图像,上面写着用马克笔在便利贴上写的 “Hello World!”,他们可以使用类似于以下的提示:”imagine a photo of the text Hello World! written with a marker on a sticky note –ar 16:9 –v 6”

这一点在测试中也非常清晰的展示出来了。现在 v6 对文字的处理正确率大幅提高,而且嵌入感也更好。

然而可惜的是英文之外还是鬼画符。但 v6 已经能够完全进行符合画面的风格化文字创作了。

另一个例子中,可口可乐的字体被完全完美还原。

再来个标志设计图——文字完美贴合画面风格。设计师最后的阵地有点守不住了。

Midjourney v6 展现出的强大能力看起来对摄影师和设计团队形成了更加真实的威胁——目前它展现出的审美,和谐的氛围能力已经直追高端摄影师。最可怕还不是它展现出的实力,而是它进化的速度——在 Midjourney 的公告中,他们还表示:v6 的速度、图像质量、连贯性、提示遵循和文本准确性在未来几周内应该会提高。而 v6 beta 在发布半个小时之后宣布了第一次更新,生成速度提升了 2.7 倍。

随着 Midjourney v6 的发布,新一轮图像生成模型的军备竞赛又要开始了。

查看原文

aigc666aigc999_0.jpg

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *