Midjourney新版本上线即爆火!网友已玩疯:和摄影几乎没区别
Midjourney

Midjourney新版本上线即爆火!网友已玩疯:和摄影几乎没区别

明敏 发自 凹非寺 量子位 | 公众号 QbitAI Midjourney v6.1刚刚发布立刻爆火! 各种人像大片,一气呵成。 画面、光线、人物表情动作……都更加逼近现实。 雕像的细致纹理,也能细致还原。 对比上一版本v6,各方面提升都非常显著。 网友感慨:这和摄影大片已经几乎没区别了。 结合最近runway的Gen-3,有人只用45分钟就做出来了细节真实度都拉满的风格大片。 时隔半年,Midjourney带来重磅更新,现在已开放体验。 v6.1在8个方面进行升级。一句话总结,就是让生成图像看上去更好看。 而且再下一个版本马上就会发布,官方表示v6.2可能在下月和大家见面,将会做更多升级,比如文字方面。 现在他们需要先收集大量用户使用数据,现在打开Midjourney默认版本就是v6.1。 人像方面强得无敌 按照官方介绍,此次版本升级主要有以下几方面提升: 更强一致性(比如手臂、腿、身体、动植物等) 更高图像质量(减少伪影、增强纹理等) 更准确的、更细节的、更精确理解小图像特征(比如眼睛、小的脸等) 更好图像/纹理质量 更快生成速度,标准图像提升25% 提高文本准确性 一个新的个性化模型 个性化代码版本控制:可以将之前版本的代码用在新版本中 一个新的-q2模式,可以增加更多纹理,但是需要更长时间(增加25%),一致性也会下降 最突出的改变就是在人像方面,几乎已经无可挑剔。 结合网友们的实测,可以更直观看到如上提升。 相对而言,v6.1版本的真实性更强。 生成的物体看上去也更加合理。 一些之前v6无法搞定的提示词,现在v6.1能呈现出更理想的效果。 可以搞定此前一些明显扭曲的生成元素。 一些超现实的合成上,看着似乎也更舒服了。 不过在生成很多人和群像上,似乎还存在挑战。 有人测试“一群人在广场上做瑜伽”,输出结果里的“人”都很抽象。 而且生成每个人的错误都差不多:四肢数量不对、向同一个方向延伸。 群像生成里,前两三排的人面部还比较正常,但是到后面就变得扭曲恐怖。 有人觉得这是因为AI只会画一个人,但是理解不好一群人是由一个个人组成的。 就好比让MJ画一棵树,它知道如何画好一片叶子,但是不知道树冠就是由一堆叶子组成,所以它就只能画好几片最突出的叶子,其他就乱七八糟了。 如果是人物背面的话,效果会稍微好些。 你有上手体验吗?感觉如何? 参考链接:...
哈佛大学砸场子:DALL-E 2只是「粘合怪」,生成正确率只有22%
Midjourney

哈佛大学砸场子:DALL-E 2只是「粘合怪」,生成正确率只有22%

编辑:LRS 【新智元导读】DALL-E 2生成的图像确实令人惊叹,但它也有弊端,哈佛大学最新研究表明,文本提示内的关系它根本都不懂,生成图像的正确率仅有22%! DALL-E 2刚发布的时候,生成的画作几乎能完美复现输入的文本,高清的分辨率、强大的绘图脑洞也是让各路网友直呼「太炫酷」。 但最近哈佛大学的一份新研究论文表明,尽管DALL-E 2生成的图像很精致,但它可能只是把文本中的几个实体粘合在一起,甚至都没有理解文本中表述的空间关系! 论文链接:https://arxiv.org/pdf/2208.00005.pdf 数据链接:https://osf.io/sm68h/ 比如说给出一句文本提示为「A cup on a spoon」,可以看到DALL-E 2生成的图像中,可以看到有部分图像就没有满足「on」关系。 但在训练集中,DALL-E 2可能见到的茶杯和勺子的组合都是「in」,而「on」则比较少见,所以在两种关系的生成上,准确率也并不相同。 所以为了探究DALL-E 2是否真的能理解文本中的语义关系,研究人员选择了15类关系,其中8个为空间关系(physical relation),包括in, on, under, covering, near, occluded by, hanging over和tied to;7个动作关系(agentic relation),包括pushing, pulling, touching, hitting, kicking, helping和hindering. 文本中的实体集合限制为12个,选取的都是简单的、各个数据集中常见的物品,分别为:box, cylinder, blanket, bowl, teacup, knife; man, woman, child, robot, monkey和iguana(鬣蜥)....
AI绘画界的“国产之光”?亲测秒画VS Midjourney,结果震惊了!
Midjourney

AI绘画界的“国产之光”?亲测秒画VS Midjourney,结果震惊了!

在浏览文章之际,偶然瞅见一个大V所发的,题目里带着“国产之光”之类的字眼。这年头啊,为了博取流量,不是说“比肩MJ”,就是讲“国产之光”,通常都有夸大其辞之嫌。南叔一开始其实也没太当回事,不过他提到的这个“秒画”其开发者乃是国内AI界大名鼎鼎的商汤。在好奇心的驱使下,南叔打算体验一下所谓的“国产之光”究竟有多耀眼。结果却发现,这个秒画还真有两把刷子,感觉前段时间崭露头角的可灵绘画就不那么香了! 文末有相关软件测试地址 一、介绍 秒画的出图引擎Artist最近推出了1.0版本,采用百亿级参数的Transformer扩散模型,出图质量相当高,语义理解也很到位。南叔体验下来的一个明显感受就是,正如其名,秒画的出图速度非常快(有些时段可能因为服务器负载会变慢),而且倒计时是能看得到的,用户体验着实不错。但不管怎么说,作为一款AI绘画工具,出图质量肯定是最为重要的。下面南叔就用秒画与AI绘画界的扛把子Midjourney,来给大家做个对比。 二、对比 AI绘画比拼的,首先自然是画质,其次是对语义的理解,最后是对一些特殊画风的把控力。下面就从这几个方面来进行对比。 (一)画质 “哥特式风格,冷艳气质,20 岁的日本知名偶像,傲视群雄的表情,俯拍视角,暗黑女王装,红色血雾背景合成” 这张图要是南叔不说,你可能会以为是Midjourney生成的呢,但这可是秒画的效果,怎么样还不错吧?Midjourney的效果是下面这样,南叔个人觉得是各有千秋。 再来看一组提示词: “中国山水画,淡蓝色,浅绿色的山脉和淡黄色的植被。前景是一个古老的中国村庄,上面的天空是金色的,创造了一个色彩深邃的壮丽景象。黄金背景。浅靛蓝和金色风格,高视角。” 先来看Midjourney的效果 再来看看秒画的效果,南叔认为在中国画方面,秒画还是有一点优势的。 最后一组提示词: “商业摄影,特写,香水,花朵绽放,最好的质量,超详细” 先是秒画的结果 再来看看MJ的结果,不得不说,在光影控制方面还是MJ比较强啊! (二)语义理解 语义理解这块南叔觉得大家都差不多。我们来试试看一些特殊“用词”能不能很好地体现出来。 提示词:“呆萌的胖胖的彩色棒棒糖,亮晶晶的糖体,呈倾斜姿势,粗壮的手柄裹着彩色糖纸,在梦工厂人物设计的风格,在一个浅粉色的背景下,作为一个 3D 动画,绚烂的色彩组合,柔和的灯光,和光滑的糖体表面,有一个惊喜的表情。” 先是秒画的结果 再来一个MJ的结果 语意理解南叔认为基本持平,但是画面细节还是MJ略胜一筹啊! (三)特殊效果 特殊效果是Midourney所擅长的,这也是MJ断层式领先的最主要因素。但南叔还是想看看咱们国产的AI和这位老大哥之间的差距。 提示词:“卡通风格的彩虹竖琴,以晨曦为背景,五彩缤纷的霞光,充满希望元素的美妙氛围。乐器设计具有高清晰度插画风格的精密细节。竖琴被天边的彩云所簇拥,塑造了一个活泼的色彩和明媚的灯光的欢快场景。” 先来看看秒画的结果 再来看看MJ的结果,只能说大哥就是大哥… 三、总结 通过以上对比,不知大家感觉怎样?南叔觉得作为国产的绘画软件能做到这样,已经很不错了。国产软件最主要的优势就是我们可以直接用中文来输入我们需要写的提示词,而且我个人感觉对中文的理解秒画还是很有优势的。也希望我们的国产软件越做越好,越做越强! 最后,给出秒画的注册链接: https://miaohua.sensetime.com/inspiration?invite_code=9yvxNzyEz 通过南叔的注册邀请链接注册,将获得三天无限出图机会,感兴趣的小伙伴一定要试试呀!如果你觉得南叔的分享有用,一定要转发推荐给你的朋友们哦~
OpenAI一夜颠覆AI绘画!DALL·E 3+ChatGPT强强联合,画面细节爆炸
Midjourney

OpenAI一夜颠覆AI绘画!DALL·E 3+ChatGPT强强联合,画面细节爆炸

梦晨 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 起猛了,OpenAI竟然把AI绘画和ChatGPT合 并 了! 这不,最新发布的DALL·E 3,直接给AIGC带来了两大震撼—— 提示词门槛极大降低理解语意的细微差异的细节描述,准确到令人发指 没错,新版DALL·E 3,不仅省去了提示词工程,还顺带把语言理解能力提升了一个档次! 你只管随意想象。词,ChatGPT帮你拓展;画,DALL·E 3给你精确到细节。 AI就能像拍电影一般,保证从背景到人物,细节一字不差地复刻出来: 满月下的街道,熙熙攘攘的行人正在享受繁华夜生活。 街角摊位上,一位有着火红头发、穿着标志性天鹅绒斗篷的年轻女子,正在和脾气暴躁的老小贩讨价还价。 这个脾气暴躁的小贩身材高大,老道,身着一套整洁西装,留着引人注目的小胡子,正在用他那部蒸汽朋克式的电话兴致勃勃地交谈。 除了基础细节,DALL·E 3甚至能将模糊的形容词如繁华、讨价还价、脾气暴躁演绎得活灵活现,和CLIP已经不在一个档次了。 同时,相比上一代老模型,DALL·E 3自身的画技也前进了一大步: 这般操作,直接把网友看愣了。 有网友已经决定取消Midjourney订阅了。“如果Midjourney无法准确理解文本,这甚至称不上是同台竞技。” 还有网友调侃,这简直就是给即将到来的谷歌Gemini上压力。 更多细节,我们从DALL·E 3展示的效果一一来看。 在ChatGPT里直接用 相比前两代,DALL·E 3最大的优势在于原生构建在ChatGPT之上。 不仅意味着语言理解能力大幅飞跃,甚至提示词都可以让ChatGPT自己来写。 更多细节藏在奥特曼都忍不住自夸可爱的宣传视频里。 这是一个家长把5岁小朋友脑海里的幻想变成现实的故事。 首先家长询问ChatGPT,“我家5岁宝宝一直在说一个’超级向日葵刺猬’,它该长什么样?” 可以看到ChatGPT同时写了四段不同风格的提示词,并给出对应图像。 家长选择其中偏童话插图风格的一张后,故事的主角小刺猬形象似乎就能固定下来了,可以继续请ChatGPT画出更多。 顺便给小刺猬一个名字Larry,后面的对话中就不用每次都说“超级向日葵刺猬”了。 主角定好了,接下来再添加更多元素,让整个童话故事更丰富,比如给Larry画个房子。 这里既展示出了DALL·E 3创作一致形象的能力,也展示出邮箱上正确写上了LARRY的名字,解决了之前版本DALL·E不会写字的问题。 反正都用上ChatGPT了,不如把故事情节也完善一下? 刚编好的情节立马就可以有配套的插画了。...