打败 Midjourney,这个 Google 大牛推出的 AI 产品凭什么弯道超车
Midjourney

打败 Midjourney,这个 Google 大牛推出的 AI 产品凭什么弯道超车

这可能是最懂文字的AI模型没有谁能一直称王,但加上前缀谁都有称王的机会。AI 文生图,还能玩出什么新花样?在这片群雄割据的红海,头部被 Midjourney、DALL·E、Stable Diffusion 等占据,其余还能让人眼前一亮的产品并不多。然而,仍有黑马杀出:Ideogram,前 Google 工程师创立,硅谷 AI 大神投资,去年 8 月面世,2 月底发布了最新的模型。Ideogram 的特别在于,擅长生成包含文本的图片,这恰恰是几大巨头都在改善的难题。事实证明,从别人跌倒的地方爬起来,不失为一种弯道超车的方式。能「画图」和「摄影」,但 AI 可能还是个「文盲」让 AI 精准生成文字,向来是个痛点,哪怕生成的人物和风景像相机拍出来的,如同乱码的扭曲文字,瞬间让 AI 原形毕露。Midjourney v5.2 生成的错误文字.Ideogram 站出来表示,拒绝让 AI 继续做个「文盲」,不妨先从它开始。接触 Ideogram 的门槛很低,打开网页(https://ideogram.ai/)登录就能用,界面看起来也清爽不复杂。生成一张图片的步骤不多,在输入框填完提示词,再根据你想要的效果,勾选图片长宽比,以及照片、海报、3D 渲染等图片样式。Ideogram 还考虑到了人类可能是提示词「苦手」,今年 2 月推出了「魔法提示」,这就像一个内置的 ChatGPT,帮你完善提示词,由 AI 拿捏同类的心思。包含文本内容的图片有哪些?产品标志、T恤印花、书籍封面、电影海报……我们先来个入门级考验,让几个人举起写着动物名称的指示牌,乍看文本对了,但脸和手不太正常,两者相互抵消,原来短板没有消失,只是转移了。如果只让 Ideogram 写字,效果便惊艳得多。让 AI 生成马斯克的经典句子「我宁愿乐观而错误,也不愿悲观而正确」,除了「W」有瑕疵,其他单词都写对了。字体活泼了些,70 后的马斯克不知道能不能接受,但碰撞的黑白色,应该能让爆改小蓝鸟的他满意。再拿经典谚语「只工作不玩耍,聪明的孩子也变傻」作为考题,虽然提示词强调了使用打印机字体,但 Ideogram 没能做到。看来光用提示词还不能定义字体,只能取个近似值。接着,命令 AI 为一家叫作「Coffee AI」的 AI 初创公司设计 logo。主体是个电路图案的咖啡杯,右上角有个机器人咖啡师,公司名称用粗体大写字母写成,排版简单和克制,作为...
摄影师危险了!Midjourney v6公测,带来相片级真实细节
Midjourney

摄影师危险了!Midjourney v6公测,带来相片级真实细节

文 / 腾讯科技 郝博阳 12月21日,Midjourney 在Discord上宣布其最新版本v6的测试版发布。该模型经过了9个月的训练,虽然缺乏明确的benchmark比较,就目前网友测试展现出来的能力来看,它可以被称为当下最先进的文生图模型。这次发布出的模型水平不光卷翻设计圈,也直接卷倒了摄影圈。 (先来点真实性震撼) Midjourney 历代全家福:从官方Discord介绍上看,这一次Midjourney的模型提升主要在以下几个方面:1)更准确的提示遵循以及更长的提示词上下文长度。据已参与测试的用户通过实测后表示v6现在支持的提示词长度超过350个字符;当前版本在提示里可以指定多个主题/颜色和其他细节。在准确遵循提示这点上,从网友测试来看提升也很明显。比如当用法语测试时,v6模型生成的图像明显更符合提示词的具体语义:有拳击手套,面带一点微笑。 下面这个例子更明显,v5.2数不到1000。 动作理解的提升:v5.2理解不了躺着,想再爬起来卷。v6就彻底躺平了。 2)改进的连贯性和模型知识在公告中,Midjourney表示● v6 对提示现在更敏感。别再用像 “令人印象深刻的,逼真的,4k,8k”这样的无用词汇了。● 明确表达你想要的。虽然它可能没那么有意思,但当你明确表达时,它就能在理解你的意图这方面做得更好。据用户测试,v6甚至能够理解标点和语法的细微差别。这一升级其实会对整个用户体验产生较大的影响。过去偏向于炼丹式的提示词可能将被更细致的描述取代。这到底是提高还是降低了新手门槛,还真不好说。针对这个改变,一名设计师给出了当前最适合Midjourney的新提示技巧:核心就是一个清晰不炫技,结构化表达。 在模型知识方面v6的进化有一个小细节非常有代表性。下面例子里的提示词是日本女性。v6能分清颇为微妙的不同亚洲族裔之间的相貌区别。比起v5.2,图像中女子的外形确实更有日本特征。这种欧洲人根本理解不了的亚洲长相差异也被AI拿捏了。(左为v5.2,右为v6)3)改进的图像提示和混合在这里,改进的图像提示其实更多是指按提升生成图像能力的提升,即能够根据文本提示创建更精细和逼真的图像。而改善的图像混合是指v6能使得不同元素和风格的结合更加和谐自然。从网友的测试来看,v6的图像生成能力确实有明显的提升。相较于v5.2,v6的图像确实更偏向于丰富和细腻逼真。v5.2其实从细节度上来讲已经可以到“乱真”的程度了,但v6的感觉是“真”,而非“仿真”。提示词对的话,结果甚至有一种相机直出的真实质感。比如这两盘土豆炖牛肉,明显右侧v6版本的会更让人有食欲。(左为v5.2,右为v6)环境还原能力上看,差异也非常明显:v6版本的罗马帝国市场,不说你会以为是《罗马》剧组的场景。而v5.2就略显平面,房子也略有些奇怪。(上为v6,下为v5.2) 这两组图的对比差异就更明显了。提示词都是纪录片风格,上面真的很纪录,而下面那组细看问题还是很多,缺乏真实的光影和细节深度。 (上为v6,下为v5.2)人像方面,其实v5已经做到相当还原了。但在v6中,脸上的小疙瘩,帽檐上的褶皱与污迹,鼻子上紧贴弧线充满变化的光影让v5.2的照片看起来更像是美颜过的,太平面了。就算同样是雀斑,v6的表现也更让人信服,充满符合人体呈现的集中性,而非平铺感。v5.2 v6 v5.2 v6 4)文本绘制能力提升简单来说,v6现在可以在图像中更明确地绘制文本,甚至可以规定其风格。为了获得最佳效果,文本应该用引号标出。这样做可以帮助模型区分哪些是描述性的提示,哪些是实际要在图像中呈现的文本。例如,如果用户想要生成一张图像,上面写着用马克笔在便利贴上写的“Hello World!”,他们可以使用类似于以下的提示:“imagine a photo of the text Hello World! written with a marker on a sticky note –ar 16:9 –v 6”这一点在测试中也非常清晰的展示出来了。现在v6对文字的处理正确率大幅提高,而且嵌入感也更好。然而可惜的是英文之外还是鬼画符。但v6已经能够完全进行符合画面的风格化文字创作了。 另一个例子中,可口可乐的字体被完全完美还原。 再来个标志设计图——文字完美贴合画面风格。设计师最后的阵地有点守不住了。 Midjourney v6展现出的强大能力看起来对摄影师和设计团队形成了更加真实的威胁——目前它展现出的审美,和谐的氛围能力已经直追高端摄影师。最可怕还不是它展现出的实力,而是它进化的速度——在Midjourney的公告中,他们还表示:v6的速度、图像质量、连贯性、提示遵循和文本准确性在未来几周内应该会提高。而v6 beta在发布半个小时之后宣布了第一次更新,生成速度提升了2.7倍。随着Midjourney v6的发布,新一轮图像生成模型的军备竞赛又要开始了。腾讯科技完整编译关于人工智能潜力及影响的报告👇🏻点击图片阅读👇🏻
Midjourney V6的此次更新会惹出麻烦?
Midjourney

Midjourney V6的此次更新会惹出麻烦?

本文来自微信公众号:阑夕(ID:techread),作者:阑夕,原文标题:《Midjourney V6这波更新可能会惹出麻烦》,题图来源:视觉中国 前几天,AI绘画工具Midjourney推出了V6版本,随后一如既往地赢得了巨大的盛赞。 V6模型的最大亮点,在于它对画面真实性的理解更加透彻了,无论是在细节的处理上,还是对于提示词的敏感,相比V5.2都有着前所未有的提升。 但在另一方面,随着被使用规模的增加,越来越多的人发现,Midjourney V6之所以能够拿出极其逼真的图画,可能是因为它的训练来源已经深入到了影视作品的每一帧上,而且并不掩饰生图时的一致性。 有很多用户已经发现了拟合度非常高的案例,比如下面这组对比,左边是“复仇者联盟”的电影截图,右边是Midjourney V6的出图: 来自X友Reid Southen 以及和2019年上映的电影“小丑”剧照的这个对比: 来自X友Min Choi 这再次触及到AI绘画的模糊风险:在被指控拿版权内容进行训练这件事情上,通常只能自证而非他证,AI公司“打马虎眼”的空间相当充裕,AI学习人类艺术是否是一项权利,也可以作为讨论议题拖延太久。 但是,重绘是一码事,叠图又是另一码事了,当你的产出里已经出现了高度拷贝原始图像的图画,由此引起的法律诉讼只会迎来爆炸式的增长。 事实上,我自己测试的结果,也能发现在那些具有高知名度,且影视素材流传极广的动画作品上,Midjourney V6的还原度,确实非常惊人: 火影忍者 瑞克和莫蒂 进击的巨人 驯龙高手 龙珠 海贼王 小黄人 蜘蛛侠:平行宇宙 乐高蝙蝠侠 这些图片都出自Midjourney V6,Prompt是很简单的一句[scene form xxx —ar 16:9 —style raw],很显然,如果不事先说明的话,将这些画面伪装成对应动画的截图,大概不会有多少人能够分辨出来。 当然,也有一些失败尝试,我的分析是,有些动画作品可能在知名度上是有的,但它的网络资源或是素材并没有那么丰富,或是样本被污染比较严重,导致Midjourney V6在训练时的容易走偏,所以复现效果就会变差不少: 灌篮高手 穿靴子的猫 猫和老鼠 总之就还挺迷的,作为AI的使用者,当然希望获得更加强大的产品能力,可是如果AI公司不能建立一个公允且可持续的商业模式,最后也可能会为行业遭致灾祸。 也不能完全说AI的拟合行为是不可容忍的,毕竟从Prompt来看,如果你指明让AI还原一部影视作品,它要是没做到这样的程度,反而会是某种意义上的失职,只是在一个非开源的、商业化的产品生态里,风险是有集中性的。 虽说给猴子一台不会坏的打印机和无限的时间,它终有一日能够打出“哈姆雷特”的全集出来,但无论是艺术还是科学,都不会膜拜这只猴子。 本文来自微信公众号:阑夕(ID:techread),作者:阑夕 本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com 如对本稿件有异议或投诉,请联系tougao@huxiu.com End
Midjourney地位不稳?AI绘图又一黑马出现,附4款产品一手实测
Midjourney

Midjourney地位不稳?AI绘图又一黑马出现,附4款产品一手实测

一水 发自 凹非寺 量子位 | 公众号 QbitAI AI圈,再次开卷图像生成。 一连串进展扎堆: 8月21日,Ideogram正式推出2.0版本,声称文本渲染能力更强。 没错,就是那个成立于去年8月,由谷歌AI绘画4大牛集体离职创业的项目,曾获得过一众AI大佬投资。 此番Ideogram还公开叫板Flux,官方自信表示其人类评估明显优于Flux Pro。 要知道,Flux由Stable Diffusion原班人马打造,最近正在因生成以假乱真的TED演讲“照片”而走红各大网络。 除此之外,一周前,谷歌正式放出了Imagen 3,在官方评估中,号称表现优于DALL-E 3、Midjourney v6、Stable Diffusion 3等一众绘图模型。 或许是受刺激了(doge),Midjourney竟然也转性了,在8月22日直接向所有用户推出了免费网页版。 这下有好戏看了! 既然大家都宣称自己很强,那我们不妨把大家拉到一桌,来搞个面对面PK。 谁是最强绘图AI? 先请出咱们的4位参赛选手(全部使用网页版): 1号选手:Ideogram 2.0。每天免费有10积分,1积分可以生成4张图,每天最多生成40张图;2号选手:Flux.1。黑森林官方在Hugging Chat提供了免费demo(选FLUX.1 Schnell版本);3号选手:Imagen 3。在Image FX上可以免费无限次使用;4号选手:Midjourney。免费试用期一共只有生成25张图的机会; 下面正式进入比赛环节。 黑猴子全翻车了 一上来,为了检验这些国外AI是否理解中文提示词,咱们也来蹭一波当今顶流黑猴子的热度。 prompt:游戏角色,一只猴子,身披盔甲,头戴凤羽金冠,手上拿着一根金箍棒,站在一座悬崖之上。 不出意外,意外发生了…… 相信大家一眼都被3号的大红叉给吸引了。没错,同一提示词下,只有3号Imagen 3拒绝了生成请求。 看到这儿,第一反应是我们的提示词是不是触发了版权保护。于是先删掉了提示词中的“游戏角色”,结果还是提醒无法生成。 难道是谷歌Imagen 3不支持中文?于是又随机换了一个更简单的提示词,这下倒是有图了。 只不过结果一整个大错误,而且换了多个中文提示词,最终都是一些毫不相关的纹路图。 看来谷歌Imagen 3确实对中文提示词不ok。 3号落榜之后,再看其他几位,也只有1号Ideogram...