DALL-E 3的魔法和一点思考
Midjourney

DALL-E 3的魔法和一点思考

话不多说,先上两张图,第一张图是用DALL-E 2生成的,第二张图是用DALL-E 3 生成的,prompt是一样的:”A photo of a cat sitting on a couch.”(一只猫坐在沙发上),真所谓没有比较就没有伤害,两者的质感可以说是云泥之差吧。 当然,用不着智商140也可以想得到,3的模型肯定比2好嘛,这基本无法反驳,因为一旦涉及到大语言模型本身,世界上绝大部分人都会立即感到自身知识的贫瘠——谁能说得清楚呢。 但是,我发现一些比较有意思的东西,而且印证了我此前的一些推测和假设:如果我们无法用DALL-E 2生成好的图片,到底是因为模型的问题,还是我们提示词的问题?或者说两者问题所占的比例是多少呢?如何生成恰如其分的好的提示词? 事情是这样,我在观察DALL-E 3模型接口访问的结果时,发现它默认会带有一个 revised_prompt, 也就是说,它其实会尝试重写你的prompt,尽可能添加了一些更加有助于描述图片特征的信息。例如下面这个例子,它重写后的prompt是 A photo showcasing a short-haired domestic cat with striped fur, comfortably seated on a plush fabric couch. The living room setting is casual with soft ambient light...
探索图像世界——GPTS重点推荐:Image Recreate、DALL· 3 Ultra等
Midjourney

探索图像世界——GPTS重点推荐:Image Recreate、DALL· 3 Ultra等

来源丨IT桔子 封面图来源丨正文 IT 桔子每两周分享近期OpenAI下各类 AI 程序,一起看看 OpenAI 给我们的生活可能带来的有趣改变。 AI Art Illusions AI Art Illusions 能够根据用户的需求和偏好,进行个性化创作,生成独特的艺术作品,涵盖从抽象画到现实主义风格的各种图像,满足特定主题或风格的要求,使每一件作品都具有独特性。将人工智能与艺术创作结合,为用户提供了一个创新的平台,激发了无限的创意潜力。 网址:https://gpts123.ai/gpt/2bf5486b-ecb2-11ee-afef-0c42a12c1ba2 Dedicated Art Director Dedicated Art Director能够基于用户输入的关键词和主题,生成创意概念和设计,激发创作灵感。提供成功设计案例的分析,帮助用户理解优秀设计的关键要素和创意策略。根据设计目标和受众,提供最佳的视觉布局和元素排列建议,提升设计效果。提供丰富的设计素材库,包括图片、图标、模板等,用户可以直接使用或参考。 网址:https://gpts123.ai/gpt/2b21598a-ecb2-11ee-afef-0c42a12c1ba2 Image Copy Machine GPT 利用先进的AI技术,复制参考图像的艺术风格和色调,将其应用到其他图像上,实现风格一致的设计效果。支持从素描、油画到现代艺术等多种风格的复制,满足不同设计需求。在保持图像细节和质量的同时,快速生成与原始图像相似的设计作品。同时自动匹配和复制参考图像的颜色方案,确保新生成的图像在视觉上与原始图像保持一致。自动完成图像风格复制和再现,减少手动操作,提升处理速度。 网址:https://gpts123.ai/gpt/2a2e5fe8-ecb2-11ee-afef-0c42a12c1ba2 Minimalist Flat Icon Artist Minimalist Flat Icon Artist专注于创建极简风格的扁平化图标,使用简单的几何形状和色彩方案,确保图标在视觉上简洁清晰。确保所有生成的图标在风格、颜色和尺寸上保持一致,适合用于同一设计项目。用户可以根据需求自定义图标的颜色、大小和线条粗细,打造符合特定项目需求的图标。用户可以将常用图标保存到个人图标库,方便后续项目调用,提升设计效率。 网址:https://gpts123.ai/gpt/2ba81ff4-ecb2-11ee-afef-0c42a12c1ba2 Image Recreate | img2img Image Recreate利用AI技术将参考图像的风格迁移到其他图像上,生成具有新风格的创意作品。自动优化图像的细节,提升图像质量,适用于高清图像的重建和放大处理。通过对输入图像进行变形、扭曲和重构,生成独特的创意图像,适用于艺术创作和广告设计。也支持将多个图像的风格进行融合,生成具有多重视觉效果的作品,探索新的视觉表达。 网址:https://gpts123.ai/gpt/2a2e8014-ecb2-11ee-afef-0c42a12c1ba2 DALL·  3...
Midjourney 也得「站着敬酒」,AI 图片生成新王 Flux 怎么这么强?
Midjourney

Midjourney 也得「站着敬酒」,AI 图片生成新王 Flux 怎么这么强?

江山代有模型出,一代更比一代强。 就当人们以为 AI 图片生成领域战争已经基本结束时,又有一个新的模型团队出现,用自家产品将 Midjourney、DALL-E 挑落马下。 8 月初,初创公司 Black Forest Labs 横空出世,发布了拥有 120 亿参数的文本生成图像模型 Flux,随后迅速走红,被誉为 Stable Diffusion 的继承者,并与 Midjourney 直接对打。 从网上曝光的图片能看出,Flux 在生成人物、尤其是真实人物的场景中,图像已经非常接近真人实拍的效果。无论是人物的表情、皮肤光泽、发型、人物配饰等细节方面,都做到了接近完美。 更重要的是,Flux 开源其系列的一些模型,可以在一台配置不错的笔记本电脑上运行,这也意味着它会像 Stable Diffusion 一样,可以在多模型平台上找到并使用。 Black Forest Labs 宣称,其模型在图像质量和对文本提示的遵循度等方面,超过了现有的主流选择,如 Midjourney 和 DALL-E。 过去两年中,在 AI 图像生成市场,Midjourney、DALL-E 和 Stable Diffusion 和 Adobe Firefly 等一直在激烈竞争,Flux 凭什么一出来就能抢走风头,甚至被认为可能击败现有的其他模型? Flux,横空出世即走红...
我测试了Flux与Midjourney,看看哪个AI图像生成器更好
Midjourney

我测试了Flux与Midjourney,看看哪个AI图像生成器更好

关注公众号【真智AI】 TOP AI模型智能问答|绘图|识图|文件分析 每天分享AI教程、赚钱技巧和前沿资讯! Flux是由AI初创公司Black Forest Labs最近几周发布的人工智能图像生成器,它迅速成为同类中最强大和最受欢迎的工具之一,甚至与市场领导者Midjourney不相上下。与Midjourney不同,后者是一个封闭且付费的服务,仅由Midjourney公司提供,Flux则是一个开源模型,可以下载并在本地或各种平台上运行,如Freepik、NightCafe和Hugging Face。 为了确定Flux是否达到了Midjourney的照片真实感和准确的人物描绘水平,我设计了5个描述性提示,并在两个平台上运行它们。我使用通过Pinokio AI安装程序安装的ComfyUI来生成Flux图像。 创建提示词 Midjourney和Flux都依赖于描述性提示词。为了从模型中获得你想要的效果,最好描述不仅仅是人物,还要包括风格、光照和结构。 1. 厨师在厨房 Midjourney生成的厨师图像 Flux生成的厨师图像 第一个测试结合了生成复杂皮肤纹理和动态环境的需求——即专业厨房。提示要求描绘一位50多岁的女性,正在准备一顿饭。它还要求在背景中展示副厨师,并在“洁白无瑕的双排扣厨师夹克”上显示厨师的名字。 描述如下: 一位50多岁的资深女厨师正忙碌于专业厨房中。她的黑白相间的头发整齐地塞在洁白的厨师帽下,只有几缕发丝从鬓角处逃逸出来。她的脸上带有笑纹,显示出她在用木勺品尝酱汁时的专注神情。她的眼睛是温暖的棕色,稍微眯起,品味着调味。厨师穿着洁白的双排扣厨师夹克,胸前口袋上绣有她的名字。黑白格子裤和防滑木屐完成了她的专业装束。她围裙上五颜六色的酱汁污渍讲述着忙碌服务的故事。身后,厨房一片忙碌的景象。明亮的顶灯下,不锈钢表面闪闪发光,反映出晚餐服务的控制混乱。副厨师们穿着白色夹克,在工作站之间有条不紊地移动,蒸汽从工业炉上的锅里升腾。在前景中,大理石台面上散布着新鲜的香草和异国香料。附近堆放着一堆饱经风霜的烹饪书,暗示着厨师对她的技艺和不断学习的奉献。整体场景捕捉到了高端烹饪艺术的强度、精确度和激情。 赢家: Midjourney Midjourney因其主要角色的真实感获胜。虽然它并不完美,我更喜欢Flux图像的动态性,但挑战在于创造准确的人物形象,而Midjourney在这方面更接近,皮肤纹理更好。 2. 街头音乐家 Midjourney生成的街头音乐家图像 Flux生成的街头音乐家图像 下一个提示要求两个AI图像生成器展示一位30多岁的街头音乐家在繁忙的城市街角表演,沉浸在音乐的瞬间。提示的一部分要求包括一个欣赏的路人、吉他盒里的硬币,以及背景中模糊的城市生活。 描述如下: 一位30多岁的街头音乐家被定格在繁忙城市街角充满激情的表演瞬间。他的长长的黑色脏辫在空气中摇摆,有些落在他的脸上,其他则在他周围舞动。他的眼睛紧闭,眉头微微皱起,手指在一把旧的、深受喜爱的原声吉他上熟练地移动。音乐家穿着一件鲜艳的手工编织毛衣,毛衣由蓝色、绿色和紫色的拼布组成。它松松垮垮地挂在破旧的牛仔裤上,膝盖上有艺术性的补丁。他脚上穿着磨损的棕色皮靴,随着音乐的节奏轻轻敲击。多条彩色编织手链装饰着他的手腕,增强了他的波希米亚风格。他站在一条破旧的街道上,脚边是一个破旧的吉他盒,里面散落着欣赏的路人留下的硬币和钞票,以及几片落下的秋叶。背景中,城市生活在模糊的运动中展开:行人匆匆而过,黄色出租车在拥挤的街道上鸣笛,霓虹灯随着黄昏的到来开始闪烁。在前景中,一个孩子稍微失焦,拉着母亲的手,试图停下来听音乐。这个场景捕捉到了街头表演的原始能量和情感,背景是一个繁忙、冷漠的城市。 赢家: Midjourney Midjourney再次获胜,因为人物的真实感。v6.1的纹理质量再次使其略胜一筹。整体来说,图像在结构、布局和背景方面也更好。 3. 园丁 Midjourney生成的园艺图像 Flux生成的园艺图像 生成老年人图像对于AI图像生成器来说总是一个挑战,因为需要更复杂的皮肤纹理。在这个场景中,我们希望看到一位80多岁的女性在屋顶花园中照料植物。图像描绘了包括爬藤植物和傍晚金色阳光在内的场景元素,背景是城市天际线。 描述如下: 一位80多岁的老太太在繁忙的城市背景下,温柔地照顾她的屋顶花园里的植物。她银白色的头发扎成一个松散的发髻,有些发丝散落,勾勒出她慈祥的、布满皱纹的脸庞。她的蓝眼睛闪烁着满足的光芒,当她微笑着看着手中温柔捧着的一颗成熟的番茄时,显得格外温暖。她穿着一件柔和色彩的花卉图案连衣裙,上面罩着一件磨损的、土色的围裙。她穿着舒适的便鞋,戴着一顶宽边草帽。脖子上挂着一副老花镜的链子,随时准备在她需要查阅园艺日记时使用。她周围的屋顶变成了一个绿色的绿洲。高架床里满是各种蔬菜和花卉,形成了一个色彩斑斓的拼贴。藤蔓覆盖的棚架高高耸立,陶土盆里种满了香草,排列在边缘。一角还可见一个小型温室,玻璃面板反射着金色的晚霞光芒。背景中,城市天际线显得尤为宏大——混凝土和玻璃组成的森林,与这个充满活力的花园形成鲜明对比。夕阳洒下温暖的光芒,突出显示出茂盛的植物和这个女人脸上的宁静,她在她的都市伊甸园中找到了平静。 赢家: Midjourney Midjourney再次因为纹理质量而获胜。它在处理戴手套的手指时有些挣扎,但仍比Flux做得好。这并不意味着Flux的图像不好,但它不如Midjourney。 4. 紧急情况中的急救员 Midjourney生成的急救员图像 Flux生成的急救员图像...