ELLA :腾讯开源文生图扩散模型,一键运行,效果赶超DALL-E
Midjourney

ELLA :腾讯开源文生图扩散模型,一键运行,效果赶超DALL-E

ELLA(Efficient Large Language Model Adapter,高效大型语言模型适配器)由腾讯研究人员开发。该技术旨在提高文本到图像生成模型在处理复杂文本提示时的语义对齐能力。通过整合大型语言模型(LLM),ELLA极大增强了模型的文本对齐性能,而这一切无需对U-Net或LLM进行额外的训练。 ELLA的功能特性: 语义对齐增强:通过与大型语言模型(LLM)的结合,ELLA提升了扩散模型对文本提示中的多样对象、细节属性以及复杂关系的理解,生成与文本提示更加匹配的图像。时序感知语义提取:ELLA的Timestep-Aware Semantic Connector(TSC)模块能够根据扩散过程中的不同时间步骤动态提取语义信息,让模型在图像生成的不同阶段重点关注相应的文本内容。无需重新训练:ELLA的独特设计使其能够直接应用于现有的预训练LLM和U-Net模型,免除了额外训练的需求,节约了大量计算资源和时间。高度兼容性:ELLA能够无缝集成进现有的社区模型(例如Stable Diffusion)和下游工具(例如ControlNet),增强它们处理复杂文本提示时的性能。灵活的token长度:在 ELLA 的训练过程中,使用了长合成字幕,最大 token 数量设置为 128。在使用短字幕测试 ELLA 时,除了前面提到的字幕上采样技术外,还可以使用“flexible_token_length”技巧。这涉及将标记生成器设置max_length为None,从而消除任何文本标记填充或截断。我们观察到,这个技巧可以帮助提高与短标题相对应的生成图像的质量。 Github地址: https://github.com/TencentQQGYLab/ELLA ELLA的模型概述 扩散模型在文本到图像生成领域表现出了卓越的性能。然而,这些模型中的大多数仍然使用 CLIP 作为文本编码器,这限制了它们理解密集提示的能力,这些提示包含多个对象、详细属性、复杂关系、长文本对齐等。在本文中,我们引入了E高效的大型语言模型适配器,称为 ELLA,它为文本到图像的扩散模型配备了强大的大型语言模型 (LLM),以增强文本对齐 没有接受过 U-Net 或 LLM 的培训。为了无缝桥接两个预训练模型,我们研究了一系列语义对齐连接器设计,并提出了一个新颖的模块,即时间步感知语义连接器(TSC),它可以从 LLM 中动态提取与时间步相关的条件。我们的方法适应去噪过程不同阶段的语义特征,协助扩散模型解释采样时间步长的冗长而复杂的提示。此外,ELLA 可以轻松地与社区模型和工具结合,以提高其提示跟踪能力。为了评估密集提示跟踪中的文本到图像模型,我们引入了密集提示图基准(DPG-Bench),这是一个由 1K 密集提示组成的具有挑战性的基准。大量实验证明,与最先进的方法相比,ELLA 在密集提示跟踪方面具有优越性,特别是在涉及不同属性和关系的多个对象组合中。 我们提出了一种新颖的轻量级方法 ELLA,为现有的基于 CLIP 的扩散模型配备强大的 LLM。无需经过 U-Net 和 LLM 的训练,ELLA 就可以提高提示跟随能力,并实现文本到图像模型的长密集文本理解。...
为什么Midjourney可以成为虚拟宇宙的关键支柱?
Midjourney

为什么Midjourney可以成为虚拟宇宙的关键支柱?

来源:币界网平台 币界网报道: 作者:William M. Peaster,Bankless;编译:白水, 智能开放元宇宙的兴起——我称之为人工智能、加密货币和虚拟现实的十字路口——将导致未来几十年文化活动的爆炸式增长。 也就是说,当今人工智能领域的一大明星是 Midjourney,其技术提供了一些目前最令人惊叹的文本到图像功能。 不过,Midjourney 团队也已经开始考虑 VR 和实时世界模拟,即生成栩栩如生的数字空间。 这些类型的生成环境有很多潜在的用例,并且可以为围绕大片智能开放元宇宙提供基础。 说到AI文本转图像模型,目前的三大巨头是DALL·E 3、Stability Diffusion和Midjourney。 我不断修改并尝试与这三个(坦率地说令人难以置信的)工具保持同步,而在Midjourney巨头中,我最喜欢的关注者之一 Nick St. Pierre 是一位创意总监、人工智能奇才,他是Midjourney在技巧、更新等方面的重要资源。 话虽如此,Nick最近的一条推文确实引起了我的兴趣。 在其中,他引用了他们最近一次办公时间会议中的一段话,强调了 Midjourney 团队即将推出的计划: “我们确实在努力实现世界模拟。我们正在构建 3D Midjourney 、视频Midjourney 和实时Midjourney ,其中事物移动得非常非常快。 把它们放在一起,你就有了一个世界模拟。 我们的目标是分别构建这三件事,然后将它们整合在一起…… ……它将更像是一个沙箱。 人们会在里面制作视频游戏,人们会在里面拍摄电影,目标是构建开放世界沙盒。” 这是一个重大新闻,因为它让我们得以一睹未来的风采,在未来,复杂的虚拟体验将通过简单的提示根据命令生成。 这种“无代码”用户体验转变将开启并彻底改变许多虚拟空间的制作和体验,从而导致新型虚拟工作和娱乐的可能性爆炸式增长。 文本到图像的人工智能模型是这里的第一个重大解锁。 下一步是文本到视频和图像到视频的工作,例如 OpenAI 的 Sora 和 Midjourney Video。 实时世界模拟是随之而来的圣杯。 所以最大的问题是,Midjourney能否成功? 我想是这样。 Midjourney...
ChatGPT图像生成测试:DALL-E秘密升级?
Midjourney

ChatGPT图像生成测试:DALL-E秘密升级?

关注公众号【真智AI】 zzGPT4智能问答|绘图|识图|文件分析 每天分享AI教程、赚钱技巧和前沿资讯! 近期,我日常使用的ChatGPT的图像生成功能,似乎获得了一次未公开的升级。尽管OpenAI没有发布任何更新说明,我发现DALL-E 3在渲染文本方面显著提升了能力。下面,我用7个有挑战性的提示词对其进行了测试。 1. 魔法药水配方卷轴 提示词: “一张古代卷轴展开在木桌上,周围摆放着龙鳞和凤凰羽毛等神秘材料。卷轴上的文字是“永恒智慧药水”以及详细的、充满奇幻色彩的说明和插图。” 结果显示,尽管有一些双字母和重复问题,DALL-E 3能够呈现出顶标题和多个小标题。 2. 时光咖啡馆菜单 提示词: “一个舒适的咖啡馆,菜单板显示来自不同时代的“今日特价”,如“中世纪蜂蜜酒”、“维多利亚风味司康饼”和“未来融合奶昔”。顾客穿着不同年代的服装享受他们的独特美食。” DALL-E 3表现良好,但在顶部菜单上有重复的“维多利亚风味司康饼”。 3. 外星人漫画封面 提示词: “一本名为《银河守护者》的动态漫画封面, featuring多样化的外星超级英雄。标题醒目且闪亮,还有其他文字如“第1期-入侵开始!”和“特别版”。” 它轻松渲染了标题、副标题,甚至是期号,但整体更像海报而非漫画封面。 4. 机器人蓝图注释 提示词: “一张详细的机器人蓝图,附有手绘注释。标签标注了“反重力靴”、“激光视觉”和“幽默芯片”等功能,周围有幽默的旁注和素描。” 尽管有些重复,但DALL-E 3的表现超出预期,蓝图中的文字清晰可辨。 5. 蒸汽朋克时间旅行者的日记 提示词: “一本打开的日记,里面充满了精致的蒸汽朋克发明素描、地图和笔记。页上的文字包括“未来之旅-3024 AD”和“发明创意:蒸汽动力时间机器”。” 虽然书被放在了一张看起来像书的桌子上,但它成功地渲染了文本和风格。 6. 奇幻食谱书页 提示词: “一本奇幻食谱书的页面,标题为《魔法烹饪》。食谱是“仙尘蛋糕”,材料包括“一杯星尘”和“两茶匙月光”。页面上有蛋糕和魔法厨房工具的插图。” 尽管在下方出现问题,标题和首个材料都得到了正确渲染,比预期要好。 7. 虚构目的地的复古旅行海报 提示词: “一张复古风格的旅行海报,宣传“参观漂浮岛屿”。海报展示了漂浮岛屿的壮丽景色,文字包括旅行详情和一个引人注目的口号如“高空冒险等着你!”。” 海报的标题、副标题和次级标题都被完美呈现。 最终评测...
文生图技术的天花板:从Midjourney到Stable Diffusion 3的全面解析
Midjourney

文生图技术的天花板:从Midjourney到Stable Diffusion 3的全面解析

想象一下,你只需动动嘴,就能把脑海中的画面变成现实,这听起来是不是很神奇?这就是文生图技术的神奇之处!近年来,文生图(Text-to-Image)技术在人工智能领域的热度持续攀升。这项技术通过自然语言描述生成高质量的图像,结合了自然语言处理(NLP)和计算机视觉(CV)两大领域,在艺术创作、广告设计、虚拟现实等多个领域展现出广泛的应用前景。今天,我们将带你深入了解两大流行工具Midjourney和Stable Diffusion,以及最新的Stable Diffusion 3版本的安装和使用方法。 第一章:Midjourney vs Stable Diffusion,你选哪一个? Midjourney和Stable Diffusion都是目前最流行的AI图像生成工具,它们都可以根据文字描述(prompt)生成令人惊叹的图像。 Midjourney 平台:主要在Discord服务器上运行,需要注册Discord账号并加入Midjourney服务器才能使用。 使用方式:通过输入 /imagine 命令和文字描述生成图像。风格倾向:擅长生成梦幻、艺术性、富有想象力的图像,风格独特。操作简便性:相对容易上手,对新手友好,但参数控制较少。商业化:付费订阅制,根据订阅等级提供不同的功能和使用权限。 Stable Diffusion 平台:开源软件,可以在本地电脑、云端服务器或在线平台上运行。使用方式:需要一定的技术基础,下载安装软件或配置环境,并学习使用代码或界面进行操作。风格倾向:风格多样化,可根据训练数据集和参数调整生成不同风格的图像。操作简便性:操作相对复杂,需要一定的学习成本,但参数控制精细,可定制化程度高。商业化:开源免费,可以自由使用和修改,但也有一些商业化版本和服务。 对比总结 Midjourney 和 Stable Diffusion 各有优势。前者更侧重于艺术创作和广告设计,提供多样化风格和快速生成的能力;后者则以高分辨率、稳定性和扩展性见长,适用于科学研究、游戏影视和虚拟现实等领域。根据具体需求和应用场景选择合适的技术,可以更好地发挥它们的优势。 当然,费用也是考虑的因素,Midjourney需要每月支付订阅费,而Stable Diffusion则是完全开源免费,可实现本地电脑部署。 第二章:Stable Diffusion 3的进化与应用 Stable Diffusion 发展迅速,从基础的1.0版本到高性能的2.0和2.1版本,再到扩展性强的XL版本和轻量化的Lite版本,已经上月刚推出的SD3。Stable Diffusion 为文本生成图像提供了多种解决方案,满足了不同的技术需求和应用场景。不同版本的对比,如下图所示。 除了官方版本,Stable Diffusion 强大的开源特性催生了众多社区爱好者和研究者在其基础上进行改进和优化,衍生出各种各样的Checkpoint模型,例如: Anything v3: 以生成二次元人物和场景著称,画风精美,细节丰富。ChilloutMix: 擅长生成亚洲人像,人物真实自然。Deliberate: 风格更加写实,擅长生成细节丰富的场景和物体。Realistic Vision: 专注于生成高度写实的图像。 为了让更多用户能够在低配置设备上体验 Stable...