为什么Midjourney可以成为虚拟宇宙的关键支柱?
Midjourney

为什么Midjourney可以成为虚拟宇宙的关键支柱?

来源:币界网平台 币界网报道: 作者:William M. Peaster,Bankless;编译:白水, 智能开放元宇宙的兴起——我称之为人工智能、加密货币和虚拟现实的十字路口——将导致未来几十年文化活动的爆炸式增长。 也就是说,当今人工智能领域的一大明星是 Midjourney,其技术提供了一些目前最令人惊叹的文本到图像功能。 不过,Midjourney 团队也已经开始考虑 VR 和实时世界模拟,即生成栩栩如生的数字空间。 这些类型的生成环境有很多潜在的用例,并且可以为围绕大片智能开放元宇宙提供基础。 说到AI文本转图像模型,目前的三大巨头是DALL·E 3、Stability Diffusion和Midjourney。 我不断修改并尝试与这三个(坦率地说令人难以置信的)工具保持同步,而在Midjourney巨头中,我最喜欢的关注者之一 Nick St. Pierre 是一位创意总监、人工智能奇才,他是Midjourney在技巧、更新等方面的重要资源。 话虽如此,Nick最近的一条推文确实引起了我的兴趣。 在其中,他引用了他们最近一次办公时间会议中的一段话,强调了 Midjourney 团队即将推出的计划: “我们确实在努力实现世界模拟。我们正在构建 3D Midjourney 、视频Midjourney 和实时Midjourney ,其中事物移动得非常非常快。 把它们放在一起,你就有了一个世界模拟。 我们的目标是分别构建这三件事,然后将它们整合在一起…… ……它将更像是一个沙箱。 人们会在里面制作视频游戏,人们会在里面拍摄电影,目标是构建开放世界沙盒。” 这是一个重大新闻,因为它让我们得以一睹未来的风采,在未来,复杂的虚拟体验将通过简单的提示根据命令生成。 这种“无代码”用户体验转变将开启并彻底改变许多虚拟空间的制作和体验,从而导致新型虚拟工作和娱乐的可能性爆炸式增长。 文本到图像的人工智能模型是这里的第一个重大解锁。 下一步是文本到视频和图像到视频的工作,例如 OpenAI 的 Sora 和 Midjourney Video。 实时世界模拟是随之而来的圣杯。 所以最大的问题是,Midjourney能否成功? 我想是这样。 Midjourney...
ChatGPT图像生成测试:DALL-E秘密升级?
Midjourney

ChatGPT图像生成测试:DALL-E秘密升级?

关注公众号【真智AI】 zzGPT4智能问答|绘图|识图|文件分析 每天分享AI教程、赚钱技巧和前沿资讯! 近期,我日常使用的ChatGPT的图像生成功能,似乎获得了一次未公开的升级。尽管OpenAI没有发布任何更新说明,我发现DALL-E 3在渲染文本方面显著提升了能力。下面,我用7个有挑战性的提示词对其进行了测试。 1. 魔法药水配方卷轴 提示词: “一张古代卷轴展开在木桌上,周围摆放着龙鳞和凤凰羽毛等神秘材料。卷轴上的文字是“永恒智慧药水”以及详细的、充满奇幻色彩的说明和插图。” 结果显示,尽管有一些双字母和重复问题,DALL-E 3能够呈现出顶标题和多个小标题。 2. 时光咖啡馆菜单 提示词: “一个舒适的咖啡馆,菜单板显示来自不同时代的“今日特价”,如“中世纪蜂蜜酒”、“维多利亚风味司康饼”和“未来融合奶昔”。顾客穿着不同年代的服装享受他们的独特美食。” DALL-E 3表现良好,但在顶部菜单上有重复的“维多利亚风味司康饼”。 3. 外星人漫画封面 提示词: “一本名为《银河守护者》的动态漫画封面, featuring多样化的外星超级英雄。标题醒目且闪亮,还有其他文字如“第1期-入侵开始!”和“特别版”。” 它轻松渲染了标题、副标题,甚至是期号,但整体更像海报而非漫画封面。 4. 机器人蓝图注释 提示词: “一张详细的机器人蓝图,附有手绘注释。标签标注了“反重力靴”、“激光视觉”和“幽默芯片”等功能,周围有幽默的旁注和素描。” 尽管有些重复,但DALL-E 3的表现超出预期,蓝图中的文字清晰可辨。 5. 蒸汽朋克时间旅行者的日记 提示词: “一本打开的日记,里面充满了精致的蒸汽朋克发明素描、地图和笔记。页上的文字包括“未来之旅-3024 AD”和“发明创意:蒸汽动力时间机器”。” 虽然书被放在了一张看起来像书的桌子上,但它成功地渲染了文本和风格。 6. 奇幻食谱书页 提示词: “一本奇幻食谱书的页面,标题为《魔法烹饪》。食谱是“仙尘蛋糕”,材料包括“一杯星尘”和“两茶匙月光”。页面上有蛋糕和魔法厨房工具的插图。” 尽管在下方出现问题,标题和首个材料都得到了正确渲染,比预期要好。 7. 虚构目的地的复古旅行海报 提示词: “一张复古风格的旅行海报,宣传“参观漂浮岛屿”。海报展示了漂浮岛屿的壮丽景色,文字包括旅行详情和一个引人注目的口号如“高空冒险等着你!”。” 海报的标题、副标题和次级标题都被完美呈现。 最终评测...
文生图技术的天花板:从Midjourney到Stable Diffusion 3的全面解析
Midjourney

文生图技术的天花板:从Midjourney到Stable Diffusion 3的全面解析

想象一下,你只需动动嘴,就能把脑海中的画面变成现实,这听起来是不是很神奇?这就是文生图技术的神奇之处!近年来,文生图(Text-to-Image)技术在人工智能领域的热度持续攀升。这项技术通过自然语言描述生成高质量的图像,结合了自然语言处理(NLP)和计算机视觉(CV)两大领域,在艺术创作、广告设计、虚拟现实等多个领域展现出广泛的应用前景。今天,我们将带你深入了解两大流行工具Midjourney和Stable Diffusion,以及最新的Stable Diffusion 3版本的安装和使用方法。 第一章:Midjourney vs Stable Diffusion,你选哪一个? Midjourney和Stable Diffusion都是目前最流行的AI图像生成工具,它们都可以根据文字描述(prompt)生成令人惊叹的图像。 Midjourney 平台:主要在Discord服务器上运行,需要注册Discord账号并加入Midjourney服务器才能使用。 使用方式:通过输入 /imagine 命令和文字描述生成图像。风格倾向:擅长生成梦幻、艺术性、富有想象力的图像,风格独特。操作简便性:相对容易上手,对新手友好,但参数控制较少。商业化:付费订阅制,根据订阅等级提供不同的功能和使用权限。 Stable Diffusion 平台:开源软件,可以在本地电脑、云端服务器或在线平台上运行。使用方式:需要一定的技术基础,下载安装软件或配置环境,并学习使用代码或界面进行操作。风格倾向:风格多样化,可根据训练数据集和参数调整生成不同风格的图像。操作简便性:操作相对复杂,需要一定的学习成本,但参数控制精细,可定制化程度高。商业化:开源免费,可以自由使用和修改,但也有一些商业化版本和服务。 对比总结 Midjourney 和 Stable Diffusion 各有优势。前者更侧重于艺术创作和广告设计,提供多样化风格和快速生成的能力;后者则以高分辨率、稳定性和扩展性见长,适用于科学研究、游戏影视和虚拟现实等领域。根据具体需求和应用场景选择合适的技术,可以更好地发挥它们的优势。 当然,费用也是考虑的因素,Midjourney需要每月支付订阅费,而Stable Diffusion则是完全开源免费,可实现本地电脑部署。 第二章:Stable Diffusion 3的进化与应用 Stable Diffusion 发展迅速,从基础的1.0版本到高性能的2.0和2.1版本,再到扩展性强的XL版本和轻量化的Lite版本,已经上月刚推出的SD3。Stable Diffusion 为文本生成图像提供了多种解决方案,满足了不同的技术需求和应用场景。不同版本的对比,如下图所示。 除了官方版本,Stable Diffusion 强大的开源特性催生了众多社区爱好者和研究者在其基础上进行改进和优化,衍生出各种各样的Checkpoint模型,例如: Anything v3: 以生成二次元人物和场景著称,画风精美,细节丰富。ChilloutMix: 擅长生成亚洲人像,人物真实自然。Deliberate: 风格更加写实,擅长生成细节丰富的场景和物体。Realistic Vision: 专注于生成高度写实的图像。 为了让更多用户能够在低配置设备上体验 Stable...
一发布就失望?Stable Diffusion 3有什么大问题
Midjourney

一发布就失望?Stable Diffusion 3有什么大问题

前不久,StabilityAI发布了开源的StableDiffusion 3Medium,让各大探索AI的网友们兴奋不已,毕竟SD1.5、SDXL的发布已经带来了很多震撼,这次的SD3更是期待拉满,很多网友都在开源的第一时间去下载,然而体验似乎并没有StabilityAI所说的那么神。 在一开始的宣传中,StabilityAI表示SD3已经能生成文字,但目前只能生成英文,中文还无法识别,而且最重要的是,SD3似乎在人物生成上开了倒车,对于人画像的生成,SD3经常产出畸形的人物形态,特别是人的四肢、手脚方面的错误,整体体验还不如上一代模型。 也就是说,只要不生成人物的四肢,SD3模型在局部画面上的表现还是很精致的,在物品和动物的生成上,SD3也基本没有什么问题,对于复杂的长提示词也有着很高的识别率,但是就是画不好四肢健全的人类,在这方面反而退化了一般,引起了很多人的不解。 国外论坛Reddit用户则分析称,表示SD3的人体四肢理解错误,是因为在训练时,开发者过多干预内容,设置过滤限制级内容,而且通过的条件非常苛刻,从而导致AI识别错误,一些正常的图片也因此被识别为限制级内容,因此在公开的SD3模型中,人体的效果因为训练不足而导致畸形。 这就解释了,为什么SD3并未翻起很大风浪,因为除了会识别英文外,最主要的人体识别反而开了倒车,原本在解决手部问题,这下子演变成了还要解决四肢的问题,需要很长的提示词去修复,但对于非人类,SD3的效果还是出奇的好,细节都很到位,也遵循物理规则,可惜这一版本并不完美。 当然这也许和StabilityAI陷入困境有关,在此之前,公司财务状况并不佳,且ceo辞职,曾经的主要成员也离开,加上裁员风波,如今能推出SD3也是不容易,更有网友表示公司内部混乱,如今不成熟的SD3就是证明,但终究它还是推出了,并且开源了,这都遵守了之前的承诺,也许只是单纯的出错了呢?(图为StableDiffusion 3 模型架构) 但这也只是个中杯的SD3,也就是说后续还有大杯和小杯的推出,也许要经历过这次问题后,StabilityAI会对训练数据进行修改,完善出更好的SD3也说不定,而且现在也有SD1.5与SDXL的在持续创作与使用,如果修改后的SD3能在SDXL的基础上再进步,那就值得赞赏,当然SD3如果支持其他语言的理解那就更好了 目前SD3模型还暂时只支持ComfyUI,想要体验的网友可以下载ComfyUI进行尝试,虽然SD3开源的为中杯版本,但对于显卡的要求,还是比较推荐大显存会更好,因此我们推荐使用影驰RTX4070 Ti SUPER星曜OC显卡。 影驰RTX4070 Ti SUPER星曜OC显卡,相比于4070Ti,显存上为更大的16GBGDDR6X,并且核心性能也得到了加强,无论是AI创作者还是游戏玩家,都能感受到明显的提升,同时16GB显存也是非常适合AI软件运行,是一款不容错过的高性能大显存的显卡,如果你对这张显卡感兴趣,欢迎前往影驰官方商城挑选~ (8801617)