工具&提示词设计生产力大提升

AIGC前沿驾驭AI

Stable Diffusion:探索深度学习中的稳定扩散模型
Midjourney

Stable Diffusion:探索深度学习中的稳定扩散模型

Stable Diffusion:探索深度学习中的稳定扩散模型 在人工智能和深度学习的浪潮中,生成模型已成为一种强大的工具,能够模拟和生成类似于真实世界的数据。其中,扩散模型(Diffusion Models)近年来备受关注,尤其是Stable Diffusion,一种先进的扩散模型,以其高效、稳定和高质量的数据生成能力而脱颖而出。本文将深入探讨Stable Diffusion的原理、应用以及未来发展前景。 一、Stable Diffusion的基本原理 Stable Diffusion属于扩散模型的一种,它的基本原理是通过模拟扩散过程来生成与训练数据相似的新数据。扩散模型的工作原理可以分为几个关键步骤。 首先是初始化阶段,给定一个原始数据集,这可能是图像、文本或其他类型的数据。接着是扩散过程,在这个过程中,模型会逐渐地将数据向原始数据集的中心值靠近。这个过程通过“扩散器”函数来实现,它接收当前数据值和一个小噪声项,然后输出一个新的数据值。这个过程会重复多次,直到数据值接近原始数据集的中心值。 完成扩散过程后,模型会生成一个新的数据样本,这个样本会继承原始数据集的特征。为了提高生成数据的质量,Stable Diffusion还引入了反向扩散过程,该过程与正向扩散类似,但使用的是不同的扩散器。通过反向扩散,生成的数据可以更接近原始数据集的分布。 为了提高生成数据的多样性和平衡性,扩散过程可以多次重复,并使用不同的扩散器和噪声参数。此外,优化模型的损失函数和训练参数也可以进一步提高生成数据的质量。 二、Stable Diffusion的应用领域 Stable Diffusion的灵活性和高效性使其在多个领域都有广泛的应用。 图像生成:Stable Diffusion在图像生成方面表现出色。通过逐步揭示图像中的细节和纹理,它能够生成高度逼真的图像,包括自然景观、人脸、艺术作品等。这种技术在艺术创作、电影特效和游戏开发中具有巨大的潜力。图像修复和增强:利用Stable Diffusion,可以从损坏或模糊的图像中恢复出清晰的图像。在图像恢复、医学图像处理和摄影后期处理中,这一技术有着重要应用。图像去噪:Stable Diffusion还可以用于去除图像中的噪声,通过逐步减小噪声的影响来提高图像的质量和清晰度。这在图像处理、计算机视觉任务的前处理步骤中非常有用。图像插值和超分辨率:通过逆向扩散过程,Stable Diffusion能够从低分辨率图像生成高分辨率图像,提高图像的细节和清晰度。这在图像重建、视频处理和监控图像增强等领域有着广泛的应用前景。 三、Stable Diffusion与AI绘画 在AI绘画领域,Stable Diffusion技术同样展现出了强大的潜力。通过与神经网络模型相结合,Stable Diffusion可以实现对图像的自动绘制。具体来说,它首先生成一些随机噪声图像作为神经网络的输入,然后通过神经网络的训练和学习,逐渐将这些噪声图像转化为具有艺术效果的图像。 这种方法不仅可以用于生成传统的艺术形式,如油画、水彩画和铅笔画,还可以创造出全新的艺术形式,如抽象画和立体画。Stable Diffusion的应用极大地丰富了AI绘画的技术手段和艺术表现力。 四、技术实现与挑战 Stable Diffusion的技术实现主要基于深度学习技术,包括图像识别、卷积神经网络和生成对抗网络等。通过对已有的绘画作品进行图像识别和数据分析,学习绘画风格和色彩特征,然后使用生成对抗网络进行图像生成和优化,从而实现高度逼真的绘画效果。 然而,尽管Stable Diffusion取得了显著的进步,但仍面临一些挑战。例如,如何平衡生成数据的多样性和质量,如何进一步提高生成速度以满足实时应用的需求,以及如何在保证数据隐私和安全的前提下进行有效的模型训练等。 五、未来展望 随着人工智能技术的不断发展,Stable Diffusion有望在更多领域发挥其优势。在艺术创作领域,艺术家可以利用Stable Diffusion来辅助绘画,提高创作效率和作品质量。在影视特效和游戏设计领域,Stable Diffusion也将为角色设计和场景绘制带来更高的视觉效果。 此外,随着技术的不断进步,我们期待Stable Diffusion能够在更多领域实现创新应用,如虚拟现实、增强现实以及数字孪生等领域。同时,随着模型的不断优化和改进,Stable Diffusion有望在未来实现更高效、更稳定、更逼真的数据生成效果。 六、结论 Stable Diffusion作为一种先进的扩散模型,在深度学习领域展现出了巨大的潜力。其稳定、高效和高质量的数据生成能力使其在多个领域具有广泛的应用前景。随着技术的不断发展和优化,我们期待Stable...
AI视频生成狂卷!4人小团队造出Sora竞品,耗费数千块GPU,已开放公测

AI视频生成狂卷!4人小团队造出Sora竞品,耗费数千块GPU,已开放公测

智东西 编译 |  徐豫 编辑 |  漠影 智东西8月22日消息,据VentureBeat 8月20日报道,AI初创公司Hotshot的同名文生视频模型“Hotshot”开放公测,用户可以访问Hotshot.co官网使用该模型,现阶段每人每天有两次免费创作机会。 Hotshot模型由4人小团队用数千块GPU训练而成,可以生成10秒以内不同主题的视频,耗时短、清晰度高、操作界面简洁。与主流的AI文生视频模型相比,Hotshot公测版兼顾视频生成效率和稳定性的同时,视频风格更丰富,生态也更加开放,可生成无水印视频。 ▲可用Hotshot生成风格多样的视频(图源:Hotshot) Hotshot成立于2023年,联合创始人为Aakash Sastry、John Mullan和Duncan Crawbuck。这三位公司创始人已有11年的消费级应用开发经验,并从Lachy Groom、Alexis Ohanian、SV Angel等人那里获得了资金支持。 体验地址:https://hotshot.co/ 一、最长10秒,清晰度720p,可定制动漫效果 Hotshot文生视频模型是一款Transformer扩散模型,其最新版本可根据文字描述生成一段最长10秒、清晰度为720p的视频。 例如,在Hotshot中输入“柯基坐在学校教室里”,我们可以得到,两只毛发分明顺滑的柯基,身穿不同花色、样式的衣服,坐在木色椅子上东张西望,柯基身后是写有粉笔字的黑板,而黑板旁有一个陈列地球仪等教具的展示柜,整体拍摄视角不断推进的一段视频。 ▲Hotshot根据文本“柯基坐在学校教室里”AI生成的视频(图源:Hotshot) 除了模拟真实的人物、场景、风景,用户还可以用Hotshot制作动漫、逐帧动画、特效等风格化视频。 Hotshot生成的一段视频中,一位金发年轻男子,身穿蓝色衬衫和深色裤子,坐在客厅的黄色沙发上,玩着手持电子游戏,客厅布置了绿植、挂画。视频画面配色鲜艳、笔触粗犷,呈现出50年代的复古漫画风格。 ▲Hotshot可以风格化处理视频(图源:Hotshot) 二、4个人耗时4个月,投入6亿段素材,花费几千块GPU 这样一个“类Sora”的文生视频模型,Hotshot仅靠团队4人,耗时4个月,便完成了该模型的训练工作。 据Hotshot介绍,最新版的文生视频模型在训练中投入了6亿段视频及音频素材、几千块GPU,高强度的模型训练常常导致NVIDIA H100 GPU出现故障,“机房差点着火”。为了让模型不偏离预期方向,团队成员一个月都没有休息,轮流监控训练结果。 3位创始人和新成员Chaitu Aluru还开发了一个新的自动编码器,在“空间”和“时间”上压缩视频内容,而非折损视频质量和相关数据,从而更高效地训练长序列视频。 三、过去一年多,Hotshot模型3次升级换代 Hotshot曾推出过AI文生图应用和两代AI文生视频模型,可惜未能激起较大的水花。 去年,Hotshot上线了同名消费级AI文生图应用,用户可以免费用Hotshot生成和修改照片,但该应用可能已被下架。 后续Hotshot推出了AI文生视频模型Hotshot-XL,并开源。该模型可以生成时长1秒,帧率8fps的视频。当时,Hotshot-XL的月活用户超2万人次。Hotshot Act-One则是Hotshot-XL的升级版,拓展了AI视频生成的时长上限。Hotshot Act-One模型可制作时长3秒,帧率同为8fps的视频。 Hotshot联合创始人Sastry在社交媒体X的帖子中写道,Hotshot是“目前最先进的公开模型”,十多年以来,我们首次能够为用户提供“强大且新颖的”AI文生视频功能,而这仅仅是一个开始。 结语:AI文生视频模型很卷,但还没有绝对的赢家 在Sastry看来,未来一年内,YouTube将被多模态生成式AI作品“刷屏”,AI文生图、文生视频、文生音频、图生视频等创作方式,将成为数字媒体上的常态。 市面上AI视频生成模型和应用的竞争也愈发激烈。AI视频创企Runway ML的Gen-3 Alpha Turbo、AI大模型独角兽OpenAI尚未公开的Sora、3D建模与视觉AI公司Luma的Dream...
高达系列45周年纪念插画第3弹,UC场景亮相,独角兽果然是亲儿子

高达系列45周年纪念插画第3弹,UC场景亮相,独角兽果然是亲儿子

关注 | 星标 为了保证我们每天准时相见,请记得关注&星标我们哦~ 2024来稿有奖,奖励升级,欢迎大家投稿拿奖!【点此投稿】! 欢迎大家投稿自己的新作、教程、视频。小编每月将从已采纳的来稿中抽出一名送出一盒MG/RG/HG系列拼装模型,优质来稿还有特殊权利哦!投稿邮箱:hobbyss@qq.com 微信:hobbyss;投稿前请先到公众号菜单查看《投稿须知》。 标签 | 资讯、插画 为纪念2024年高达系列45周年而全新绘制的官方纪念插画第3弹昨天放出来的,这次的第三张纪念插画是以《机动战士高达UC》第5话中主角巴纳吉救奥黛丽的场景为背景绘制的,而且背景上面也有月亮,前两张插画对比可以发现,月亮正在逐渐变圆。而 高达系列45周年纪念插画的第四张目前还在保留悬念,不知道最终会选择哪个动画场景。 下面再来回顾一下前面两张高达 45周年纪念插画的,第一弹是元祖拿光束军刀的经典姿势(又是右手拔左边)。 第二张则是来自SEED的场景,毕竟今年的SEED剧场版确实也相当受欢迎。 —HOBBYSS| — 来自无限正义的提醒!不要在地铁跷二郎腿! 如果《高达:口袋里的战争》是另一种结局,停止战斗吧! 用水星MS组成机械宝可梦,机械多龙巴鲁托! 以机动性见长的高达MKV,GK制作分享 文章原创声明 《Hobbyss高达模型》,请大家尊重公众号的作者、编辑、翻译,请勿亵渎他们辛苦付出的汗水和努力,对于本公众号的原创文章,若需要转载权,请及时联系本公众号运营人员。如发现私自转载和收录的行为,本公众号运营主体将全力追责。返回搜狐,查看更多 责任编辑:
DALL-E如何推动创意革命
Midjourney

DALL-E如何推动创意革命

每隔几年,就会出现一种技术,将世界整齐地分成前后。我记得我第一次看到YouTube视频嵌入在网页上;我第一次在设备之间同步Evernote文件;我第一次浏览附近人的推文,看看他们对我参加的音乐会有什么看法。 我记得我第一次Shazam写了一首歌,召唤了一辆Uber,并使用Meerkat直播了自己。我认为,使这些时刻脱颖而出的是,一些不可预测的新可能性已经被解锁了。当您可以轻松添加视频剪辑时,网络会变成什么样子?什么时候可以从云端将任何文件召唤到手机?什么时候你可以向世界广播自己? 自从我看到那种新兴的技术以来,已经有几年了,这种技术让我打电话给我的朋友说:你必须看到这个。但本周我做到了,因为我有一个新的要添加到列表中。这是一个名为DALL-E的图像生成工具,虽然我对它最终将如何被使用知之甚少,但它是我开始撰写本新闻稿以来我看到的最引人注目的新产品之一。 从技术上讲,所讨论的技术是DALL-E 2。它是由OpenAI创建的,OpenAI是一家拥有七年历史的旧金山公司,其使命是创建一种安全有用的人工通用智能。OpenAI在其领域已经众所周知,它创建了GPT-3,GPT-3是一种从简单提示生成复杂文本段落的强大工具,以及Copilot,一种帮助软件工程师自动编写代码的工具。 DALL-E是超现实主义者萨尔瓦多·达利(Salvador Dalí)和皮克斯(Pixar)的WALL-E的波特曼托(PORTMANTEAU),它采用文本提示并从中生成图像。2021年1月,该公司推出了该工具的第一个版本,仅限于256×256像素的正方形。 但第二个版本在四月份进入了私人研究测试阶段,感觉就像是一个彻底的飞跃。这些图像现在是1,024 x 1,024像素,可以结合新技术,如“内画” – 用另一个替换图像的一个或多个元素。(想象一下,在碗里拍一张橙子的照片,然后用苹果代替它。DALL-E在理解物体之间的关系方面也有所提高,这有助于它描绘越来越奇妙的场景——考拉扣篮打篮球,宇航员骑马。 几周来,DALL-E生成的图像线程一直在占据我的Twitter时间线。在我思考了我可能会用这项技术做些什么之后——也就是说,浪费无数个小时在它上面——OpenAI的一个非常好的人怜悯我,邀请我参加私人研究测试版。一位发言人今天告诉我,现在有访问权限的人数只有数千人。该公司希望每周增加1000人。 创建帐户后,OpenAI使您同意DALL-E的内容政策,该政策旨在防止平台的大多数明显潜在滥用行为。不允许仇恨,骚扰,暴力,性或裸体,公司还要求您不要创建与政治或政治家相关的图像。(这里似乎值得注意的是,OpenAI的联合创始人中有埃隆·马斯克(Elon Musk),他对Twitter的一套限制性要小得多的政策感到愤怒。他于2018年离开了董事会。 DALL-E还通过将关键字(例如“拍摄”)添加到阻止列表中来防止许多潜在的图像创建。您也不允许使用它来创建旨在欺骗的图像 – 不允许使用深度伪造。虽然没有禁止尝试根据公众人物制作图像,但未经许可,您不能上传人物的照片,并且该技术似乎稍微模糊了大多数面孔,以清楚地表明这些图像已纵。 一旦你同意了这一点,你会看到DALL-E令人愉快的简单界面:一个文本框,邀请你创建你能想到的任何东西,内容政策允许。想象一下,使用谷歌搜索栏就像Photoshop一样 – 那就是DALL-E。DALL-E从搜索引擎中借用了一些灵感,包括一个“给我惊喜”按钮,该按钮根据过去的成功,用建议的查询预先填充文本。我经常用它来尝试我可能从未考虑过的艺术风格的想法 – 例如“微距35mm照片”或像素艺术。 对于我的每个初始查询,DALL-E大约需要15秒才能生成10张图像。(本周早些时候,图像的数量减少到六个,以允许更多的人访问。几乎每一次,我都会发现自己大声咒骂,嘲笑结果有多好。 例如,这是“一只打扮成消防员的柴犬”的结果。 这是一个来自“一只打扮成巫师的斗牛犬,数字艺术。 我非常喜欢这些假的AI狗。我想收养他们,然后写关于他们的儿童读物。如果元宇宙曾经存在过,我希望他们能和我一起去那里。 你知道还有谁能来吗?“戴着帽子的青蛙,数字艺术。 为什么他真的是完美的? 在我们的Sidechannel Discord服务器上,我开始接受请求。有人要求描绘“夜晚的元宇宙,数字艺术”。我认为,回来的东西是恰如其分的宏伟和抽象: 我不会试图在这里解释DALL-E是如何制作这些图像的,部分原因是我自己仍在努力理解它。(所涉及的核心技术之一“扩散”在去年Google AI的这篇博客文章中得到了有益的解释。但是,我一再被这种图像生成技术看起来的创造性所震撼。 例如,在我的Discord中,另一个具有DALL-E访问权限的读者分享了两个结果。首先,看看“熊市经济学家在股价图表崩盘前,数字艺术”的一组结果。 其次,“一个牛市经济学家在一张飙升的股市图表前,上面有上涨线,合成波,数字艺术。 DALL-E在这里捕捉情感的程度令人震惊:熊的恐惧和愤怒,以及公牛的攻击性。将其中任何一种描述为“创造性”似乎都是错误的——我们在这里看到的只不过是概率性的猜测——但它们对我的影响与看到真正有创意的东西会产生同样的影响。 DALL-E的另一个引人注目的方面是它将尝试以各种方式解决单个问题的方式。例如,当我要求它给我看“一个带有粘稠眼睛的美味肉桂面包”时,它必须弄清楚如何描绘眼睛。 有时,DALL-E会在卷轴上添加一双塑料般的眼睛,就像我本来会做的那样。其他时候,它在霜冻中创造了负空间的眼睛。在一个案例中,它使眼睛从微型肉桂卷中脱颖而出。 那是我大声咒骂并开始大笑的一次。 DALL-E是我迄今为止见过的最先进的图像生成工具,但它远非唯一一个。我还用一个名为Midjourney的类似工具进行了轻微的实验,该工具也处于测试阶段。谷歌已经宣布了另一个名为Imagen,但尚未让外人尝试。第三个工具DALL-E Mini在过去几天里产生了一系列病毒式图像;不过,它与OpenAI或DALL-E无关,我想开发人员很快就会收到一封停止和终止信。 OpenAI告诉我,它还没有做出任何决定,关于DALL-E是否有一天以及如何更广泛地使用。当前研究测试版的目的是展示人们使用这项技术,并在必要时调整工具和内容政策。 然而,艺术家们为DALL-E发现的用例数量已经令人惊讶了。一位艺术家正在使用DALL-E为社交应用创建增强现实过滤器。迈阿密的一位厨师正在用它来获得如何摆盘菜肴的新想法。Ben Thompson写了一篇关于如何使用DALL-E在元宇宙中创建极其廉价的环境和物体的有先见之明的文章。 担心这种自动化可能会对专业插画家造成什么影响是很自然的,也是恰当的。很可能是许多工作都失去了。然而,我不禁认为像DALL-E这样的工具可以在他们的工作流程中发挥作用。例如,如果他们要求DALL-E在开始之前为他们勾勒出一些概念,该怎么办?该工具允许您创建任何图像的变体;我用它来建议替代的平台游戏徽标: 我会坚持我得到的标志。但是,如果我是一名插画家,我可能会欣赏其他建议,哪怕只是为了获得灵感。...