0.6秒出图!手机跑Stable Diffusion创下最快速度,而这仅仅是开始
Midjourney

0.6秒出图!手机跑Stable Diffusion创下最快速度,而这仅仅是开始

机器之心原创 作者:杜伟 如今,随着将大模型塞进手机的进程加快,普通用户也能亲自体验生成式 AI 的魅力了。 2023 已经行至尾声,这一年大模型和生成式 AI 成为人工智能圈的主流趋势。自 ChatGPT 出现以来,各式各样通用、专业的 AI 大模型层出不穷,喷涌之势已经不可阻挡。随着量化、网络剪枝和知识蒸馏等模型压缩技术进步,手机等终端设备 AI 算力持续增强,大模型在云端部署之外正在向终端落地迈进。 对于这场已经拉开了序幕的「终端侧革命」,芯片巨头和手机厂商们成为主力军,他们不断尝试在手机等终端设备上部署运行生成式 AI 大模型,时不时给人们一点小小的惊喜和震撼。 今年 2 月,我们第一次看到了在手机上运行超过 10 亿参数的文生图大模型 Stable Diffusion。那是在一部搭载高通第二代骁龙 8 移动平台的安卓手机上运行的,不到 15 秒的时间执行 20 步推理,生成了一张 512×512 像素的图像。这也创造了当时智能手机上最快的推理速度。 你以为这就是手机运行 Stable Diffusion 的速度极限了吗?显然不是。在上个月举行的 2023 骁龙技术峰会上,不到 15 秒的生成时间又被整整缩短数十倍。高通最新旗舰移动平台第三代骁龙 8(以下简称骁龙 8 Gen 3)让速度飞升成为可能。 在峰会现场,高通用搭载了骁龙...
搞清楚 stable diffusion软件依赖,只需这一篇文章
Midjourney

搞清楚 stable diffusion软件依赖,只需这一篇文章

大家都知道SD是一个基于Python的应用。但运行起来需要好多的依赖。即使作为程序员出身的我也有很多不知道是干什么用的。今天我就挨个儿去罗列了一下。以备存。大家有需要的也可以看一下哦 GitPython: 允许使用Python轻松处理Git存储库,实现对Git命令的封装,方便进行版本控制和代码管理。Pillow: Python图像库(PIL)的一个友好分支,提供了丰富的图像处理功能,如打开、操作、保存各种格式的图像文件。accelerate: 用于加速深度学习模型训练和推理的库,支持多GPU和分布式计算,简化模型加速和部署。basicsr: 基础图像超分辨率的实现库,提供了一些常用的图像超分辨率模型和工具。blendmodes: 用于图像混合模式的库,支持Photoshop风格的混合模式(如multiply、screen、overlay等)。clean-fid: 用于评估生成模型质量的库,通过计算Frechet Inception Distance (FID)来衡量图像生成质量。einops: 提供了一种直观的方式来进行张量(tensor)操作和重塑(reshape),简化了复杂的张量变换。fastapi一个现代的、快速的(高性能)Web框架,用于构建API,具有简洁的语法和自动生成文档的功能。gfpgan: 用于面部修复和增强的GAN模型,能够自动修复低质量和模糊的人脸图像。gradio 快速构建机器学习模型的Web界面,使得模型展示和交互变得简单直观。inflection: 提供了将单词进行单复数转换、驼峰命名法与下划线命名法转换等功能的库。jsonmerge: 用于合并多个JSON对象的库,按照指定的策略合并不同来源的JSON数据。kornia: 基于PyTorch的计算机视觉库,提供了丰富的图像处理和变换功能。lark: 用于解析和转换文本的库,支持LALR(1)解析器和多种语法定义方式。numpy: 数值计算库,提供了高效的数组和矩阵操作,广泛应用于科学计算和数据分析领域。omegaconf: 强大的配置管理库,支持分层配置、动态类型和配置继承,适合管理复杂项目的配置。open-clip-torch: OpenAI CLIP模型的PyTorch实现,用于图像和文本的对比学习和特征提取。piexif: 用于操作EXIF数据的库,支持从图像中读取和写入EXIF元数据。psutil: 提供了跨平台的系统和进程管理功能,能够获取系统运行状态和进程信息。pytorch_lightning: 一个轻量级的PyTorch封装库,简化了深度学习模型的训练和部署流程。realesrgan: 基于GAN的图像超分辨率增强模型,能够提升低分辨率图像的清晰度和细节。requests: 简洁易用的HTTP库,用于发送HTTP请求和处理响应,广泛用于网络编程和API交互。resize-right: 提供高质量的图像缩放功能,支持各种插值算法和抗锯齿处理。safetensors: 用于安全地存储和加载PyTorch张量数据,确保数据完整性和安全性。scikit-image>: 基于SciPy构建的图像处理库,提供了丰富的图像处理算法和工具。timm: PyTorch图像模型库,包含了大量预训练模型和模型架构,方便进行图像分类和特征提取。tomesd: 提供了离散时间和连续时间上的ODE和SDE求解器,用于科学计算和建模。torch: PyTorch深度学习框架,提供了灵活的张量计算和自动求导功能,广泛用于机器学习和深度学习研究。torchdiffeq: 用于求解微分方程的库,集成了PyTorch,支持各种ODE和SDE求解器。torchsde: 提供了在PyTorch中处理随机微分方程(SDE)的工具和求解器。transformers: Hugging Face的Transformers库,提供了各种预训练的Transformer模型,用于自然语言处理和生成任务。 32.torchvision: PyTorch的一个图像处理库,包含了常用的数据集、模型架构以及图像处理转换工具,广泛用于计算机视觉任务。 33.aiohttp: 基于异步I/O的HTTP客户端和服务器框架,支持异步请求处理,适合构建高性能网络应用。 34.pyyaml: 用于解析和生成YAML格式文件的库,简化了配置文件的读写操作。 35scipy: 科学计算库,基于NumPy构建,提供了大量的数学、科学和工程计算功能。 tqdm:...
首个AI设计主题产学峰会在杭召开 中国版Midjourney走进学校
Midjourney

首个AI设计主题产学峰会在杭召开 中国版Midjourney走进学校

如今设计工具的访问量,用户、使用时间位列全球AI产品总榜前三。 6月28日,D20全球设计院长峰会(简称D20峰会)在杭州召开。作为首个AI设计主题的产学峰会,这次会议邀请了来自国内外20多所设计院校的院长,和来自AI产业、设计行业的产业代表,共同探讨“AI时代的设计”如何更好地连接“产”和“学”,更好培育出面向未来的数字化设计人才。 阿里国际数字商业集团副总裁、阿里巴巴设计委员会负责人杨光在开幕演讲中表示,他是二十年的老设计师,经历了互联网时代,然后到现在AI时代,“对AI的感受从兴奋,到现在逐渐转为迷茫和恐慌”。“如今设计工具的访问量,用户、使用时间位列全球AI产品总榜前三。在这个时代,我们一边关注我们的AI产品,同时我们更应关注会使用AI的设计师。” 杨光提出,要打通学校和企业之间标准的壁垒,“这样的产学融合才是具有颠覆性的”。 峰会现场,阿里国际AI设计产品“堆友”正式发布教育版。据悉,堆友作为一站式设计平台,被誉为国产版Midjourney,并入选中国知名设计平台UISDC揭晓的“2023年度十大AIGC工具”。目前,堆友已有超100万活跃用户,日均生成作品数量突破10万张。 杨光表示:“堆友可以为院校提供强大的算力和算法,它将是提供这样的能力的一座 AI设计大厦。” 据官方资料显示,目前国内TOP20的设计院校都已经上线堆友的高校合作专属频道。其中,浙江大学、江南大学、广东工业大学、青岛黄海学院、海南软件职业技术学院等5个院校,已经与堆友深度共建“人工智能+设计教育”产教融合新范式,将共建产教合作实验室、实训基地等。以浙江大学为例,在与堆友的深度共建中,已经获得了浙江省教学创新大赛产教融合特等奖。2024年7月,双方还将共同主办亚洲创新设计工坊。 海量资讯、精准解读,尽在新浪财经APP
ELLA :腾讯开源文生图扩散模型,一键运行,效果赶超DALL-E
Midjourney

ELLA :腾讯开源文生图扩散模型,一键运行,效果赶超DALL-E

ELLA(Efficient Large Language Model Adapter,高效大型语言模型适配器)由腾讯研究人员开发。该技术旨在提高文本到图像生成模型在处理复杂文本提示时的语义对齐能力。通过整合大型语言模型(LLM),ELLA极大增强了模型的文本对齐性能,而这一切无需对U-Net或LLM进行额外的训练。 ELLA的功能特性: 语义对齐增强:通过与大型语言模型(LLM)的结合,ELLA提升了扩散模型对文本提示中的多样对象、细节属性以及复杂关系的理解,生成与文本提示更加匹配的图像。时序感知语义提取:ELLA的Timestep-Aware Semantic Connector(TSC)模块能够根据扩散过程中的不同时间步骤动态提取语义信息,让模型在图像生成的不同阶段重点关注相应的文本内容。无需重新训练:ELLA的独特设计使其能够直接应用于现有的预训练LLM和U-Net模型,免除了额外训练的需求,节约了大量计算资源和时间。高度兼容性:ELLA能够无缝集成进现有的社区模型(例如Stable Diffusion)和下游工具(例如ControlNet),增强它们处理复杂文本提示时的性能。灵活的token长度:在 ELLA 的训练过程中,使用了长合成字幕,最大 token 数量设置为 128。在使用短字幕测试 ELLA 时,除了前面提到的字幕上采样技术外,还可以使用“flexible_token_length”技巧。这涉及将标记生成器设置max_length为None,从而消除任何文本标记填充或截断。我们观察到,这个技巧可以帮助提高与短标题相对应的生成图像的质量。 Github地址: https://github.com/TencentQQGYLab/ELLA ELLA的模型概述 扩散模型在文本到图像生成领域表现出了卓越的性能。然而,这些模型中的大多数仍然使用 CLIP 作为文本编码器,这限制了它们理解密集提示的能力,这些提示包含多个对象、详细属性、复杂关系、长文本对齐等。在本文中,我们引入了E高效的大型语言模型适配器,称为 ELLA,它为文本到图像的扩散模型配备了强大的大型语言模型 (LLM),以增强文本对齐 没有接受过 U-Net 或 LLM 的培训。为了无缝桥接两个预训练模型,我们研究了一系列语义对齐连接器设计,并提出了一个新颖的模块,即时间步感知语义连接器(TSC),它可以从 LLM 中动态提取与时间步相关的条件。我们的方法适应去噪过程不同阶段的语义特征,协助扩散模型解释采样时间步长的冗长而复杂的提示。此外,ELLA 可以轻松地与社区模型和工具结合,以提高其提示跟踪能力。为了评估密集提示跟踪中的文本到图像模型,我们引入了密集提示图基准(DPG-Bench),这是一个由 1K 密集提示组成的具有挑战性的基准。大量实验证明,与最先进的方法相比,ELLA 在密集提示跟踪方面具有优越性,特别是在涉及不同属性和关系的多个对象组合中。 我们提出了一种新颖的轻量级方法 ELLA,为现有的基于 CLIP 的扩散模型配备强大的 LLM。无需经过 U-Net 和 LLM 的训练,ELLA 就可以提高提示跟随能力,并实现文本到图像模型的长密集文本理解。...