只有40名员工,却不拿VC一分钱,Midjourney凭啥这么拽?
Midjourney

只有40名员工,却不拿VC一分钱,Midjourney凭啥这么拽?

作者:卜淑情 编辑:硬 AI 自Midjourney成立以来,VC机构一直追在创始人David Holz的屁股后面,求着他收下他们的资金。 为了和这位35岁的年轻CEO见上一面,这些VC几乎把大脑CPU烧了。除了不断进行“电话和邮件轰炸”之外,他们还求熟人引荐,甚至有人直接递送投资意向书,但最终只有少数幸运儿走到了“面试”环节。 “他的态度非常明确,不打算募集资金,”风投公司Index Ventures合伙人Mike Volpi说。去年他在旧金山的Cotogna意大利餐厅与Holz共进了晚餐。 Holz软硬不吃,拒绝了所有风投机构的“好意”,这在普遍靠风投资本“接济”的人工智能初创公司中是火星人一般的存在。Generative AI数据库显示,最近几年顶级人工智能初创公司已经募集了超过170亿美元的新资本。 为什么Holz坚决拒绝VC抛来的融资机会?只有40名员工的Midjourney,到底为啥可以这么拽? 40名员工一年赚2亿美元,Midjourney不需要VC 经济独立,是Midjourney最大的底气。 Midjourney创立于2021年8月,仅有11名全职员工,却在短短一年内实现1亿美元营收。 目前Midjourney团队成员已经扩大至40名,据报道,这些员工今年有望为Midjourney创造2亿美元的营收。 报道称,虽然Midjourney把大部分收入都用来购买价格不菲的AI芯片,但它从创立早期就已经开始盈利了。 “客气一点的说法是,他不需要VC进入他的生活,”微软旗下风投基金M12的合伙人Michael Stewart说。 Midjourney的盈利模式并不复杂,即付费订阅的商业模式,按月向用户收取10至120美元的订阅费用。 但其强大的图片生成AI软件,让Midjourney成为AIGC领域的当红炸子鸡。 今年3月,Midjourney第五代模型V5上线后,靠着一张酷似真人的“中国情侣”图片爆火出圈。 凭借效果惊艳的产品以及极简的使用方法,Midjourney迅速吸引大量用户涌入,服务器因此一度陷入瘫痪。 一朝被蛇咬,十年怕VC 更重要的是,Holz在早期创业阶段吃过VC的大亏。 Holz的第一家创业公司Leap Motion是一家手势跟踪传感器公司。Leap Motion成立于2010年,专注于开发一个能够精准地捕捉手势的硬件设备和软件系统。 Holz当时的职位是CTO,其好友Michael Buckwald则担任CEO一职。 VR投资热期间,Leap Motion从硅谷最知名的VC公司之一Andreessen Horowitz和“硅谷风投教父” Peter Thiel旗下创始人基金(Founders Fund)等投资者那里筹集了逾1亿美元的资金。 Holz首次创业出师不利,2019年Leap Motion以不到高峰估值十分之一的价钱贱卖,这次经历让他开始对VC产生厌烦情绪。 有些投资人将Leap Motion面临的困境归咎于Holz和 Buckwald缺乏经验,他们两人当时才二十多岁。 但最重要的是,Leap Motion开发的手势追踪软件从未达到创始人一开始设定的期望。“它必须完美无瑕,这就是某种期望。而且,你知道,它并不完美,” Leap Motion投资者兼合伙人Cyril Ebersweiler说。...
Midjourney 商业画布深度分析
Midjourney

Midjourney 商业画布深度分析

在人工智能技术的飞速发展下,AI图像生成工具正成为创意产业的新宠。Midjourney,一个基于Stable Diffusion技术的AI图像生成平台,以其独特的用户界面和高质量的图像生成效果,迅速在广告和艺术领域崭露头角。本文将深入分析Midjourney的商业模式、运营策略、客户群体以及它如何在竞争激烈的市场中实现“以小搏大”的成功。 Midjourney 是一个 AI 图像生成工具,使用的底层技术是 Stable Diffusion,用户可以在无需高级技术技能的情况下创建独特且高质量的图像,生成图片艺术效果非常出色,目前已被广告商和艺术家应用。 Midjourney 不是软件,也不需要安装,它是一个依托于 Discord(一款国外聊天社区)之下的工具,只可在 Discord 中进入,通过添加 Midjourney 工具机器人,输入文字对话即可,目前已经迭代至 V6 版本(2023年12月发布的 V6)。 一、公司基本信息 Midjourney 公司是在2021年8月成立的,由位于美国旧金山的独立研究室 Midtrivey 开发,在2022年7月开启公测,公司在推出仅六个月后就实现了盈利。 这家公司成名之时,团队仅有11名全职人员,并且其中8名都是还没毕业的本科生,没有投资者、没有真正的经济动机,没有销售什么产品或成为上市公司的压力,他们只是想做一些酷的事情,却在短短一年内实现1亿美元营收。 2023年底相关信息,团队成员已经扩大至40名。 其官网地址: https://docs.midjourney.com/ 。 其官网上的自我介绍:Midjourney 是一个独立的研究实验室,探索新的思维媒介,拓展人类的想象力。我们是一个自筹资金的小团队,专注于设计、人类基础设施和人工智能。 可以看出这家公司的经营理念:不融资,不追求团队规模,更关注公司盈利能力,保持小规模运营,保持强独立性。Midjourney 其实是一个实验室,不需要向任何人解释业务是什么,就可以有足够的钱来做研究。所以它没有选择风投创业,而是选择针对一个问题,找到调研的目标和方法,在一群人身上测试,最终并对提供的东西收费。 二、创始人相关信息 Midjourney 的创始人兼 CEO 是 David Holz,其高中时期,曾从事设计业务,大学时,读了物理和数学专业,在 NASA 和 Max Planck 工作期间攻读了流体力学博士学位,2011年,创办VR领域的软硬件公司 Leap Motion,2021年自筹资金创办了独立研究室...
基于Stable Diffusion的图像生成与多模态编辑智能体
Midjourney

基于Stable Diffusion的图像生成与多模态编辑智能体

通信世界网消息(CWW)随着多模态大模型的不断发展,以“文生图”为代表的人工智能生成内容(AIGC)技术逐步趋于成熟,生成内容的质量与多样性得到了大幅提升,AIGC已为文宣、文档创作、数字人、短视频等领域提供了强大的助力。以Stable Diffusion为代表的扩散模型簇成为“文生图”领域的先进算法之一,该类模型以热力学作为理论基础,采用U-net、Transformer等模型架构,建模图像分布与随机高斯噪声分布关联,进而实现多样化的图像生成。 结合Stable Diffusion模型,中国移动信息技术中心智能AI研发团队提出了一套图像生成与多模态编辑智能体。该智能体能够基于用户输入的文本与条件图像,通过意图识别、槽位提取、任务编排等流程,生成符合用户要求的图像或完成图像内容编辑。目前,该智能体已用于中国移动MOA AI助手、智能交互数字人、妙笔文档等产品中,取得了良好的用户反响。 基于LoRA微调的场景化图像生成方案 为了满足多场景的图像生成需求,研发团队基于Stable Diffusion XL(SDXL)模型,结合LoRA训练策略,构建了一套场景化图像生成方案,如图1所示。该方案主要包括数据准备与预处理、基于LoRA的模型训练以及生成结果后处理三大核心步骤。 图1 基于LoRA微调的场景化图像生成方案 数据准备与预处理 为了解决部分场景数据缺乏的问题,研发团队维护了一个由各公开可商用图片数据集组成的大型数据库,并设计了一套训练样本扩充的自动化方法,减少人工收集与标注工作。其中,数据库中的每个图像包含编号、CLIP图像特征向量与文本标签三个元数据字段。训练样本扩充的自动化方法依托CLIP跨模态对齐模型,生成用户给出的场景示例图像或文字描述的CLIP编码特征。研发团队通过在大型数据库中采用向量余弦相似度检索的方式,检索出相似图像以扩大训练样本。若微调训练数据集还需进一步补充,可采用BLIP“图生文”模型对样例图片生成描述性文本,再通过CLIP文本编码结果在数据库中检索相似图像。 在获取训练图像后,还需按照既定格式生成图片提示语标注文件,并为不同的微调数据集赋予不同的触发词。具体而言,采用BLIP“图生文”模型生成图像描述,再由中国移动九天大模型输出符合SDXL模型训练要求的图像生成提示语。 触发词通常为特殊字符或使用较少的词语,可引导模型在出现提示词的情况下才进行场景化图像生成,减少模型的文本漂移现象,不影响原生SDXL模型的生成能力。 在模型微调之前,需要进一步对图像数据进行预处理。由于原生SDXL模型默认的图像大小为1024×1024像素点,难以满足所有业务场景的需求。针对上述问题,研发团队设计了图像数据的预处理方法,即保持图像原始比例不变,以短边对齐方式进行缩放,最后对长边不足部分补齐或对超出部分进行裁剪。其中,用于补齐部分颜色的RGB值为图片像素均值,避免模型生成结果产生边框。裁剪方式则根据场景而定,当图片主体主要位于中心位置时进行中心裁剪,其他情况进行随机裁剪。 基于LoRA的模型训练 LoRA是一种高效的参数微调方法,在基座大模型上附加轻量的LoRA模型,能够扩展基础大模型能力,实现对新风格、新对象等概念的快速学习。LoRA微调方法是在基座大模型每个Transformer的全连接层中注入可训练的低秩矩阵,而不用对整个大模型进行微调。LoRA模型参数量仅5M~50M,为SDXL基座模型的千分之一左右,因此相比直接对基座模型微调,LoRA模型训练所占内存开销小,训练时长短,在单张显卡上数小时内就可以完成。此外,同一基座大模型可以搭载不同LoRA模型,能在不同应用场景灵活切换,实现“即插即用”的高效场景化图片生成。 图像质量优化模型簇 在图像质量优化模型簇中,主要包含基于传统统计学和基于人工智能的图像质量优化算法。用户可基于上述图像质量优化算法在不同应用场景进行自由选择,也可不进行任何图像优化,以最大程度满足用户对生成图像的期待。同时,本成果也为用户在实际场景提供了默认推荐的图像质量优化模型选择,方便用户使用。通过合理运用图像质量优化模型簇,可显著提升图像生成的质量,在一定程度上优化用户体验。 图像内容多模态编辑 在图像生成的基础上,研发团队提出了基于SDXL的图像内容多模态编辑算法,包括基于图像与文本的图像内容编辑和基于文本的自由图像内容编辑,分别适用于精确与自由图像编辑场景。图像内容多模态编辑方法如图2所示。 图2 图像内容多模态编辑方法 基于图像与文本的图像内容编辑 基于图像与文本的图像内容编辑能力需要用户提供一个条件图像作为必要输入,提供一段文本描述作为可选输入,主要用于将提供的条件图像与原始图像进行融合,并尽可能贴近用户提供的文本描述。研发团队基于SDXL和ControlNet模型构建图像内容编辑模型。通过将图像填补技术与ControlNet进行深度融合,克服了ControlNet本身无法在任意指定区域融入条件信息的问题。 图像编辑需要准备图文多模态条件信息,具体包含图像编辑位置与编辑区域大小、条件图像和文本提示语。图像编辑位置与编辑区域大小支持两种方式提供:一是提供编辑位置的中心坐标和区域长宽;二是手动进行编辑区域的框选,根据框选区域获得编辑区域大小。 根据提供的图像编辑位置与编辑区域大小信息,生成图像编辑掩码,掩码值为1的区域为编辑区域,其余区域为0。条件图像为必须提供的条件信息,支持各类图像格式、大小和长宽比,该图像会经过边缘提取与缩放等预处理操作,并填入编辑区域中,获得一张与原始图像大小相同的预处理后的条件图像,将该图像输出Control Net中即可同时实现在指定区域中的条件生成。文本提示语作为补充,可让用户输入对图像编辑的要求,进而对生成图像的风格、细节、结构等进行更精确的控制。文本提示语为非必须项,如用户未提供任何提示语,则模型会自动猜测用户意图,实现条件图像与原始图像的融合编辑。 基于文本的自由图像内容编辑 为了提供更开放自由的图像编辑体验,研发团队还研发了基于文本的自由图像内容编辑算法,用户仅需通过文本描述图像需要修改的部分和内容,便可完成图像内容的编辑,无需提供任何条件图像。 本技术采用Instructpix to pix联合SDXL的实现方案,该方案的关键核心是需要构建基于实际场景的图像编辑数据集对SDXL进行微调训练,使其具备文本提示图像编辑的能力。具体而言,首先采用中国移动九天大模型结合编辑指令生成原始图像的原始描述、编辑描述,再结合Prompt to Prompt方法构建编辑图像,最终形成由五元组(原始图像描述、编辑后图像描述、编辑指令、原始图像、编辑后图像)构成的数据集。 五元组数据集构建完成后可开始模型训练过程,输入编辑指令、原始图像和编辑后图像,要求模型输出的编辑后图像与数据集中的编辑后图像尽可能相同,进而不断优化模型权重。训练完成的模型具备输入编辑指令和原始图像、输出图像编辑的能力。相比基于图像与文本的图像内容编辑,这种图像编辑方法无需用户提供待融合的条件图像,因此更加自由。 图像创作智能体 在图像生成与图像编辑能力的基础上,研发团队还进一步将上述能力封装为图像创作智能体。图像创作智能体结合Bert意图识别模型,可精准解析用户输入的文本指令,随后智能体自动规划任务流程,调用相应模型,高效执行各类图像创作任务,其框架如图3所示。 图3 图像创作智能体框架 意图识别模型采用Bert模型架构,通过构造用户指令语料数据集对Bert模型进行微调,实现智能体的意图识别和槽位解析功能。为全面覆盖用户需求,研发团队构建了一个囊括多样用户行为模式的常用指令数据集,结合业务场景并参考内测日志记录的用户指令,总结了常用句式形成模板。在此基础上,运用中国移动九天大模型分析用户指令的语法与词汇特点(包括口语表达与同义词替换),进一步丰富了指令语料。数据集包括图像生成、图像编辑以及其他三大类意图,其中图像生成意图根据不同业务场景,又细分为文宣、人像、背景、图标和自由生成等类别,并随业务发展而持续扩充。截至目前数据集共包含500余条指令样本,规模约1万token。目前,该成果通过在构建的语料数据集上进行20轮迭代训练,可达到96.4%的意图识别准确率。 在智能体的实际运行过程中,一旦确认了用户意图,智能体即刻启动定制化任务链路,规划相应的任务流程。例如,当用户表示“请帮我生成一张元宵祝福图”时,根据识别到的“图像生成—文宣”意图,智能体会自动触发相应流程,包括加载相应的LoRA权重,通过接口传递解析到的槽位文本“元宵祝福”,完成图像生成和优化,并最终将结果推送给客户端,实现流畅的端到端服务。 中国移动信息技术中心积极拥抱大模型前沿技术,深耕AIGC方向,提出图像生成与图像内容的多模态编辑两项能力。在此基础上,进一步由智能体对两项能力进行统一封装和管理,面向不同的用户需求,调用不同的任务流程并完成任务执行工作。未来,中国移动信息技术中心将持续对该智能体进行升级改造,逐步形成包含图像、视频、音频生成的多模态内容生成智能体,进一步推动AIGC技术在中国移动内外部的落地应用。 *本篇刊载于《通信世界》7月10日* 第13期...
Stable Diffusion 3开源秒翻车,画人好掉san
Midjourney

Stable Diffusion 3开源秒翻车,画人好掉san

明敏 发自 凹非寺 量子位 | 公众号 QbitAI 没想到……Stable Diffusion 3开源即出现翻车案例。 生成一个躺在草地上的女孩,结果长这样? 而且不是个例,只要是和人(整体)相关的内容,生成结果都有点掉san。 ( 前方高能 ) 但如果是局部,比如只生成人脸,确实很nice。 清晰度、写字、写实性等方面都有明显提升。 对于复杂长提示词的理解也很到位,有网友发现提示越长它画的越好。 那么问题来了,为啥偏偏画不好人类? 问题可能在于数据集 先来看看SD3开源的具体情况。 本次开源的版本是Stable Diffusion 3 Medium(中杯)。 它的规模为20亿参数,在笔记本上就能跑了。 官方强调的属性有5方面,逐一来看: 整体质量和写实性 可生成出色的细节,包括色彩、光线、强写实等,带来灵活风格的高质量输出。 通过16通道VAE,成功解决了其他模型的常见缺陷,比如手部和面部的写实问题。 提示词理解 可以理解复杂长提示,包含空间推理、元素组合、动作、风格等。3个文本编码器可以全部或者组合使用,方便用户平衡性能和显存。 有效利用资源 对VRAM占用很低,非常适合在消费级GPU上运行,且性能不降低。 微调 能够利用小数据集微调,方便定制化。 目前在Hugging Face上已经可以下载模型权重。非商业用途可免费下载使用,商业用途需要先拿授权。 那么为啥升级后还是会翻车? 有人发现,如果细看“躺在草坪上的女孩”这张图像,会发现它在局部细节上确实还可以,甚至很棒。 草地上的影子、衣物上反射的光线、头发的质地……都遵循了物理规律。 但人物整体就不敢恭维了。 不少网友都认为,这就是问题的关键。 我认为他们的NSFW过滤器,把所有人类图像都判定为了NSFW。 这个过滤器全称是filtering out...