文章主题:在这段文字中,我们可以提取出以下几个关键词:AI作画,审美水平,专业度,用户福利值,照片,二次元风格,国漫风格,赛博朋克风格,武侠风格,科幻风格,废土风格,光折射,色彩,细节,人物表情,身体动态,服装细节,HashCode,人工智能,中国女生,古代少年将军,女性,首饰细节,汉服机甲,武侠动作,废土风格,全息光环,荧光,丰富背景,赛博朋克,特效,3D渲染,虚幻引擎,超高清,8K,金克丝同人画,莫奈风格,月野兔,二次元,克劳德·莫奈的风格,印象派,笔触,人物眼神,表情,注意力,保护,汉服,武侠,废土,科幻,大胆的想象力,前卫,抽象,脸,拼贴,废土风格,战斗,黑烟流,紫色,玻璃,皮肤纹理,废土风格,细节感,摄影作品,废盘,新版本, ControlNet,动漫,科幻结合,比拼,国漫,二次元风格,未来科幻风格,比较,秒画,模型,训练,优化,功能,B端,C端,用户体验,方便易懂,快速创作,图生图界面,新版本,废盘,新模型,废盘,新模型,新版本,新功能。
金磊 发自 凹非寺
量子位 | 公众号 QbitAI
家人们,咱就是说,又被国产AI作画给狠狠惊艳到了!
不仅是在AI作画的审美水平和专业度上达到顶尖水平,更是把用户们的“福利值”直接拉满的那种:
免费,在线可用,易上手,画小姐姐特别方便(bushi)!
话不多说,直接来欣赏一组照片:
如果不说是AI生成的,相信很多小伙伴会以为是俊男靓女的真人写真了吧。
毕竟这根根分明的发丝、清晰可见的肤质,还有纵横交错的光影,着实是有点影楼摄影级的了。
就算是打破次元壁,在二次元的作画处理上,每张图也都是达到了“拿来即用”的水平:
这便是来自商汤科技最新升级的AI文生图领域的预训练模型——秒画Artist v0.3.5 版本,而且还是时隔仅3个月迭代出来的新版本。
我们深知,预训练技术在提升模型的泛化能力方面具有显著作用。只需经过较少量的训练和模型优化,该技术便能在新的人工智能应用场景中展现出卓越的性能,这正是大家普遍熟知的 LoRa 模型所体现出来的优势。
在当今市场上,众多知名的LoRa模型,尤其是-blindbox/,其实质上属于盲盒类别。这种模型的训练过程通常基于Stable Diffusion技术,通过引入相应数据以实现优化。经过这样的操作,这些模型在特定垂直领域内能够展现出卓越的图像绘制能力。
但是,Stable Diffusion作为泛化性支撑的预训练模型,其本身的作画效果并不会太突出。
那么秒画Artist v0.3.5作为商汤最新的预训练模型,在不额外训练LoRA模型的情况下,能达到什么样的水平呢?接下来,就让我们从各个不同领域,深入来了解一下它的真实水平。
摄影级AI作画体验实录
要想看一个AI作画的水平,首先就得主打一个方方面面,各种类型风格需得全能hold住才可。
那么接下来,就开启我们的多轮测试吧~
猜猜谁是真人
我们先来看下这两张照片,你是否能猜到哪张是真人呢?
无论是人物的表情、头发和衣物的细节,这两张都妥妥是真人模特出镜的水准。
现在我们就来公布答案——右图正是由秒画生成的AI画作。
而且提示词也是极其的简单:
中国女生,摄影风格,敦煌飞天风格,首饰细节精细,恢宏大气
为了检验秒画是不是一直能够输出如此高质量图片,我们继续输入提示词:
中国男孩,肖像照,黄色的花朵,白光,阳光进来,光影。
应当是完全符合光看提示词时,所脑补出来的画面了。
我们再加大难度,添加一些天马行空,但同样颇具艺术气息风格的提示词:
一幅摇滚巨星的个人肖像,其全身散发着珠宝的光芒,面部表情丰富而细腻,仿佛能够传递出无尽的故事。这幅作品被置于一个充满奇幻色彩的森林背景之中,充满了神秘与未知。这组照片由著名摄影师大卫·拉夏贝尔拍摄,利用微光与月光的交织,营造出一种既现实又梦幻的氛围。照片中的每一个细节都被处理得极度精细,仿佛观者正身处其中,感受到摇滚巨星的独特魅力。这是一部杰作,是摄影艺术的绝妙呈现,展现了大师的非凡技艺。
毫无压力完成画作!所以不难看出,秒画在专业摄影水平上是过关的。
利好二次元爱好者
自打AI作画火爆起来之后,二次元风格也成了检验能力的标准之一。
我们再来看下秒画在二次元上的“功力”如何。
先“投喂”几段国漫风的二次元提示词:
在这幅超现实的油画中,我们可以看到一个清朝古装的男孩,他仿佛置身于一个奇幻的世界中。男孩的身体动态被艺术家的想象力充分展现,无论是他漂浮在水面还是潜入水下,都充满了夸张的元素。他的身体与周围的红金锦鲤交织在一起,形成了一幅美轮美奂的画面。这幅画作运用了多种艺术手法。首先,它采用了廷德尔效应,通过光折射到水中的现象,使得画面中的色彩更加丰富和鲜艳。其次,画面的细节处理得非常精细,无论是水滴的形状还是男孩的衣服,都被描绘得栩栩如生。最后,这幅画还展现了夏天梦幻般的一面,使用了梦幻的色彩来表现这个世界的独特魅力。总的来说,这幅油画以其独特的创意和精湛的技术,成功地捕捉到了清朝古装男孩在水下float和纠缠着红色和金色锦鲤的超现实场景,给人们带来了无限的遐想空间。
颇有《大鱼海棠》的味道了!而且画质上也比普通二次元风格要精进不少。
再来:
二次元,中国古代少年将军,女性,目光锐利,轻甲,劲装,暗红色布料,银色花纹,护肩,护腕,玉佩。
同样是妥妥可以出片儿的国漫风水准。
我们继续上难度,若是把“赛博朋克”和“中国武侠”来个混搭,秒画又该如何接招?
作为一名文章写作高手,我将尝试以一种独特的方式呈现这些信息。在中国动漫领域,仿生人的概念正在被越来越多的观众所接受。尤其是那些喜欢追求时尚的中国少女们,她们对于仿生人的喜爱更是如痴如醉。这种仿生人,拥有着3D风格的脸型,紫色的色调,给人一种神秘而又高贵的感觉。当她们在战斗中展现出来的时候,黑烟流中间的紫色烟雾缭绕,仿佛是在为她们的英勇添加上一层神秘的色彩。而那些符文环绕的身上,则显得更加神秘和充满力量感。她们所拥有的武侠动作皮肤,精致的五官,以及汉服机甲的装备,都让她们在战斗中显得更加英勇无畏。而在她们的身边,总是会有全息光环出现,为他们的战斗增添上一抹奇特的色彩。这些仿生人在赛博朋克的世界里,展示出了中国武术动作的优美和力量,以及全息光环的震撼。他们如同拥有荧光般的活力,背景则是充满了丰富的层次感。在这个世界里,特效、3D美术、OC渲染等先进技术都被充分运用,使得这个世界的视觉效果达到了一个全新的高度。而那些细致描绘的微小细节,更是让这个世界的真实感和未来主义风格得到了充分的体现。无论是未来主义的渲染,还是3D渲染带来的 hyper realistic 的效果,都让这个世界的观感达到了极致。而虚幻引擎的使用,更让这个世界充满了超高清和 8K 的清晰度,给人们带来了无比震撼的视觉体验。
可以说是非常符合国漫的二次元风格,并且每幅作品都可以直接拿来当封面了有木有!
接下来,我们再大变风格,再来个lol同好们,最喜欢的金克丝同人画创作:
△Prompt:金克丝,二次元,插画艺术
如何?是你心目中的金克丝吗?
再来一个童年回忆,美少女战士!
二次元,克劳德·莫奈的风格,印象派,月野兔来自漫画美少女战士,绘画,笔触。
宛如动画片的某一帧镜头,人物的眼神和表情也是非常符合提示词的要求。
天马行空的创造力
中规中矩的作画之后,我们再来测试一下秒画的想象力。
实验电影技术,前卫电影肖像,被底片遮蔽,多层页面,低角度,胶片图像,融化,划痕,刺穿,撕裂,抽象。
不得不说,当看到这幅作品的时候,有被深深的震撼到;不论是作品的灵感亦或是妆造,都着实有点太前卫了。
再来看几组脑洞大开的未来科幻大作:
同样,依旧是被科幻与大胆的想象力所震撼。
经过多轮测试,我们可以发现,秒画Artist v0.3.5模型,作为一个基础的预训练模型,不仅保持了很好的泛化性,在画面的细节效果上也有很优秀的表现,在某些垂类的作画领域,甚至可以达到与LoRA模型相媲美的效果。
与Midjourney同台竞技
在纵向看完秒画的最新能力之后。相信很多人希望我们请出来更具挑战性对手——Midjourney。
我们做比较的方式非常简单粗暴:同样的提示词,直接比效果。
我们第一个提示词是:
一名美丽的外族女性,长发飘逸,佩戴具有印第安风格的头饰,金属质感独特。逆光下,她的肌肤纹理显得更加立体,呈现出废土风的神秘气息。这幅摄影作品不仅展现了细节的精致,更传递出一种独特的气质与韵味,让人陶醉其中。
A beautiful exotic woman with long, fluffy hair, Indian style headdress, metallic style, backlight, skin texture, wasteland, sense of detail, photography.
秒画给出的作品结果如下:
Midjourney给出的效果是这样的:
不得不说,在最终效果上是难分伯仲的,都非常符合提示词要求的意境。
再来动漫与科幻结合的比拼:
一个穿着白色服装的男人被一个巨大的圆盘包围,看起来,低角度视图,夜核风格,深青色和深红色,机甲动漫,未来派色波,噩梦,错综复杂。
A man in a white costume surrounded by a huge disc, looks, low angle view, nightcore style, dark cyan and crimson, Mecha anime, futuristic color wave, nightmare, intricate.
秒画的输出结果如下:
而Midjourney从不同角度给出了它的“理解”:
单单是在这个“题目”上,个人更倾向于秒画的作品,构图和意境相对更加完善一些。
最后前卫抽象派的水平:
抽象的脸,拼贴。
an abstract face, collage style.
△左:秒画;右:Midjourney
那么对于二者的比较,你觉得谁更胜一筹呢?
不过在实用性上,秒画单是在免费这一条上,应当算是更胜一筹了。
其实秒画作为预训练模型,在这样的对标比拼中能够展现这样的作画能力,已经十分令人惊喜。
我们还了解到,用户可以基于秒画Artist v0.3.5 模型进一步训练小模型的功能,目前已经在B端开放应用了,这样企业可以基于秒画的能力,训练打磨自己的专属模型。
也让我们期待这一功能面向C端开放,让秒画能够进一步释放全部实力。
如何“食用”?
在操作上,秒画也是非常的好上手。
在官网注册登陆之后,直接点击“开始创作”,即可开启AI作画之旅。
根据自己的需要,选择自行选择商汤自研大模型(Artist)或各类社区开源模型,也可根据风格倾向自行LoRA模型。
在图生图界面,新版本的秒画还将ControlNet这一宝藏工具进行了整合,用户无需跳转,直接在“图生图”功能下即可使用,进阶创作更快捷。
是不是很简单?
如果大家灵感枯竭,也可以点击“灵感广场”,进行“充能”哦。
例如,汇集了用户诸多优质作品,包括完整的提示词,可以在灵感枯竭的时候“充能”。
并且在模型与数据集的选择上也并非单一不可改,在主页的上方菜单栏中即可进行选择。
不难看出,秒画在用户体验上也是主打的一个“方便易懂”。
怎么做到的?
正如我们前文提到的,秒画3.5的版本迭代,仅仅耗时3个月。
而追溯到更早的版本,秒画也在不断成长:
2023年1月:秒画Artist v0.1.0模型,内测上线。
2023年4月:秒画Artist v0.2.0模型,正式上线,是商汤首款基于14亿参数文生图模型打造的C端应用。
2023年7月:秒画Artist v0.3.0模型,参数量提升至70亿,并采用全新的生成模型架构。
2023年10月:带有全新美学引导算法的,秒画Artist v0.3.5模型,正式公测。
可以看到,近乎是每3个月便有一次版本的更新。
随之而来的一个问题便是:怎么做到的?
其实早在半年前,商汤站在AIGC新时代下,围绕数据、算法和算力三要素给出了一个新公式:
计算量(GPU数量 x 运行时间 x 并行效率 )= 模型参数量 x 处理数据量。
这个公式侧重体现的是大数据和大算力方面的发力,但除此之外,我们发现商汤实则在算法方面也做了不少的工作。
据了解,秒画的预训练模型是由商汤科技基模型研究团队支撑完成。
过去的几年中,商汤在大模型结构设计、训练优化、平台和数据、算力等领域都有长期的深耕与投入,有架构设计和优化方面的丰富经验和积累。不但储备了超过50亿的有效图文数据,更发表10 相关论文。
例如在上半年提出的RAPHAEL算法,便是通过探究生成模型的内在性质,设计更高效的稀疏架构来强化文本理解和生成能力。
简单来说,这项技术是通过堆叠数十个“多专家模型”( Mixture-of-Experts,MoEs),包括空间维度和时间步维度等等,从而实现从网络输入到输出的数十亿个扩散路径。
而这些个路径,每个都可以视为一个“画家”, 用扩散时间步长将特定文本概念描绘到指定图像区域上。
△基于RAPHAEL的生成效果图
从综合实验上来看,RAPHAEL在图像质量和美学吸引力方面已经优于当时众多的尖端模型。
在此之后,商汤还在基础文生图预训练模型方向进一步探索更高效的基础网络架构、大规模训练优化算法、美学算法引导架构设计、空间感知的动态文本尺度控制等算法,提升AI作画的生成质量和能力。
在这般努力之下,也就有了我们目前看到的秒画3.5版本了。
总而言之,有大数据、有大算力、有大模型,算法技术也在不断优化,商汤能够让秒画每三个月做到版本迭代就不难理解了。
最后,秒画的地址放下面了,感兴趣的小伙伴可以开启高质量、免费的AI作画之旅了~
秒画入口:
https://miaohua.sensetime.com/
— 完 —
「量子位2023人工智能年度评选」开始啦!
今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!