摄影师危险了!Midjourney v6公测,带来相片级真实细节
Midjourney

摄影师危险了!Midjourney v6公测,带来相片级真实细节

文 / 腾讯科技 郝博阳 12月21日,Midjourney 在Discord上宣布其最新版本v6的测试版发布。该模型经过了9个月的训练,虽然缺乏明确的benchmark比较,就目前网友测试展现出来的能力来看,它可以被称为当下最先进的文生图模型。这次发布出的模型水平不光卷翻设计圈,也直接卷倒了摄影圈。 (先来点真实性震撼) Midjourney 历代全家福:从官方Discord介绍上看,这一次Midjourney的模型提升主要在以下几个方面:1)更准确的提示遵循以及更长的提示词上下文长度。据已参与测试的用户通过实测后表示v6现在支持的提示词长度超过350个字符;当前版本在提示里可以指定多个主题/颜色和其他细节。在准确遵循提示这点上,从网友测试来看提升也很明显。比如当用法语测试时,v6模型生成的图像明显更符合提示词的具体语义:有拳击手套,面带一点微笑。 下面这个例子更明显,v5.2数不到1000。 动作理解的提升:v5.2理解不了躺着,想再爬起来卷。v6就彻底躺平了。 2)改进的连贯性和模型知识在公告中,Midjourney表示● v6 对提示现在更敏感。别再用像 “令人印象深刻的,逼真的,4k,8k”这样的无用词汇了。● 明确表达你想要的。虽然它可能没那么有意思,但当你明确表达时,它就能在理解你的意图这方面做得更好。据用户测试,v6甚至能够理解标点和语法的细微差别。这一升级其实会对整个用户体验产生较大的影响。过去偏向于炼丹式的提示词可能将被更细致的描述取代。这到底是提高还是降低了新手门槛,还真不好说。针对这个改变,一名设计师给出了当前最适合Midjourney的新提示技巧:核心就是一个清晰不炫技,结构化表达。 在模型知识方面v6的进化有一个小细节非常有代表性。下面例子里的提示词是日本女性。v6能分清颇为微妙的不同亚洲族裔之间的相貌区别。比起v5.2,图像中女子的外形确实更有日本特征。这种欧洲人根本理解不了的亚洲长相差异也被AI拿捏了。(左为v5.2,右为v6)3)改进的图像提示和混合在这里,改进的图像提示其实更多是指按提升生成图像能力的提升,即能够根据文本提示创建更精细和逼真的图像。而改善的图像混合是指v6能使得不同元素和风格的结合更加和谐自然。从网友的测试来看,v6的图像生成能力确实有明显的提升。相较于v5.2,v6的图像确实更偏向于丰富和细腻逼真。v5.2其实从细节度上来讲已经可以到“乱真”的程度了,但v6的感觉是“真”,而非“仿真”。提示词对的话,结果甚至有一种相机直出的真实质感。比如这两盘土豆炖牛肉,明显右侧v6版本的会更让人有食欲。(左为v5.2,右为v6)环境还原能力上看,差异也非常明显:v6版本的罗马帝国市场,不说你会以为是《罗马》剧组的场景。而v5.2就略显平面,房子也略有些奇怪。(上为v6,下为v5.2) 这两组图的对比差异就更明显了。提示词都是纪录片风格,上面真的很纪录,而下面那组细看问题还是很多,缺乏真实的光影和细节深度。 (上为v6,下为v5.2)人像方面,其实v5已经做到相当还原了。但在v6中,脸上的小疙瘩,帽檐上的褶皱与污迹,鼻子上紧贴弧线充满变化的光影让v5.2的照片看起来更像是美颜过的,太平面了。就算同样是雀斑,v6的表现也更让人信服,充满符合人体呈现的集中性,而非平铺感。v5.2 v6 v5.2 v6 4)文本绘制能力提升简单来说,v6现在可以在图像中更明确地绘制文本,甚至可以规定其风格。为了获得最佳效果,文本应该用引号标出。这样做可以帮助模型区分哪些是描述性的提示,哪些是实际要在图像中呈现的文本。例如,如果用户想要生成一张图像,上面写着用马克笔在便利贴上写的“Hello World!”,他们可以使用类似于以下的提示:“imagine a photo of the text Hello World! written with a marker on a sticky note –ar 16:9 –v 6”这一点在测试中也非常清晰的展示出来了。现在v6对文字的处理正确率大幅提高,而且嵌入感也更好。然而可惜的是英文之外还是鬼画符。但v6已经能够完全进行符合画面的风格化文字创作了。 另一个例子中,可口可乐的字体被完全完美还原。 再来个标志设计图——文字完美贴合画面风格。设计师最后的阵地有点守不住了。 Midjourney v6展现出的强大能力看起来对摄影师和设计团队形成了更加真实的威胁——目前它展现出的审美,和谐的氛围能力已经直追高端摄影师。最可怕还不是它展现出的实力,而是它进化的速度——在Midjourney的公告中,他们还表示:v6的速度、图像质量、连贯性、提示遵循和文本准确性在未来几周内应该会提高。而v6 beta在发布半个小时之后宣布了第一次更新,生成速度提升了2.7倍。随着Midjourney v6的发布,新一轮图像生成模型的军备竞赛又要开始了。腾讯科技完整编译关于人工智能潜力及影响的报告👇🏻点击图片阅读👇🏻
Midjourney V6的此次更新会惹出麻烦?
Midjourney

Midjourney V6的此次更新会惹出麻烦?

本文来自微信公众号:阑夕(ID:techread),作者:阑夕,原文标题:《Midjourney V6这波更新可能会惹出麻烦》,题图来源:视觉中国 前几天,AI绘画工具Midjourney推出了V6版本,随后一如既往地赢得了巨大的盛赞。 V6模型的最大亮点,在于它对画面真实性的理解更加透彻了,无论是在细节的处理上,还是对于提示词的敏感,相比V5.2都有着前所未有的提升。 但在另一方面,随着被使用规模的增加,越来越多的人发现,Midjourney V6之所以能够拿出极其逼真的图画,可能是因为它的训练来源已经深入到了影视作品的每一帧上,而且并不掩饰生图时的一致性。 有很多用户已经发现了拟合度非常高的案例,比如下面这组对比,左边是“复仇者联盟”的电影截图,右边是Midjourney V6的出图: 来自X友Reid Southen 以及和2019年上映的电影“小丑”剧照的这个对比: 来自X友Min Choi 这再次触及到AI绘画的模糊风险:在被指控拿版权内容进行训练这件事情上,通常只能自证而非他证,AI公司“打马虎眼”的空间相当充裕,AI学习人类艺术是否是一项权利,也可以作为讨论议题拖延太久。 但是,重绘是一码事,叠图又是另一码事了,当你的产出里已经出现了高度拷贝原始图像的图画,由此引起的法律诉讼只会迎来爆炸式的增长。 事实上,我自己测试的结果,也能发现在那些具有高知名度,且影视素材流传极广的动画作品上,Midjourney V6的还原度,确实非常惊人: 火影忍者 瑞克和莫蒂 进击的巨人 驯龙高手 龙珠 海贼王 小黄人 蜘蛛侠:平行宇宙 乐高蝙蝠侠 这些图片都出自Midjourney V6,Prompt是很简单的一句[scene form xxx —ar 16:9 —style raw],很显然,如果不事先说明的话,将这些画面伪装成对应动画的截图,大概不会有多少人能够分辨出来。 当然,也有一些失败尝试,我的分析是,有些动画作品可能在知名度上是有的,但它的网络资源或是素材并没有那么丰富,或是样本被污染比较严重,导致Midjourney V6在训练时的容易走偏,所以复现效果就会变差不少: 灌篮高手 穿靴子的猫 猫和老鼠 总之就还挺迷的,作为AI的使用者,当然希望获得更加强大的产品能力,可是如果AI公司不能建立一个公允且可持续的商业模式,最后也可能会为行业遭致灾祸。 也不能完全说AI的拟合行为是不可容忍的,毕竟从Prompt来看,如果你指明让AI还原一部影视作品,它要是没做到这样的程度,反而会是某种意义上的失职,只是在一个非开源的、商业化的产品生态里,风险是有集中性的。 虽说给猴子一台不会坏的打印机和无限的时间,它终有一日能够打出“哈姆雷特”的全集出来,但无论是艺术还是科学,都不会膜拜这只猴子。 本文来自微信公众号:阑夕(ID:techread),作者:阑夕 本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com 如对本稿件有异议或投诉,请联系tougao@huxiu.com End
Midjourney地位不稳?AI绘图又一黑马出现,附4款产品一手实测
Midjourney

Midjourney地位不稳?AI绘图又一黑马出现,附4款产品一手实测

一水 发自 凹非寺 量子位 | 公众号 QbitAI AI圈,再次开卷图像生成。 一连串进展扎堆: 8月21日,Ideogram正式推出2.0版本,声称文本渲染能力更强。 没错,就是那个成立于去年8月,由谷歌AI绘画4大牛集体离职创业的项目,曾获得过一众AI大佬投资。 此番Ideogram还公开叫板Flux,官方自信表示其人类评估明显优于Flux Pro。 要知道,Flux由Stable Diffusion原班人马打造,最近正在因生成以假乱真的TED演讲“照片”而走红各大网络。 除此之外,一周前,谷歌正式放出了Imagen 3,在官方评估中,号称表现优于DALL-E 3、Midjourney v6、Stable Diffusion 3等一众绘图模型。 或许是受刺激了(doge),Midjourney竟然也转性了,在8月22日直接向所有用户推出了免费网页版。 这下有好戏看了! 既然大家都宣称自己很强,那我们不妨把大家拉到一桌,来搞个面对面PK。 谁是最强绘图AI? 先请出咱们的4位参赛选手(全部使用网页版): 1号选手:Ideogram 2.0。每天免费有10积分,1积分可以生成4张图,每天最多生成40张图;2号选手:Flux.1。黑森林官方在Hugging Chat提供了免费demo(选FLUX.1 Schnell版本);3号选手:Imagen 3。在Image FX上可以免费无限次使用;4号选手:Midjourney。免费试用期一共只有生成25张图的机会; 下面正式进入比赛环节。 黑猴子全翻车了 一上来,为了检验这些国外AI是否理解中文提示词,咱们也来蹭一波当今顶流黑猴子的热度。 prompt:游戏角色,一只猴子,身披盔甲,头戴凤羽金冠,手上拿着一根金箍棒,站在一座悬崖之上。 不出意外,意外发生了…… 相信大家一眼都被3号的大红叉给吸引了。没错,同一提示词下,只有3号Imagen 3拒绝了生成请求。 看到这儿,第一反应是我们的提示词是不是触发了版权保护。于是先删掉了提示词中的“游戏角色”,结果还是提醒无法生成。 难道是谷歌Imagen 3不支持中文?于是又随机换了一个更简单的提示词,这下倒是有图了。 只不过结果一整个大错误,而且换了多个中文提示词,最终都是一些毫不相关的纹路图。 看来谷歌Imagen 3确实对中文提示词不ok。 3号落榜之后,再看其他几位,也只有1号Ideogram...
全球科技早参 | X平台巴西业务恐被关闭;Midjourney进军硬件领域;OpenAI携手Anthropic同意与美国政府合作进行安全测试
Midjourney

全球科技早参 | X平台巴西业务恐被关闭;Midjourney进军硬件领域;OpenAI携手Anthropic同意与美国政府合作进行安全测试

每经记者:文巧 每经实习记者:岳楚鹏 每经编辑:高涵 |2024年8月30日 星期五| NO.1 X平台巴西业务恐被关闭 当地时间8月29日,据外媒报道,巴西最高法院法官亚历山大·德莫赖斯向埃隆·马斯克发出最后通牒:必须在当地时间8月29日晚8点07分前,在巴西任命新的法定代表人,否则X将被禁止。这场持续的纠纷发生在X关闭其在巴西的办事处之后,此前X被勒令删除多个涉嫌传播仇恨言论和错误信息的账户。目前,该服务仍可供巴西约4000万月度用户使用。 点评:这凸显了全球社交媒体平台在不同国家面临的法律合规压力,以及内容监管与企业运营之间的紧张关系。 NO.2 Midjourney进军硬件领域 当地时间8月29日,知名AI图像生成公司Midjourney宣布进军硬件领域,并邀请求职者申请加入其新的硬件部门。Midjourney已经雇佣了前Apple Vision Pro工程师Ahmad Abbas作为硬件部门的主管。 点评:Midjourney的硬件领域扩展可能推动AI图像生成技术与硬件设备的深度融合,为未来的智能设备和交互方式带来新的创新和应用场景。 NO.3 OpenAI携手Anthropic同意与美国政府合作进行安全测试 当地时间8月29日,美国政府宣布与OpenAI以及Anthropic达成合作协议,以帮助测试和评估他们即将推出的人工智能安全技术。美国AI安全问题研究所将提前获得这些AI科技公司的主要新AI模型,以评估其能力范围和风险,并就缓解潜在关键问题的方法进行合作。 点评:这标志着对AI技术安全性的高度重视,并通过提前评估新AI模型,推动技术的安全发展和风险管理。 NO.4 Magic获得3.2亿美元融资,将与Google合作开发AI超级计算机 当地时间8月29日,专注于代码生成和软件开发自动化的AI初创公司Magic,在最新一轮融资中筹集了3.2亿美元。此次融资由前Google首席执行官Eric Schmidt领投。Magic还宣布将与谷歌合作开发两台AI超级计算机,目标是彻底改变AI模型训练和推理。 点评:表明AI自动化在软件开发领域的潜力,并可能通过新型AI超级计算机推动模型训练和推理的突破。 NO.5 优步宣布与自动驾驶科技初创公司Wayve建立合作伙伴关系 当地时间8月29日,优步和英国人工智能初创公司Wayve宣布建立合作伙伴关系,两家公司将在自动驾驶技术方面进行合作。两家公司在一份声明中表示,作为交易的一部分,优步还向Wayve投资了一笔未披露的金额,以获得少数股权。 点评:优步与Wayve的合作及投资标志着优步在自动驾驶技术领域的进一步布局,并可能推动其未来的自动驾驶解决方案发展。 每日经济新闻