西班牙用DALL-E生成老照片,正探索联用回忆疗法治疗痴呆症患者
Midjourney

西班牙用DALL-E生成老照片,正探索联用回忆疗法治疗痴呆症患者

20 世纪 40 年代,玛丽亚在西班牙巴塞罗度过了一段童年时光。她对父亲的记忆仍历历在目。 六岁的时候,当玛丽亚想见父亲时,就会去同一栋楼里的邻居家。因为她可以透过那里的阳台栏杆看到下面的监狱,并通过牢房的小窗户瞥见父亲。她的父亲因反对当时的政府而被关在那里。 这段阳台上的记忆并没有照片,但现在玛丽亚可以获得相似的东西:一张“假照片”。在巴塞罗那 Domestic Data Streamers(DDS)设计工作室看来,这是“基于记忆的重建”,也就是重建真实照片可能捕捉到的、记忆中的那个场景。 假照片是模糊而扭曲的,但它们仍然可以让人瞬间穿越回记忆中的那个时刻。 “你很容易分辨出对记忆的还原是否准确,因为这是一种发自内心的反应。” DDS 工作室的创始人保罗·加西亚(Pau Garcia)说,“这种情况每次都会发生。人们的反应是,‘啊!是的!就是这样!’” (来源:DOMESTIC DATA STREAMERS) 目前,DDS 工作室运营的“合成记忆”项目,已经将数十人的记忆以这种方式转化为图片。该工作室使用了图像生成模型,如 OpenAI 的 DALL-E,将人们的记忆具象化。 自 2022 年以来,该工作室获得了联合国和谷歌的资助,一直在与世界各地的移民和难民社区合作,将那些从未被拍摄过的场景转化为图像,或为那些背井离乡的人重塑早已遗失的老照片。 现在,DDS 工作室正在接管巴塞罗那设计博物馆旁边的一座建筑,用合成图像记录人们对这座城市的记忆。加西亚说,任何人都可以参与,为不断壮大的档案贡献记忆。 合成记忆可能不仅仅是一种社会或文化努力。2024 年夏天,该工作室将开始与研究人员合作,研究其技术是否可以用于治疗痴呆症。 令人难忘的涂鸦 该项目的想法来自加西亚 2014 年的一次经历,当时他在希腊与一个组织合作,该组织正在重新安置叙利亚难民家庭。 一名妇女告诉他,她并不害怕成为难民,但她害怕她的子孙后代成为难民,因为他们可能会忘记自己的家族历史:他们在哪里购物,穿什么衣服,如何穿这些衣服。 加西亚让志愿者在这些家庭居住的大楼墙上涂鸦,画下这名妇女的记忆。“那些涂鸦很糟糕,但合成记忆的想法诞生了。”他说。 几年后,当加西亚看到图像生成模型可以做什么时,他想起了那些涂鸦:“这是我最先想到的事情。” (来源:DOMESTIC DATA STREAMERS) 加西亚和他的团队采用的流程很简单。他们与受访者坐下来,让后者回忆特定的场景或事件。一位提示工程师根据回忆为模型编写提示(prompt),从而生成图像。 他的团队已经建立了一套提示术语词汇表,这些词汇经过了验证,适用于唤起不同历史时期和不同地点的记忆。 但加西亚说,提示经常要反复调整:“你把生成的图像展示给受访者,他们可能会说,‘哦,椅子在另一边’或者‘是在晚上,而不是白天。’然后你要不断修改提示,直到它与受访者的记忆一致。” 到目前为止,DDS 工作室已经使用这项技术来保存各种移民社区的记忆,包括居住在巴西圣保罗的韩国、玻利维亚和阿根廷家庭。 同时,它还与巴塞罗那的一家养老院合作,研究这种记忆重建技术如何帮助老年人。 该团队与巴塞罗那的研究人员合作,进行了一项由...
OpenAI推出专用AI检测工具 识别DALL-E生成图像准确率达98%
Midjourney

OpenAI推出专用AI检测工具 识别DALL-E生成图像准确率达98%

财联社5月7日讯(编辑 史正丞)随着AI生成的图片、视频越来越“真”,识别互联网信息来源和真实性的需求正变得愈发迫切。 当地时间周二,美国科技公司OpenAI发布公告称,为了区别照片是由相机还是自家AI生成的,公司推出了一款图像检测分类器——用来分析一幅图像是由OpenAI的“文生图”工具DALL·E 3生成的概率。公司从周二开始接受研究人员访问该工具的申请。 (来源:OpenAI官网) 识别成功率颇高 OpenAI介绍称,在内部对分类器进行的早期测试显示,该工具在区分非AI生成图像与DALL·E 3生成的图像方面成功率很高,成功率能够接近98%,同时只有少于0.5%的非AI图像被错误地标记来自DALL·E 3。同时这个工具能够应付一系列常见的修改,例如压缩、裁剪和修改图像饱和度。 (来源:OpenAI官网) 然而,这项工具也有局限性,也显示出“识别AI”这条路才刚迈上第一步。OpenAI透露,如果对图片进行一些微小的修改,就可能会扰乱工具的可靠性。同时,该工具在区分DALL·E 3与其他AIGC工具的产出方面也表现不佳。不过OpenAI也强调,开发这个工具的意图本来就不是用来检测其他热门工具(例如Midjourney)生成的图像。 OpenAI的政策规划主管大卫·罗宾逊对媒体表示,鉴于2024年是美国的选举年,选举问题绝对是推动这项工作(识别AI产物)的主要动机,这是公司从政策制定者那里听到的头号担忧。 从最新进展来看,识别AI图像的前景要明显好于分辨AI生成的文字。OpenAI曾在去年推出过一个检测AI生成文字的工具,但识别准确率低到让公司自己都强调“这个工具不可靠”。 OpenAI的AI政策研究员Sandhini Agarwal也表示,对于大选年的“深度伪造”泛滥问题,新的识别工具可能有助于遏制这种情况,但不会根治问题。Agarwal强调,在打击“深度伪造”方面,压根就没有灵丹妙药。 从源头解决问题:给AI打数字水印 除了通过识别最终作品来判断是否由AI生成外,解决这个问题还有一个更直接的方法:在工具生成图片、视频时就打上“AI水印”,后续只需要识别图片是否存在这类标记即可。 OpenAI也在周二宣布加入了C2PA的指导委员会。 C2PA的全称是内容出处和真实性联盟(Coalition for Content Provenance and Authenticity),旨在制定技术标准来对抗网络上的误导信息。其中也包括被称为“内容证书”的防篡改元数据,展示内容是如何被创建或修改的。微软、Meta、谷歌、索尼、Adobe等公司也是指导委员会的成员。 (来源:C2PA) OpenAI确认,从今年早些时候开始,已经向由DALL·E 3 、ChatGPT和OpenAI API创建和编辑的图像中添加C2PA元数据。等到“文生视频”模型Sora大规模推出后,也将向产出添加C2PA元数据。 公司表示,使用者无法轻易伪造或者更改此类信息,这将使其成为建立信任的重要资源,相信这种元数据能够成为填补数字内容真实性的关键空白。返回搜狐,查看更多 责任编辑:
VAST宋亚宸:3D生成迈入秒级时代,今年将做到Midjourney V5/V6水平
Midjourney

VAST宋亚宸:3D生成迈入秒级时代,今年将做到Midjourney V5/V6水平

作者 | GenAICon 2024 2024中国生成式AI大会于4月18-19日在北京举行,在大会第二天的主会场AIGC应用专场上,VAST创始人兼CEO宋亚宸以《大模型Tripo驱动3D生成迈入秒级时代》为主题发表演讲。 从文字、图片到视频、3D,信息载体不断升级,宋亚宸谈道,3D的体验质量、信息密度不断提升且更具互动性。他认为目前3D生成已经达到类似Midjourney V3的效果,今年9月将达到类V4效果,年底达到类V5/V6效果,实现真正可用,甚至通过图灵测试。 VAST是3D生成模型领域的第一梯队玩家,已打造全球最大的几个3D生成开源社区,并与Stability共同开源了全球最大、0.5秒图生3D模型TripoSR。其创始人兼CEO宋亚宸也是首位在计算机图形学顶会SIGGRAPH上发表主舞台主题演讲的中国创业者。 据宋亚宸分享,VAST的3D大模型Tripo上线百余天内生成了超过200万个3D模型。为了应对3D生成创作成本和门槛过高的挑战,VAST将3D内容平台和大众级创作者平台结合。当前这家创企已拥有超过200家B端客户,并基于其平台开发出原生AI爆款小游戏,一周突破10万用户。 以下为宋亚宸的演讲实录: AIGC会使游戏的创作门槛和成本无限降低,这就是我们做的事情。 我们是做3D大模型的公司,产品核心就是将用户输入的文字或者图片快速生成3D模型。3D模型可以在游戏、动画、影视、元宇宙、3D打印等行业中直接使用,其本身带有Mesh、贴图、材质,你可以进入传统管线二次编辑,进行驱动、渲染等。3D模型还可以拥有带骨骼、带动作等格式,出现很多种有意思的使用方式。 那么,我们为什么要做3D这件事? 文字、图片、视频、3D中,3D是非常特殊的品类,从文字、图片、视频到3D是信息载体不断升维的过程,3D也被认为是最终的信息载体,其信息密度、体验质量都在不断提升,同时拥有双向互动性。 因此,我们相信世界正在进入一个3D新时代。 一、3D生成迎新拐点,今年做到Midjourney V5/V6水平 为什么现在做3D生成这件事情?OpenAI的GPT-3刚发布时,关注的人并不多,在其基础上做的应用、开发也相对较少,仅有如Replika等少数几个应用,大家对它的认知比较少,使其很难进行商业化。 直到2022年11月份,ChatGPT的发布成为了一个非常大的拐点,我们称其为用户的Aha Moment(顿悟时刻)。这一产品对整个行业、逐步进行商业化、用户量提升都有很大的影响。 Midjourney也类似,2022年7月份V3推出时,用户量并不多,也没有收费功能,知道Midjourney的人寥寥无几。直到半年以后,Midjourney于2022年11月份推出V4,我们认为这诞生了文生图的下一个拐点,在这个拐点上有了非常大的提升,其产品的用户量、收费方式、商业化等都得到了满足。 再来看3D,我们现在看到的3D生成,类似于Midjourney V3的水平,但已经可以在一些场景使用起来了。 预计到今年9、10月份,3D生成可以达到Midjourney V4的水平;今年年底可以达到类似于Midjourney V5的水平,通过图灵测试,并带来一次非常大的商业变革。 从3D生成的演进过程来看,除了像我们这样的创业公司,谷歌、英伟达、OpenAI、Meta、Adobe等海外企业都已进入到3D生成这个领域。 在学术上,我们从布局3D原生路线、2D优化路线、多视角生成、编辑动态场景到人物生成,在CVPR、ICLR等国际顶会上都发表了大量论文,并开源了相应技术。 全世界最大的几个3D生成开源社区都是由我们做的,比如与Stability AI共同开源了全世界最大、效果最好的图生 3D大模型TripoSR,我们还开源了全世界最大的3D算法框架Threestudio、超火爆的单图生3D算法Wonder3D,以及TGS、CSD等开源项目。 我们预计2024年年底会把3D生成做到Midjourney V5甚至V6的水平,达到下一个爆发时刻。 3D的核心在于可交互、可体验,甚至带一些游戏性。所以我们会同步做3D动态的内容生成,包括骨骼的自动绑定、动作生成,这已经在我们产品里上线。 同时,我们认为在明年或许会实现,每一个人都有能力去生成无限个属于自己的3D内容,不管是游戏、XR体验,还是任何的3D内容,这也是我们对整体3D内容生成趋势的判断。 二、3D创作门槛和成本太高,需要大众化3D内容平台 我们刚刚讲了很多AI 3D技术,但我更希望和大家分享我们是怎么把AI 3D玩起来的。 我们认为AI 3D是在拓展人类能力的边界。我随便在门口拉个人进来,让他给我发一个Twitter,可能只需要5秒钟。我说你再给我发一个TikTok,他做一下剪辑,可能2分钟就能搞定。如果我让他做个游戏,他可能会说:“好,给我3年时间、1000个人、2亿美金,我给你做个游戏。”这是很正常的。 3D为什么这么特殊?是因为其创作门槛和成本太高,它没有诞生出一个属于自己的内容平台,同时也没有实现内容的爆发。 我为什么这么说?比如我刚刚举的例子,文字有微博、贴吧作为内容平台,图片有Instagram、小红书作为内容平台,视频有TikTok、抖音、快手、YouTube,音乐有Spotify,甚至声音都有喜马拉雅,但是3D缺少大众的内容平台。核心就是生成门槛和成本太高了。 如果有一天我跟你说,发个小红书需要给我10万块钱、拍个TikTok需要3年,那你可能就不会发布内容了。因此,核心点在于3D内容成本高,如果需要1亿美金,我就得赚1亿美金回来,自然使得其内容非常少。 但如果有一天,3D内容的成本被降到无限接近于0,是不是每个人都可以低成本创作3D内容?这样一来,创作3D内容不再是为了赚钱,而是像发小红书一样,宣泄自己的情感、表达自己的想法、炫耀自己的创意,这可能是未来每个人制作3D内容、做虚拟世界、探索各种各样虚拟玩法最核心的诉求,不需要再考虑怎么赚钱。 3D创作者也会发生变化,不再是游戏大厂里面的建模师、动画师,可能是我们在座的每一位,所以我们在拓展人类的边界。...
多模态预训练:DALL-E
Midjourney

多模态预训练:DALL-E

先导知识 残差网络TransformerCLIP 前言 这里要介绍的DALL-E[1]是OpenAI的多模态预训练模型,它的最显著的效果是在文本到图像的生成上。一个例子是图1的DALL-E根据输入“牛油果形状的扶手椅”生成的图像,它足以达到以假乱真的效果,生成的内容不仅逼真合理,甚至可以一定程度上启发人类设计师。DALL-E通过120亿参数的模型,在2.5亿图像文本对上训练完成。它是一个两阶段的模型:它的第一个阶段是离散变分自编码器(Discrete Variance Auto-Encoder,dVAE),用于生成图像的token。它的第二个阶段是混合了图像和文本特征的,以Transformer为基础的生成模型。在DALL-E中,它使用了非常多优化模型准确率的技巧和提升训练效率的优化,下面我们来逐一介绍之。 图1:DALL-E根据输入“牛油果形状的扶手椅”生成的图像 1. 阶段1:离散变分自编码器 1.1 背景知识:变分自编码器 我们知道,由于图像特征的密集性和冗余性,它是不能直接提供给Transformer进行训练的。目前主流的方式,例如ViT,Swin-Transformer等都是将图像的Patch作为模型的输入,然后通过一个步长等于Patch大小的大卷积核得到每个Patch的特征向量。DALL-E提供的方案是使用一个离散的变分自编码器(dVAE)将大小为 256×256256\times256 的RGB图像压缩到大小为 32×3232\times32 的,通道数为 8,1928,192 的one-hot token的分布(注意这个one-hot的形式,它很重要),变分自编码器的架构如图2所示。换句话说,阶段1的作用是将图像映射到一个大小为 8,1928,192 的图表中。这里通道数为 8,1928,192 的one-hot向量可以看做是一个词表,它的思想和是通过离散VAE,实现图像特征空间想文本特征空间的映射。 图2:DALL-E阶段1使用的的离散变分自编码器 在深度学习中,变分自编码器(VAE)[2]和生成对抗网络(GAN)是最为常见的两个生成模型。提到VAE,则又不得不提自编码器(Auto-Encoder,AE),AE是一个常见的降维算法,它由编码器和解码器组成,编码器用于将输入 xx 压缩成信号 yy ,表示为 y=f(x)y = f(x) 。解码器用于将信号 yy 重构成内容 rr ,表示为 r=h(y)r = h(y) 。自编码器的误差定义为输入 xx 和重构内容 rr 的差值,它可以表示为式(1)。 (1)e=x−r=x−h(f(x))e...