VAST宋亚宸:3D生成迈入秒级时代,今年将做到Midjourney V5/V6水平
Midjourney

VAST宋亚宸:3D生成迈入秒级时代,今年将做到Midjourney V5/V6水平

作者 | GenAICon 2024 2024中国生成式AI大会于4月18-19日在北京举行,在大会第二天的主会场AIGC应用专场上,VAST创始人兼CEO宋亚宸以《大模型Tripo驱动3D生成迈入秒级时代》为主题发表演讲。 从文字、图片到视频、3D,信息载体不断升级,宋亚宸谈道,3D的体验质量、信息密度不断提升且更具互动性。他认为目前3D生成已经达到类似Midjourney V3的效果,今年9月将达到类V4效果,年底达到类V5/V6效果,实现真正可用,甚至通过图灵测试。 VAST是3D生成模型领域的第一梯队玩家,已打造全球最大的几个3D生成开源社区,并与Stability共同开源了全球最大、0.5秒图生3D模型TripoSR。其创始人兼CEO宋亚宸也是首位在计算机图形学顶会SIGGRAPH上发表主舞台主题演讲的中国创业者。 据宋亚宸分享,VAST的3D大模型Tripo上线百余天内生成了超过200万个3D模型。为了应对3D生成创作成本和门槛过高的挑战,VAST将3D内容平台和大众级创作者平台结合。当前这家创企已拥有超过200家B端客户,并基于其平台开发出原生AI爆款小游戏,一周突破10万用户。 以下为宋亚宸的演讲实录: AIGC会使游戏的创作门槛和成本无限降低,这就是我们做的事情。 我们是做3D大模型的公司,产品核心就是将用户输入的文字或者图片快速生成3D模型。3D模型可以在游戏、动画、影视、元宇宙、3D打印等行业中直接使用,其本身带有Mesh、贴图、材质,你可以进入传统管线二次编辑,进行驱动、渲染等。3D模型还可以拥有带骨骼、带动作等格式,出现很多种有意思的使用方式。 那么,我们为什么要做3D这件事? 文字、图片、视频、3D中,3D是非常特殊的品类,从文字、图片、视频到3D是信息载体不断升维的过程,3D也被认为是最终的信息载体,其信息密度、体验质量都在不断提升,同时拥有双向互动性。 因此,我们相信世界正在进入一个3D新时代。 一、3D生成迎新拐点,今年做到Midjourney V5/V6水平 为什么现在做3D生成这件事情?OpenAI的GPT-3刚发布时,关注的人并不多,在其基础上做的应用、开发也相对较少,仅有如Replika等少数几个应用,大家对它的认知比较少,使其很难进行商业化。 直到2022年11月份,ChatGPT的发布成为了一个非常大的拐点,我们称其为用户的Aha Moment(顿悟时刻)。这一产品对整个行业、逐步进行商业化、用户量提升都有很大的影响。 Midjourney也类似,2022年7月份V3推出时,用户量并不多,也没有收费功能,知道Midjourney的人寥寥无几。直到半年以后,Midjourney于2022年11月份推出V4,我们认为这诞生了文生图的下一个拐点,在这个拐点上有了非常大的提升,其产品的用户量、收费方式、商业化等都得到了满足。 再来看3D,我们现在看到的3D生成,类似于Midjourney V3的水平,但已经可以在一些场景使用起来了。 预计到今年9、10月份,3D生成可以达到Midjourney V4的水平;今年年底可以达到类似于Midjourney V5的水平,通过图灵测试,并带来一次非常大的商业变革。 从3D生成的演进过程来看,除了像我们这样的创业公司,谷歌、英伟达、OpenAI、Meta、Adobe等海外企业都已进入到3D生成这个领域。 在学术上,我们从布局3D原生路线、2D优化路线、多视角生成、编辑动态场景到人物生成,在CVPR、ICLR等国际顶会上都发表了大量论文,并开源了相应技术。 全世界最大的几个3D生成开源社区都是由我们做的,比如与Stability AI共同开源了全世界最大、效果最好的图生 3D大模型TripoSR,我们还开源了全世界最大的3D算法框架Threestudio、超火爆的单图生3D算法Wonder3D,以及TGS、CSD等开源项目。 我们预计2024年年底会把3D生成做到Midjourney V5甚至V6的水平,达到下一个爆发时刻。 3D的核心在于可交互、可体验,甚至带一些游戏性。所以我们会同步做3D动态的内容生成,包括骨骼的自动绑定、动作生成,这已经在我们产品里上线。 同时,我们认为在明年或许会实现,每一个人都有能力去生成无限个属于自己的3D内容,不管是游戏、XR体验,还是任何的3D内容,这也是我们对整体3D内容生成趋势的判断。 二、3D创作门槛和成本太高,需要大众化3D内容平台 我们刚刚讲了很多AI 3D技术,但我更希望和大家分享我们是怎么把AI 3D玩起来的。 我们认为AI 3D是在拓展人类能力的边界。我随便在门口拉个人进来,让他给我发一个Twitter,可能只需要5秒钟。我说你再给我发一个TikTok,他做一下剪辑,可能2分钟就能搞定。如果我让他做个游戏,他可能会说:“好,给我3年时间、1000个人、2亿美金,我给你做个游戏。”这是很正常的。 3D为什么这么特殊?是因为其创作门槛和成本太高,它没有诞生出一个属于自己的内容平台,同时也没有实现内容的爆发。 我为什么这么说?比如我刚刚举的例子,文字有微博、贴吧作为内容平台,图片有Instagram、小红书作为内容平台,视频有TikTok、抖音、快手、YouTube,音乐有Spotify,甚至声音都有喜马拉雅,但是3D缺少大众的内容平台。核心就是生成门槛和成本太高了。 如果有一天我跟你说,发个小红书需要给我10万块钱、拍个TikTok需要3年,那你可能就不会发布内容了。因此,核心点在于3D内容成本高,如果需要1亿美金,我就得赚1亿美金回来,自然使得其内容非常少。 但如果有一天,3D内容的成本被降到无限接近于0,是不是每个人都可以低成本创作3D内容?这样一来,创作3D内容不再是为了赚钱,而是像发小红书一样,宣泄自己的情感、表达自己的想法、炫耀自己的创意,这可能是未来每个人制作3D内容、做虚拟世界、探索各种各样虚拟玩法最核心的诉求,不需要再考虑怎么赚钱。 3D创作者也会发生变化,不再是游戏大厂里面的建模师、动画师,可能是我们在座的每一位,所以我们在拓展人类的边界。...
Midjourney成功的关键:不只靠技术,还有社区
Midjourney

Midjourney成功的关键:不只靠技术,还有社区

过去一年,人工智能生成的以假乱真图片占据着互联网的各个角落。能完成工作的人工智能产品或系统全球有上百个,比如开源的Stable Diffusion、OpenAI开发的DALL·E2,中国也有Tiamat、文心一格等产品。 但人们往往更痴迷Midjourney的作品。现在全球有1700多万人使用Midjourney,至少是Stable Diffusion网页版的7倍,DALL·E2的6倍。 很难说这是Midjourney技术领先的结果。它用到的基础技术几乎与Stable Diffusion以及中国类似的产品没有本质差别。比底层技术更明显的差别,是它们与用户的交互方式。 OpenAI的DALL·E2是一个网页,Stable Diffusion普通版同样是网页,想极致发挥它的能力,需要使用者用数据训练模型。而Midjourney在社区产品Discord里,许多用户集中在一个“房间”内,输入提示词,等待一分钟收到生成的图片——用户的提示词和图片会被彼此看到。 (图片来源:discord) “一项技术最大的限制不是规模、成本或运行速度,而是我们如何与它互动。”Midjourney创始人大卫·霍尔茨(David Holz)说,“不管我们多聪明,技术多好,我们如何使用技术,才决定了我们能做什么。”他在接受采访时,多次提到在社区产品中构建Midjourney是其成功的关键之一。 今年Midjourney尝试进入中国市场,同样选择了类似Discord的产品QQ频道。不同的是,在中国市场,沿着社区路径、成为受用户喜爱的文生图工具的机会,不一定属于Midjourney。 (图片来源:QQ频道) 6月16日,中国人工智能作图创业公司Tiamat宣布入驻社区应用Fanbook中。Fanbook是创梦天地在2021年7月推出的社群应用,现在已经积累了千万用户,是中国最大的社区类产品之一。 就像Discord与Midjourney的互相成就一样,在中国,Fanbook的社区生态有望助力Tiamat迅速发展。除了为 Tiamat搭建社区提供全方位支持,Fanbook还推动Tiamat与平台里「梦幻家族」和「地铁跑酷」两大游戏社区开展联合活动,借助庞大的用户群体推动Tiamat迅速在Fanbook社区生态中发展壮大。 在Fanbook看来,与Tiamat的合作只是它们在人工智能领域的尝试之一。未来,他们希望和更多技术厂商一起,建立中国人工智能生态,共同开拓社区的多元价值。 一、社区正在成为新品增长的杠杆 2022年初,Midjourney开发出早期产品即将内测,摆在创始团队面前的一个悬而未决的问题是,用什么样的交互方式,才能让用户并充分了解、并用好这个历史上几乎没出现过的产品。 Midjourney做了一场测试,召集上百名潜在用户,告诉他们“有一个应用,可以画任何东西,你想画什么?”得到的反馈超过90% 是“狗”,如果让用户提更多的需求,反馈变成了“大狗”或“毛茸茸的大狗”。 “这与搜索引擎基本没什么区别,”大卫·霍尔茨感慨。他们决定把用户放到同一个环境里与应用交互,出现了新的反馈——那些说“狗”的人,会看到别人说“太空狗”“发射激光的太空狗”,然后会重新理解应用。 这次测试让Midjourney确定把Discord当做应用载体。在社区中,Midjourney的用户相互激发,创造出了大量以假乱真、充满想象力的作品,帮助Midjourney破圈吸引更多用户,奠定了成功基础。 不只是Midjourney,越来越多品牌看重社区的价值。2022年,奢侈品牌Gucci在Discord上建立了首个数字社区,其执行副总裁尼古拉·乌迪诺(Nicolas Oudinot)强调此举是为了通过社区与消费者建立“真正的对话”。同一年,李宁也联合元宇宙项目秘塔王国在Fanbook举办“猿宇宙运动嘉年华”,拓宽与年轻消费者的联结渠道。 咨询机构麦肯锡在一份报告中称“社区是新时代建立品牌更好的方法”。他们发现“发展最快的品牌,都在搭建数字社区,提高用户的参与度和忠诚度,并结合快速测试和学习的方法,让回报更高,风险更低”。 (图片来源:麦肯锡报告) Fanbook母公司创梦天地的联合创始人兼CTO关嵩是这一趋势的亲历者。他发现社区对有用户基础的品牌也能发挥作用,“在抓住核心用户和培养黏性上有显著的优势”。2023年初,借助Fanbook用户内容共创,运营超过了10年的游戏《地铁跑酷》重新获得高速增长,春节期间DAU达到了2000万,创下近年来新高。 而Tiamat选择入驻Fanbook,正是认识到了社区对品牌建立、产品早期发展的重要性。对于新兴公司,想要通过社区建立品牌增长的“飞轮”,关嵩认为关键是“对初期超级用户进行精细化社区运营”。 这不仅需要品牌方有社区运营意识,还需要社区产品准确地把握品牌和用户需求,提供良好的服务和工具。这是Fanbook成立以来最为重视的指标之一。 二、做好社区产品,只提供搭建工具远远不够 社区产品是现在互联网领域最受重视的赛道。Discord是现在最受关注、最成功的社区产品。2021年初,微软向 Discord抛出价值120亿美元的收购邀约。 对于一个刚成立六年的社交媒体公司来说,120亿美元的估值意味着巨大的成功。移动互联网时代格局定型后,几乎没有社交应用达到这么高的估值。但Discord拒绝了,他们觉得自己的空间还能更大。不到半年,Discord在新一轮融资中,估值到了150亿美元。 媒体Protocol复盘Discord的发展历史,觉得它能从一个游戏爱好者交流工具成长起来充满偶然,毕竟市场上已经有了非常成熟社交媒体应用,而且用户的需求实在太难把握。 前经纬创投投资人庄明浩把Discord的核心拆成产品架构(皮)、游戏到泛兴趣的用户运营(肉)、基于Bot有了开放平台的雏形(骨)三层。他认为在中国复刻一个Discord这件事似乎是可行的。但中国用户看重手游、大游戏公司自己下场、微信和QQ等超级应用压制等,做成类似Discord的产品更难。 (图片来源:海外独角兽) 纵观国内,Fanbook的产品结构和运行机制都与上述案例较为类似,都是基于频道的即时聊天工具,可以通过建立不同的频道实现不同的主题,同时基于机器人插件机制,扩展社区性能。经过三年迭代,Fanbook里已经有了不少用户规模数超过10万、甚至过百万的用户社区。 更关键的是,Fanbook还会调度成熟的社区生态帮助新品牌成长,从平台整体出发增强社群之间的联系,放大社区的价值和吸引力。这次Fanbook与Tiamat合作就是典型范例——Fanbook不只是为Tiamat提供社区平台,还联合了“梦幻家族”和“地铁跑酷”两个有数百万用户的成熟游戏社群,与Tiamat共同发起活动,让更多的用户使用Tiamat的人工智能工具。 (图片来源:梦幻家族&地铁跑酷fanbook社区) 活动不到3天,玩家们就用Tiamat生成了上万张图片。得益于Fanbook的“发现”和“圈子”的功能设置,这些图片一方面会沉淀在社区中,增加用户的活跃度和参与度;另一方面,通过用户的二创和二次传播,分享到域外,带来更多新增。 基于频道的即时交流社区,是AIGC的最佳落地场景。这是Tiamat为什么选择Fanbook,而不是其他同类产品的原因之一。对于Tiamat来说,Fanbook还能提供广泛的使用场景和大量用户参与,形成反馈数据帮它迭代模型,让它变得更好。 (图片来源:梦幻家族&地铁跑酷fanbook社区) 三、AIGC浪潮中,社区产品迎来新机会 在这波AIGC浪潮中,社区产品不只是服务者,同样也是受益者。 流量分析工具SimilarWeb统计,为Discord带来流量的外部网站中,Midjourney的官网占比四分之一,是排在第二的Roblox的近四倍。根据Discord官方数据,现在Discord的新增用户中,10%是为了体验人工智能功能。...
夜色魅影?如何捕捉街头高挑美女的独特色彩?
Midjourney

夜色魅影?如何捕捉街头高挑美女的独特色彩?

文章聚焦于如何捕捉高挑美女在深夜城市街道的街拍艺术,强调了设备(全画幅相机配大光圈)的重要性、服装选择与环境光的巧妙运用,以及构图原则和人物情绪的表达。技术上要求配备低光拍摄能力,通过三脚架稳定,同时建议尝试不同角度和利用现有光源。后期处理也是提升作品艺术感的关键。整篇文章阐述了深夜街拍作为摄影师挑战与创作机会的结合。