文章主题:自然语言词汇高手 extracting keywords from the given text:

OpenAI, Sora, video generation, text to video

666AI工具大全,助力做AI时代先行者!

1712338888181.jpg

文 | 最话FunTalk,作者 | 何伊然,编辑 | 刘宇翔

OpenAI又一次震撼了科技圈。

在2月15日的某个时刻,OpenAI首次亮相了其最新的产品——名为Sora的视频生成模型。官方描述中提到,Sora是一款从文本到视频的模型,能够轻松地创建出长达一分钟的短视频,并且始终保持高清画质和对用户指示的高度响应。

Sora这个词汇,源于日语,意为“天空”。在英文中,它被赋予小鸟在空中欢快地歌唱的意象。这里提到的Sora,实际上是OpenAI公司 earlier推出的图像生成系统DALL·E与AI对话机器人ChatGPT的融合之作,呈现出的精彩视频版本。

在过去的的一年中,生成式AI视频创业已经成为了的热门创业领域,出现了许多备受关注的独角兽公司,同时也诞生了许多富有创意的作品。尽管如此,许多人仍然认为AI生成的视频与真实拍摄的视频之间存在着明显的差距,因此在短期内全面推广商业化的难度较大。然而,Sora的演示样片的出现,彻底颠覆了人们的认知。

从OpenAI提供的示例中可以看出,用户只需提供简洁的文字描述,Sora就能将文本内容转化为精美的短视频。

在繁华的东京街头,你会看到无数年轻东亚女性的倩影。她们优雅地漫步在霓虹灯光的映衬下,仿佛是城市中一道独特的风景线。在这个充满活力的城市,两艘战船在咖啡杯中寻求着和平的迹象,它们之间的冲突似乎被这杯咖啡所化解。街头巷尾,黑人小伙们也在此享受着他们的音乐时光。他们或站在云端,或倚靠在墙角,倾听着那些在空中飘荡的音乐,仿佛是在寻找着心灵的归宿。而在古镇的巷子中,迎接龙灯的男女老少们也在欢庆着这个重要的时刻。他们的笑容洋溢着喜悦,他们的眼神中闪烁着期待和希望。这些画面,不仅包含了详细且生动的场景描绘,人物的表情和动作也被捕捉得淋漓尽致,仿佛观者正在亲身经历这一切。而更令人惊叹的是,摄影师通过巧妙的角度和运动曲线,将同一个场景呈现出了多种不同的视点,让人仿佛是在观看一部精彩的电影。

Sora是一个神奇的工具,它能够根据静态图像来制作动画,无论是哪种风格的动画都能轻松实现。甚至可以说,它就像是动画工作室推出的最新短片。这个强大的功能使得Sora在动画制作领域具有极高的价值,为动画行业带来了前所未有的可能性。

如果不仔细观察,视频画面基本没有AI制作的违和感,甚至可以抵得上好莱坞娴熟的现场实拍和庞大的后期团队合在一起数月的工作量。

Sora的进化速度,连《流浪地球》的导演郭帆都发朋友圈感慨,“太快了”,并配上了“哭泣”的表情。

1712338888830.jpg

不止大佬郭帆,整个影视行业都在密切关注Sora。“Sora大幅提高了影视工业的生产力。”资深影视从业者老邱对《最话》说,“人人都可以成为导演的时代快来了。”

01 视频行业的iPhone时刻?

从样片来看,Sora呈现的效果远超Pika、Runway。之前的文生视频模型基本上是生成单镜头,一旦输入新的提示语,画面主体会出现明显变化。Sora生成的视频在视角转换、镜头景别切换后,可以保持主体的一致性,这让一个人足不出户制作独立完整的视频作品变为可能。

Sora正式上线后,专业短视频制作成本或将大幅度降低。

“用AI工具开发一个小说IP,前期开发的文字和图片成本可能是以前的十分之一,做一条30秒预告片demo的成本,成本可能是以前的二十分之一。”老邱认为,“有好多故事和题材,一个人用Sora就能做一条片子。”

但Sora的高效率会不会冲击到影视行业从业者的饭碗?

以短视频团队为例,短视频平台上1秒种长度的专业内容基本就对应着1个小时的专业工作量,一个账号基础配置包括出境博主、摄影师、剪辑师的3人团队。一个日更30秒视频的账号需要小团队每日的高频产出来维持更新频率。

使用AI生成视频后,不仅可以省去实地拍摄的所有成本,摄影师和剪辑师可有可无,甚至连博主都不需要了。只需一个人阐述文本内容就能运作多个账号,且每个账号的主角还能不一样。

据美媒报道,好莱坞正在担心AI将导致舞美、后期、特效等岗位出现大面积失业。有统计称,美国的创意行业未来三年将有近20.4万个岗位受到AI的冲击。

去年5月2日,美国编剧工会(WGA)宣布罢工。7月13日,代表16万演艺人员的美国演员工会及广播电视艺人联合工会(SAG-AFTRA)也宣布与制片公司的谈判破裂,从即日起进行罢工。两次大罢工,原因除了演员、编剧与资方的薪资矛盾外,人工智能可能取代演员和编剧的威胁成为主要原因。

据中国侨网消息,参与谈判的人表示,通货膨胀和流媒体生态系统、福利以及不受监管地使用人工智能的威胁削弱了他们的基本工资。

但也有业内人士对此抱有不一样的态度。乐观主义者将Sora视作是“视频行业的iPhone时刻”,将它视作辅助创意执行的工具。“Sora的魅力在于能够培养创造力。导演可以尝试不同的美学或场景,而无需承担与传统制作相关的财务风险,为以前仅限于想象力的叙事和视觉风格打开了大门。”

老邱也是类似的观点,“AI将大幅提升影视作品的产量,更多元的品类和商业玩法,从而抵消专业从业者被AI替岗的冲击。

AI生成工具需要大量内容进行训练,而这些内容都是此前创意行业从业者辛勤工作得出的成果,所以有创意工作者在质疑大模型训练是否侵权,AI生成的内容是否可以商用,甚至一些编剧拒绝将其作品用于AI训练和创作素材。

客观来说,版权保护、就业岗位与生成式AI发展存在相互制约的。目前,各国司法机构都没有给出明确的界定,短期内相关方还会处于博弈状态。

而相比起国外创意工作者担忧版权被侵权,国内从业者则看淡许多。目前,影视行业在研究如何引导AI制作电影短片。老邱认为,“在摸索如何用好AI工具方面,中国影视人非常卷,国外的影视人远远没有中国同行疯狂。”

02 “中国版的Sora”在哪?

受Sora影响的不止影视、创意、广告等行业。“Sora生成的视频质量之高,会让现有视频生成公司立即感受到威胁。”

Sora发布后,此前宣布全面拥抱AI的图片软件公司Adobe股价应声下跌7%,哪怕其去年推出的主打文生图的FireflyImage2、矢量图模型FireflyVectorModel以及设计模版生成模型FireflyDesignModel已经令人惊艳。

让人惊讶的是,Sora背后团队的核心成员仅有13人, 2位负责人也不过刚博士毕业。Tim Brooks是DALL-E 3作者之一,在英伟达实习时负责过视频生成研究项目;William Peebles则与CV行业大神级人物谢赛宁合作发表了DiT模型,首次将Transformer与扩散模型结合到了一起。

从时间线来看,Sora并非是酝酿多年的项目,就是这支年轻的团队在一年内搞出来的成果。Tim Brooks称:“我们认为建立能够理解视频的模型,并理解我们世界中所有这些非常复杂的交互,对于人工智能系统而言是非常重要的一步。”

Sora一出,OpenAI在生成式AI领域的领军地位再次得到了巩固,市场立刻给出了积极反馈。早已和奥尔特曼分道扬镳的马斯克在个人账号发出了“gg humans(人类服输)”的感叹。

从Meta离职加入纽约大学的谢赛宁盛赞Sora将改变行业,并在社交账号拆解起OpenAI构建大模型的逻辑。他分析称,Sora应该是建立在带有Transformer主干的扩散模型DiT之上的。Sora可能不需要庞大的GPU来训练,目前大约30亿个参数,仍有快速迭代空间。

面对外界的惊叹,OpenAI一如既往以退为进,用谦虚的言辞炫耀着实力。

OpenAI称,Sora存在难以准确模拟复杂场景的物理特性、无法理解因果关系的具体实例和混淆提示空间细节的缺陷,目前还处在测试阶段。公司将会给视觉艺术家、创意工作者提供访问权限,以便收集专业人士的改进建议,进一步完善模型。

1712338888974.jpg

如果说国内影视圈、创意圈是在研究如何用Sora降本增效,自媒体圈是在研究如何以Sora为噱头卖课,那么Sora的惊艳亮相无疑让科技公司重燃激情,文本生成视频赛道成为新战场。

今年2月7日,抖音集团CEO张楠宣布已辞去集团CEO一职,未来将把精力聚焦在剪映的发展上。据媒体报道,过去一年,张楠把绝大多数精力倾斜到剪映相关业务上,并亲自带队寻求在AI辅助创作上有所突破,即将推出一个AI生图和视频的产品。

八天后,Sora的火爆让外界猜测张楠的调岗是否是字节在做更深的布局。近日更是有传言称,字节跳动已经在研发一款名为Boximator的创新性视频模型,有人因此认为“中国版的Sora”即将来了。

对此,字节跳动相关人士也向《最话》回应称,“Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。”

根据公开信息显示,截至2021年,剪映的月活用户已经突破1亿,是国内最大的移动视频编辑产品,其已内置了多项 AI 功能。

而从字节对媒体的回应来看,Boximator模型仍然处于研发阶段,预计将在2-3个月内发布测试网站。到时才能获悉其对视频创作的影响,以及是否会与剪映进行融合。

除了字节的剪映,还有不少互联网公司都推出了自家剪辑工具产品,例如快手推出的快影,B站交出的必剪,但均未公开是否有类Sora产品的计划。

视频制作成本高,而各大影视平台自制剧越来越多,以爱奇艺为例,每年的内容成本就需要上百亿。使用AI生成视频技术将极大降低成本,提高特效。据介绍, 爱奇艺已率先开始在内容策划、开发、制作、宣发等核心环节落地生成式AI的应用,并在文本、图片、声音、视频四大应用场景形成了一定生产力。

而另一个视频平台优酷最近上线的《大唐狄公案》是其首部AI辅助生成特效画面的剧集。相比传统特效方式,阿里大文娱的AI技术,可以用更短时间完成各类虚拟场景的搭建,生成超高精度的特效画面。据《最话》了解,优酷目前正在研究Open AI的产品,而此前火爆一时的AI生成写真应用“妙鸭相机”就是优酷内部创业项目。

除了视频平台,还有不少AI企业正密切关注着Sora,今年或推出类似的应用。“Sora给中国科技公司们趟出了条路,指出了方向。”一位科技企业技术人员对《最话》说,“当然,我们的人才、算法比人家还是差得远。”

03 进击的巨头

接连不断的颠覆性产品让OpenAI的影响力与日俱增。尽管还保持着独特的股权结构,但OpenAI确实越来越商业化了。据报道,OpenAI与风险投资公司Thrive capital达成最新股票出售协议,公司估值突破800亿美元,是仅次于字节跳动和SpaceX的第三大独角兽。

有起就必然有落。

一夜之间,Sora成为行业投资人议论的焦点。OpenAI的每一次突破都会让资本对它的想象空间进一步扩大,同行竞争者能够拿到的资源也会变少。

不少小型初创公司创始人在看到Sora呈现的效果不得不思考新的发展方向。有分析人士甚至悲观地表示,ChatGPT终结了AI文本生成创业,Sora要终结AI视频生成创业了。

前阿里技术副总裁,正在进行AI创业的贾扬清认为:“从算法小厂的角度,要不就算法上媲美OpenAI,要不就垂直领域深耕应用,要不就选择开源。

OpenAI的遥遥领先使得其越发向着垄断巨头的趋势进化,让诸多AI领域的创业公司如坐针毡。

除了AI创业者,作为大模型的根基,芯片制造领域和OpenAI的关系也在变得微妙。

ChatGPT爆火后,从绝对数值来看,英伟达显然是比OpenAI更大的受益者。2月,英伟达市值飙升至1.8万亿美元,赶超谷歌、亚马逊,成为美股第三大上市公司。

如果能拥有算力芯片的研发、制造和生产能力,OpenAI就可以串联起整个产业链,奥尔特曼越发想介入上游。

2月,OpenAI创始人奥尔特曼被爆在跟中东投资人兜售旨在提高全球芯片制造能力的大项目。知情人士透露,奥尔特曼认为现有的AI芯片供应量跟不上AI的高速发展,芯片会成为实现通用人工智能障碍,他希望筹集5至7万亿美元来建立新的AI芯片企业。

奥尔特曼的表述显然言过其实。根据市场调研机构IC Insights报告,2023年全球整体芯片市场的收入预计提高24%,史上首次突破5000亿美元。按现在的增长速度,2030年芯片业收入才有望突破1万亿美元。

“如果你只是假设计算机不会变得更快,你可能会得出这样的结论:我们需要 14 个行星、三个星系和四个太阳来为这一切提供燃料,但计算机架构仍在不断进步。”

同为舆论焦点人物,英伟达首席执行官黄仁勋虽然认为各国都需要建设独立的AI基础设施,但是并不认可奥尔特曼的夸张性表达。他认为,芯片业的扩张并不意味着数量爆发,而是要提升AI计算的效率,过去十年算力成本已经下降了100万倍。一味地扩大产能将导致供需失衡,冲击芯片的价值。

OpenAI展现出的实力越大,外界对它的担忧和争议也会越多。自ChatGPT爆火,舆论对AI的边界应该设在哪里的争议就没有停下来。从文字到图片、从图片到视频……AI以假乱真变得越来越难以识别。按照现在的进度,AI生成从二维进入三维世界大概率只是时间上的早晚问题。

新的一片天空已然拉开大幕,AI行业思考如何在激烈的市场竞争中占据一席之地固然重要,但更重要的是得处理好人类和AI的伦理规范。

AI可以生成虚幻的数字影像世界,但监管它的规则,还是由人类来制定的。

aigc666aigc999_0.jpg

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *