Sora革命：人工智能神笔还是超级怪物？揭开文本转视频技术的新视界

文章主题：关键词: Sora, OpenAI, 人工智能, 文本转视频

🎉【OpenAI新作】🔥Sora震撼登场！🚀全球热议的背后，是人工智能技术的又一里程碑。🔍强大的文本转视频能力，让想象瞬间跃动屏幕，令人赞叹不已。然而，这背后的挑战也不容忽视——科技的进步是否会让真相与虚构混淆？🤔我们不禁思考：它是神笔马良的魔法，还是隐形的超级怪物？👀这款创新工具引发了关于技术伦理和信息真实性的深度讨论，它既是科技进步的象征，也是未来社会审视的关键。💡在享受其带来的便利的同时，我们也需警惕其可能带来的影响，守护好我们的认知边界。🌐欲了解更多Sora的神奇之处，不妨深入探索，一起见证科技与艺术的交汇点。📚💻 #OpenAI #Sora #人工智能伦理

Sora的技术成就和局限性

🌟🚀Sora，OpenAI的革新力量🔥——文本转视频艺术大师🌍🎉这款先进的AI模型，以其卓越的技艺开启人工智能新篇章✨。不再局限于短短几秒的创意输出，Sora能深度创作，生成一分钟的视觉盛宴，保证每一帧都清晰生动，忠实于用户每一个文字指令。\ufe0f想象一下，只需轻点键盘，梦想瞬间跃然屏幕——这就是Sora带给你的魔力💡。它不仅是一款工具，更是将创新思维转化为现实生产力的神奇引擎🌈。欲体验未来已来的感觉，探索Sora的无限可能吧！🌍💫

🌟【独家测试】揭秘未来科技力量：Sora正以创新守护创意与安全🔥在秘密的精英圈层，Sora正经历一场严格的独家测试，由红队智囊团、视觉艺术大师、设计师和电影制作人组成的精英团队，以其独特的视角挑战每一个计划的极限。他们的任务，是确保技术在广大的视野下，不仅熠熠生辉，更达到无可挑剔的安全与创意高峰。🌟每一行代码都承载着对卓越的承诺，Sora正以这样的标准，引领科技走向一个崭新的高度。一旦这股力量得以公之于众，全球格局将因此而深刻改变。🚀欲知更多，敬请关注未来科技的非凡旅程，让我们共同期待Sora带来的颠覆性影响！🌍

🌟技术实力铸就辉煌，AI领域创新引领潮流🌟”Sora，以卓越的动态视频创作能力，颠覆了静态图像生成的传统，开启了一场跨越视觉与时间的艺术革命。从视觉渲染到运动捕捉，再到对时间进程的精准解析，这是一个复杂而精密的过程，充分展示了人工智能在时间叙事上的深度理解和创新应用。不再是单一的视觉效果创造者，Sora更像是一个充满智慧的叙事者，用科技讲述着生动的故事。🚀”

🌟🚀Sora的突破性进展将重塑视频创作领域，引领一场创新风暴！三维建模也将迎来革命性升级。👀演示显示，这款技术巨头能敏锐捕捉并模拟物理世界中的元素动态，让想象瞬间跃动于屏幕之上。🏃‍♂️奔跑、🌈自然现象…用户想要的动作与行为都能栩栩如生地呈现。而且，它对角色细节、动作多样性和场景微妙之处的精准刻画，将超乎你的想象！👥多人互动也毫无压力，每个微小元素都将熠熠生辉。快来探索Sora如何用科技点亮艺术的新篇章吧！SEO优化标签：#Sora突破#三维建模革新#视频创作革命

🎨🚀《探索虚拟现实新纪元：OpenAI的Sora与世界模拟器》💡🔍在OpenAI的创新力推动下，全球科技爱好者迎来了一款震撼人心的视频生成模型——Sora。它不仅以其艺术般的创造力，更凭借深度学习的力量，构建了一个令人惊叹的数据驱动物理引擎。👩‍🔬Jim Fan博士的见解揭示了其内在世界的奥秘：尽管外界将其视为创意玩具，但实质上，Sora正以独特的方式模拟着真实世界的行为和环境。🔍技术文档《作为世界模拟器的视频生成模型》详尽阐述了经过海量训练后的Sora如何展现出惊人的涌现能力。这些能力让Sora超越了传统的艺术边界，它能够捕捉到物理世界的细腻动态，仿佛拥有了一双观察并互动的眼睛。🌍🌳从人、动物到环境，Sora的世界模型在数据的海洋中熠熠生辉。🔍对于Sora如何运作，想象一下一个高度逼真的数字世界，每个像素都蕴含着复杂的行为逻辑。它不是单纯的创意游戏，而是通过算法驱动的现实模拟器，让想象力得以物理化。💡SEO优化提示：#Sora技术 #数据驱动引擎 #虚拟现实世界模拟

也就是说，虽然目前Sora被认为仅仅是一个视频生成模型，但像英伟达高级科学家Jim Fan这样的计算机科学家相信，Sora实质上是一个可学习的模拟器（simulator）或世界模型（world model）。这表明，人工智能有可能从大量真实世界的视频和那些考量物理行为的视频（如游戏引擎Unreal Engine中的视频，虽然OpenAI并没有明确提到这一点）中理解物理规律和现象。

果真如此的话，在不久的将来出现文本到3D的可能性非常大。届时，不仅是多角度拍摄的视频，就连虚拟空间（如元宇宙）中的视觉效果制作也能很快由人工智能轻松生成。

从OpenAI目前公布的视频看，制作质量相当高。许多视频都是电影级的；所有视频都有着高分辨率，大多数视频看起来都像是真实的——除非你用慢动作观看。摄影镜头会平移和变焦，人物和场景在3D空间中的移动具备一致性，初看起来，你甚至意识不到自己观看的是合成影像。

为了达到更高的逼真度，Sora 结合了两种不同的人工智能方法。第一种是扩散模型（diffusion model），类似于DALL-E等图像生成器中使用的那种。这类模型通过学习将随机化的图像像素逐渐转换成连贯的图像。第二种是转换器架构（transformer architecture），用于对连续数据进行上下文分析和拼接。例如，大型语言模型即使用转换器架构将单词组合成一般可理解的句子。在视频生成过程中，OpenAI将视频片段分解成视觉的“时空补丁”（spacetime patches），Sora的转换器架构可以对其进行处理。

然而，与任何突破性技术一样，Sora也有自己的局限性。尽管该模型具有先进的功能，但有时仍难以准确模拟更为复杂的场景的物理特性。这可能导致视觉效果虽给人留下深刻印象，但偶尔也会违背物理定律或无法准确呈现因果场景。例如，视频中的角色与物体的交互方式在物理上或许并不可行，也做不到随着时间的推移而保持一致。

所以，虽然Sora号称是在学习物理，但还并不能准确地建立物理模型。OpenAI的官方博客指出，它在模拟物理、理解因果关系和其他简单细节方面遇到了困难。例如，要求生成一个人咬饼干的视频，却发现饼干上没有留下任何咬痕；或是一名男子在跑步机上以错误的方式跑步。它还可能对提示的空间细节感到困惑，如跟随特定的摄像头轨迹等。

图/视觉中国

Sora在多个战场攻城略地

虽非尽善尽美，人们仍然很难不被Sora早期示例的质量以及它最终对视频、电影、游戏等产业的可能改写所震撼。

在视频方面，OpenAI以外的其他公司，从谷歌等巨头到Runway等初创公司，都已经推出了文本到视频的人工智能项目。但 OpenAI表示，Sora的独特之处在于其惊人的真实感，以及它能够生成比其他模型通常拿出的简短片段更长的剪辑。

例如，OpenAI公布的一个视频片段，提示要求制作“一个矮矮的毛茸茸的怪物跪在红蜡烛旁边的动画场景”，还有一些详细的舞台指示（“睁大眼睛和张开嘴巴”）以及对所需氛围的描述。结果，Sora创造了一种皮克斯风格的生物，似乎具有来自《怪兽电力公司》（Monsters, Inc.）中的怪物的DNA。当《怪兽电力公司》2001年上映时，皮克斯曾经大肆宣扬制作怪物皮毛的超复杂纹理有多么困难，因为在生物移动时，这些纹理也会随之变化。皮克斯的“巫师”们花了数月时间才把它做得恰到好处。而OpenAI的新文本转视频机器似乎轻易就做到了这一点。这当中并没有编码，Sora完全是从观察到的大量数据中学习3D几何和一致性的。

尽管场景确实令人印象深刻，但Sora的能力中最令人震惊的是那些它尚未接受过训练的能力。如前所述，Sora由OpenAI的DALL-E 3图像生成器使用的扩散模型版本以及GPT-4的基于Transformer的引擎驱动，它不仅能够制作出满足提示需求的视频，而且在这样做的同时，还展现了对电影语法的新型理解，这可以转化为讲故事的才能。

比如，另一个视频根据“一个色彩绚丽的珊瑚礁纸艺世界，充满了色彩缤纷的鱼类和海洋生物”创建。研究人员发现，Sora通过镜头角度和时间安排创造了叙事主旨。“实际上有多个镜头变化——这些变化不是缝合在一起的，而是由模型一次性生成的”，“我们没有告诉它要这样做，它就自动完成了。”

OpenAI团队没有展示并且可能在相当长一段时间内不会发布的Sora的一个功能是，从单个图像或一系列帧生成视频的能力。这将提高讲故事的能力：你可以准确地画出你的想法，然后将其变为现实。从讲故事的情形来看，Sora可以显示对剪辑和节奏的理解，似乎具有初步的导演能力。

然而，文本转视频要威胁到实际的电影制作，将需要很长一段时间，甚至可能永远都不会出现这种情况。你无法通过拼接120个一分钟时长的Sora剪辑来制作一部连贯的电影，因为模型不会以完全相同的方式响应提示——连续性是不可能的。但是，对于Sora和类似程序来说，时间限制并不是障碍，它们完全可以用来改造 TikTok、Reels和其他社交平台。在过去，为了制作一部专业电影，你需要非常昂贵的设备，而这一类的模型将使在社交媒体上制作视频的普通人创作出非常高质量的内容。

考虑到其进展速度，想象在几个月内人工智能模型能够创建长达五到十分钟的多场景、多角色的复杂视频并不算疯狂。然而，从孤立的剪辑到制作一种以故事形式运行的媒介，让观众在观看时不会脱离其中，还有漫长的路要走。除非Sora成为一款为创作者提供完全定制和控制的开源应用程序，否则它不会颠覆电影产业。但显然，该技术可以加快经验丰富的电影制作人的工作速度，同时完全取代经验不足的数字艺术家。

另一个常常被提及、可能同样遭遇颠覆的行业是视频游戏。正如OpenAI的论文所述，“Sora 可以用基本策略控制Minecraft（一款电子游戏）中的玩家，同时以高保真度渲染世界及其动态”。显然，这只是其游戏潜力的开始。未来的视频游戏机可能会使用扩散技术实时生成交互式视频流，而不是由艺术家手工渲染数十亿个多边形。

一些人推测Sora接受了视频游戏引擎的训练，特别是Epic Games的虚幻引擎5（Unreal Engine 5）。虽然Sora几乎肯定不会使用视频游戏引擎来打造令人着迷的感觉，但视频游戏世界可能被用来帮助训练Sora的底层模型。某些Sora演示看起来确实与现有的视频游戏世界非常相似。2023年，游戏开发者已经受到裁员的打击，Sora可能会给他们带来进一步的灾难。当然，它也可以显著降低进入门槛。

总体来看，Sora的核心是一个多方面的人工智能系统，能够理解和执行跨越不同领域的任务。与以前专门用于文本生成、图像识别或策略游戏等特定任务的模型不同，Sora旨在弥合这些功能，提供更全面的方法。这是通过机器学习的尖端技术实现的，包括深度学习、强化学习和迁移学习，它们使得Sora能够利用在一个领域获得的知识来提高另一领域的表现。

Sora最引人注目的方面之一是它的适应性。OpenAI强调了创建能够从最少的输入中学习并轻松适应新挑战的人工智能系统的重要性。Sora体现了这一原则，展示了理解上下文、生成相关响应甚至从交互中学习的能力。这种适应性不仅增强了Sora在各种任务中的性能，还减少了大量再训练的需要，使其成为人工智能应用更高效、更具成本效益的解决方案。

2024：不再可能区分人工智能和现实

然而，不管Sora有多么神奇，公司外部几乎没有人试用过它——这始终是一个警示信号。

从某种意义上说，OpenAI大可改名CloseAI，尽管其产品的功能强大到足以颠覆我们对世界的看法，但没人告知我们产品的内部运作方式是怎样的。公司外部的人员没有机会研究或测试 Sora，了解它是如何构建的，与以前的产品进行比较也是不可能的。我们只是知道，与大语言模型类似，OpenAI注入Sora的计算能力越强，其输出的质量就越高。

然而它的训练数据是从哪来的呢？公司含糊其词。发言人只是说该模型是根据“经许可的和可公开获取的内容”进行训练的；当被问及潜在危害时，发言人表示公司仍在努力解决“错误信息、仇恨内容和偏见”。所有这些，就像当初ChatGPT问世一样，引发了人们对深度造假、版权侵权、艺术家生计、隐藏偏见等方面极其熟悉但又颇为严重的担忧。

OpenAI表示，“我们从大型语言模型中汲取灵感，通过在互联网规模数据上进行训练来获得通用能力”。所谓“汲取灵感”是对Sora训练数据来源的唯一回避性提及。在论文中，OpenAI进一步指出，“训练文本到视频生成系统需要大量的视频和相应的文字说明”。大量视觉数据的唯一来源可以在互联网上找到，这也暗示了Sora的来源。

此前，OpenAI因使用《纽约时报》文章训练GPT-2和GPT-3未付费而面临诉讼。到目前为止，从整个互联网上搜索训练数据的理由是，这些数据都是公开的。然而“可公开获取”并不总是等同于“公域”。是否有艺术家、摄影师、表演者和电影制片人的作品被用于训练Sora？他们是否允许其创意作品以这种方式被使用？

看起来新的Sora和旧时的GPT在做同样的事情，只不过此次是专门针对视频。也和以前一样，OpenAI对自己的训练模型所依据的数据讳莫如深。

蒙着神秘面纱的Sora也许会成为一台想象引擎，一场电影革命，或者一架视频机器。但眼下最好将其视为一种挑衅或一波广告攻势。在很大程度上，OpenAI不是在发布产品，而是在制造神话。公众所有的看热闹都近似一种狗仔队行为。

所以，尽管我对Sora印象非常深刻，但我并不完全相信这种炒作。需要等到普通人可以使用这个工具，因为现在公众对 Sora的看法是经过精心策划的。OpenAI首席执行官山姆·阿尔特曼（Sam Altman）本人和该公司在新闻稿中分享了最精彩的视频。他们向一小群经过精心选择的用户提供了访问权限。或许可以把这些当作一个“伟大的科技公司产品演示”，而我们并不知道当我们拥有这样的工具时，生成的视频是否会那么好。

在这种情况下，我们不由得担心Sora构建中的安全和伦理考量。一个持久的问题是虚假信息，比如深度伪造。与生成式人工智能中的其他技术一样，没有理由相信文本到视频不会继续快速改进，从而让我们越来越接近难以区分真假的时代。想象一下，这项技术如果与人工智能驱动的声音克隆相结合，是否会在构建那些人们从未做过的事情的深度伪造方面开辟出一条全新的道路？

Sora的视频在描述有大量动作的复杂场景时仍然会出现一些奇怪的故障，这表明这类深度伪造视频目前还可被检测出来。然而长远看，必将出现鱼目混珠的局面。随着Sora在2024年用人工智能生成的视频让世界几乎不再可能区分人工智能和现实，信息时代已经结束，而虚假信息时代正式开始了。

到2030年，大多数人都将知道，使用免费的人工智能工具可以伪造任何视频、任何声音或任何陈述。他们每天都会在网上生成难以计数的虚构，而且其数量在未来的更多年里只会激增。

我们生活在这样的时代，人类知识的总和几乎完全可以从我们口袋里的小装置中获取，但人工智能却有可能毒害这口井。这并不是新鲜事——Sora不是互联网面临的第一个威胁，也不会是最后一个，但它很可能是迄今为止最具破坏性的。

从媒介素养的角度来看，这将使得验证任何用户生成的内容变得极为复杂，因为现在用户可以生成他们想要的任何内容。由于我们现在生活的整个世界都是后真相的，所以很多人致力于在故事中编造虚假的叙述。图像比文本更难，因为你必须具备Photoshop或类似软件的应用知识，它存在进入障碍。而视频是一个更高量级的难点。制作虚假视频需要花费大量时间、专业知识和金钱。但有了Sora及类似应用，现在只需输入提示并获取即可。

这将如何改变新闻业？我相信Sora使各路议程设定者能够生成比过去多得多的内容。而人工智能生成的营销者和影响者内容的爆炸式增长，这可能有效排挤合法的新闻和媒体。

可叹的是，人们对这样的可怕未来不仅浑然不觉，反而拼命欢呼每一波新的人工智能技术浪潮的到来。新技术总是具有天然的眼球吸引力，各种大小媒体的流量追逐并不新鲜。然而，在随波逐流当中，鲜有人分析人工智能报道的框架。有谁在认真对这些技术的工作原理进行澄清吗？存在令人信服的对一些真正离谱的炒作的有力回应吗？

结果是什么呢？公众得到的是科幻版的人工智能故事，最终被排除在围绕伦理、使用和未来工作的重要讨论之外。这一切都在加剧对人工智能理解的好莱坞化。

（作者系北京大学新闻与传播学院教授）

发于2024.3.11总第1131期《中国新闻周刊》杂志

杂志标题：Sora神话：迄今最具破坏性的网络威胁？

作者：胡泳

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

3D Sora 侵权元宇宙工具游戏版权视频设计师

相关文章

Leave a Reply Cancel reply