工具&提示词设计生产力大提升

AIGC前沿驾驭AI

Sora被戏称期货”,国产Sora上演向左走,向右走”

Sora被戏称期货”,国产Sora上演向左走,向右走”

听说关注我的人,都实现了财富自由!你还在等什么?赶紧加入我们,一起走向人生巅峰! Sora被戏称期货”,国产Sora上演向左走,向右走” Sora:AI文生视频的“梦幻泡影”还是“未来曙光”? 一位年轻的视频博主小王,满怀期待地打开了“AI视频生成”软件,输入了脑海中构思已久的科幻剧本。几分钟后,呈现在他眼前的却是一段画面粗糙、逻辑混乱的“四不像”视频。失望之余,他不禁感叹:“说好的‘视频版ChatGPT’呢?这和想象中的也差太远了吧!” 小王的经历,正是当下AI文生视频领域的一个缩影。Sora,这个由OpenAI推出的文生视频模型,凭借其生成视频的惊人效果,一度被视为行业的颠覆者,甚至被冠以“视频版ChatGPT”的称号。数月过去了,Sora依然没有对公众开放,高昂的成本、模糊的商业模式,让其更像是空中楼阁,难以落地。 一、AI文生视频:困于“烧钱”泥潭,商业化落地成难题 1. Sora:技术惊艳,却难掩商业化困境 Sora的横空出世,无疑为AI文生视频领域注入了一剂强心剂。其生成的视频,无论是画面清晰度、流畅度,还是对文本指令的理解能力,都远超市场上的其他产品。技术上的领先,并不能掩盖其商业化落地难的困境。 2. 巨额成本,成为横亘在AI企业面前的“大山” OpenAI预计今年亏损高达50亿美元,未来资金链断裂的风险迫在眉睫。这背后,是AI文生视频技术对算力资源的巨大需求。相比文生文,文生视频的训练成本更高,如何平衡技术研发与商业收益,成为所有玩家不得不面对的难题。 3. 前车之鉴:没有商业化落地的技术,终将被时代淘汰 回望历史,那些最终成功的技术,无一例外都找到了合适的商业化路径。智能家居概念提出至今已有30年,期间无数企业倒在了商业化落地的路上,只有华为、小米等巨头,凭借其强大的商业化能力,最终穿越周期,成为行业的领导者。 二、国内玩家“向左走,向右走”:C端B端,谁能突围? 面对Sora的“犹抱琵琶半遮面”,国内玩家们纷纷开始探索自己的商业化道路,形成了以快手可灵为代表的C端模式和以新壹科技为代表的B端模式。 1. 快手可灵:主打C端,付费模式能否持续? 背靠快手庞大的用户群体,可灵一经推出便吸引了众多用户的目光。其采取付费会员制,用户需要购买“灵感值”才能生成视频。这种模式在短期内取得了一定的成功,但长期来看,能否持续吸引用户付费,仍是一个未知数。 2. 新壹科技:深耕B端,效率提升是关键 与可灵不同,新壹科技选择了一条更为“难啃”的B端之路。其专注于为企业客户提供视频生成服务,帮助企业提升视频制作效率,降低成本。这种模式虽然用户群体相对较小,但客户粘性更高,盈利模式也更为清晰。 3. C端B端,殊途同归:最终目标都是“构建物理世界通用模拟器” 无论是面向C端还是B端,国内玩家们的最终目标,都是希望能够构建出像Sora那样,能够理解并生成复杂视频内容的“通用模拟器”。 三、AI文生视频:未来之路,挑战与机遇并存 1. 技术瓶颈:如何提升视频生成质量和逻辑性,是当前面临的最大挑战 尽管AI文生视频技术已经取得了长足的进步,但生成的视频质量与人工制作仍有较大差距,尤其是在视频逻辑、叙事节奏等方面,还有很大的提升空间。 2. 版权问题:AI生成的视频内容版权归属问题,亟待明确 随着AI技术的发展,版权问题日益凸显。AI生成的视频内容版权归属问题,不仅关系到创作者的权益,也影响着AI技术的未来发展。 3. 伦理道德:如何防止AI文生视频技术被滥用,是需要全社会共同思考的问题 AI技术是一把双刃剑,在带来便利的也可能被用于制造虚假信息,甚至是被用于犯罪。如何建立健全的伦理规范,防止AI技术被滥用,是摆在我们面前的一道难题。 AI文生视频,是“梦幻泡影”还是“未来曙光”? 这个问题的答案,或许就掌握在每一个从业者的手中。技术的发展永无止境,只有不断突破技术瓶颈,找到合理的商业模式,解决好版权和伦理问题,AI文生视频才能真正迎来属于它的黄金时代,为人类社会创造更大的价值。 你认为AI文生视频技术未来会如何发展?欢迎在评论区留下你的观点! 本文旨在传递正能量,弘扬社会主旋律,无任何不良引导。如有侵权,请联系我们,我们将立即更正或删除。
原创
            Sora被戏称“期货”,国产Sora上演“向左走,向右走”

原创 Sora被戏称“期货”,国产Sora上演“向左走,向右走”

出品 | 创业最前线 作者 | 庆庆 编辑 | 闪电 美编 | 李雨霏 审核 | 颂文 ChatGPT引爆新一波人工智能浪潮,Sora再掀大模型文生视频巨浪,如今AI文生视频领域,进入逐鹿商用战场阶段,一时间,八仙过海、各显神通。 值得关注的是,逐鹿商用落地,两种主流模式正引发热议。快手可灵侧重面向C端,新壹科技侧重面向B端,它们都犹如猛虎出山,所到之处势如破竹。 这引发人们的好奇,想要了解它们背后各自的商业逻辑以及独特优势。当了解清楚后,人们不得不称之为“殊途同归”。 1、逐鹿商用战场,无法落地者没有未来 Sora在AI文生视频领域挖出的坑,到了不得不填的时候了。“烧钱”是该领域玩家不得不正视的难题。 Sora的横空出世,让之前以文生视频知名的公司Runway、刚崭露头角的创业公司Pika两家公司推出的产品黯然失色。就连常年吐槽OpenAI的马斯克,也不得不公开低头称:“人类愿赌服输”。 然而时至今日,Sora仍未向公众开放。即使发布的视频效果吊打几乎所有玩家,但没有商业化落地的情况下,也开始有人戏称其为“期货”,认为Sora给大家挖了个大坑。 OpenAI并非有意挖坑,无限风光背后,是其烧钱速度远超预期,商业化路径探索未明的风险加剧。 在Sora未对公众开放的阶段,OpenAI烧起钱来就极为猛烈。近期OpenAI被曝今年面临高达50亿美元的亏损,而且未来12个月内有可能耗尽现金储备。这意味着,OpenAI亟需新一轮的融资以输血,不然将面临生死存亡。 (图 / 摄图网,基于VRF协议) 要知道,这主要是OpenAI在文生文大模型领域的烧钱结果,也主要是在该领域激战免费模式以及扩大训练规模的影响下的结果。而相对于文生文大模型,文生视频对算力要求更高,意味着烧钱程度更高。 强如OpenAI,都未在文生视频领域,找到有效商业化路径。收入规模无法覆盖所需巨额成本的难题,摆在所有玩家的面前。 AI文生视频,无法商业化落地者,没有未来。这是一个残酷的现实,也越来越成为玩家们的共识。 过往商业案例无不如是。以同样被时代选中的智能家居为例,早在1990年,微软创始人比尔·盖茨就启动“未来屋”的建设,花了7年时间,终于完工。这是他对未来的智能家居生活的想象,当时外界对其理念并不感冒。 (图 / 摄图网,基于VRF协议) 1995年,他还出版了一本名称为《未来之路》(The Road Ahead)的畅销书,书中对智能家居进行了系统构想。穿越漫长的30年周期,历经智能家居1.0、2.0、3.0,直至今天,智能家居的构想才终于照进现实。这期间,死在路上的不计其数,活下来的,都是商业化落地的强者。 去年底,艾拉物联被法院裁定为破产清算。这个曾被称之为全球物联网IoT云平台“开山鼻祖”,就这样死在了路上。而商业化落地极强的华为、小米、海尔等巨头,则都穿越周期而愈加枝繁叶茂。 Sora横空出世之时,人们纷纷高呼其开启了“视频的ChatGPT时代”,如今看来,没有商业化落地,这个时代就不算真正到来。 2、国内AI文生视频行业上演“向左走,向右走” 热闹喧嚣的AI文生视频赛道,除了Sora,其他厂商几乎都在激战商业化落地。尤其是在今年6月以后,国内玩家们“务实”起来,将商业化落定列入日程表。 虽然如今胜负难分,但因有些玩家已经前瞻性布局以及行动,逐渐开始崭露头角,并成功引领行业风向。 目前国内AI文生视频赛道上,已经形成两大主流商业模式。一是以快手可灵为代表,面向C端消费者的模式;另一个则是以新壹科技为代表,面向B端客户的模式。 先来看可灵。其是快手于今年6月推出的一款国产对标Sora的文生视频大模型。快手可灵发布后即向公众开放,在快手旗下快影App开放邀测体验。 快手可灵采取面向C端消费者的商业模式,不同于文生文领域的免费大战,用户使用可灵需要付费,其还推出了会员服务。有月卡、季卡、半年卡、年卡等多种套餐供用户选择。 另外办理套餐后,又分三档会员价格,以月卡为例,三档价格分别为10美元、37美元和92美元,对应分别获得660、3000、8000“灵感值”,可生成66个、300个或800个5s高性能视频。...
震撼!AI实时生成游戏,每秒20帧,谷歌扩散模型最新突破一夜爆火

震撼!AI实时生成游戏,每秒20帧,谷歌扩散模型最新突破一夜爆火

西风 发自 凹非寺 量子位 | 公众号 QbitAI “比Sora还震撼”,AI可以实时生成游戏了! 谷歌DeepMind打造出了首个完全AI驱动的实时游戏引擎——GameNGen。 在单个谷歌TPU上,它以每秒20帧模拟起了经典射击类游戏DOOM(毁灭战士)。 所有游戏画面都是根据玩家操作,与复杂环境进行交互,实时生成。 也就是说你走进一道门之前,门后的内容还不存在。 质量不输事先存储的那种,能“以假乱真”,人类评估者都难以察觉。 各种操作都能丝滑转换: GameNGen的背后是大家熟悉的扩散模型。 从论文题目就重新定义了游戏引擎:扩散模型是实时游戏引擎。 网友们看到这项研究一时间炸开了锅,推特、Reddit上相关帖子热度持续不减,谁发谁火。 不少人表示它提供了一条全新的技术路径: 我觉得人们还没有意识到这有多疯狂。我是一名开发人员,专门负责将生成式AI集成到游戏引擎中,所以我很清楚我在说什么。 这是构建虚拟事物的基础。未来它或许能够普及到它能够获取数据的任何视频游戏,随后,可能还能为尚未存在的游戏生成数据,创造新游戏。 作者Shlomi Fruchter也开麦了: 这对我来说是一个个人里程碑,也是从手工编写在GPU上运行的显式渲染代码到训练同样在GPU上运行的神经网络的完整回环,感觉圆满了。 那么,GameNGen究竟是如何做到的? 用扩散模型造AI DOOMers GameNGen训练过程分为两个主要阶段。 首先,训练一个强化学习Agent来玩游戏,并记录过程中所有动作、技能和观察数据。这些记录成为第二阶段的训练数据集。 为生成尽可能贴近人类游戏行为的训练数据,研究人员设计了一个简单的、特定于环境的奖励函数,根据一系列特定的游戏情况来分配分数,条件包括: 玩家被击中、敌人被消灭、捡起物品或武器、生命值变化、弹药变化…… 在第二阶段,基于预训练的Stable Diffusion v1.4来预测下一帧,模型以过去的帧序列和动作作为条件输入,并进行了一些关键修改。 具体来说,首先移除了所有文本条件,替换为动作序列。每个动作被编码为一个单一的token,通过交叉注意力机制与模型交互。 历史观察(即之前的帧)被编码到潜在空间,并与当前噪声化的潜在表示在通道维度上拼接。 为了解决自回归生成中的误差累积,即自回归漂移问题,GameNGen引入了噪声增强技术。 在训练时,模型对输入的上下文帧添加不同程度的高斯噪声,并将噪声级别作为额外输入提供给模型。这使得模型能够学习纠正之前采样中的错误,对维持长时间序列的图像质量至关重要。 此外,为了提高图像质量,特别是在细节和HUD(平视显示器)方面,研究者对Stable Diffusion的预训练自编码器的解码器部分进行了微调。这个过程使用MSE损失,针对目标帧像素进行优化。 在推理阶段,GameNGen使用DDIM采样方法,并采用了无分类器引导技术,但仅用于过去观察的条件。研究者发现,对过去动作条件使用引导并不能提高质量。 值得注意的是,模型仅使用4步DDIM采样就能产生高质量的结果,这大大提高了生成速度。 GameNGen在TPU-v5硬件上运行,单个去噪器步骤和自编码器评估各需要10毫秒。 通过使用4步采样和单次自编码器评估,系统能够达到每秒20帧的生成速度,足以实现实时交互式游戏体验。 人类难以分辨真实和AI生成 实验中,在短时轨迹上,人类评估者几乎无法区分模拟画面与实际游戏画面。 研究人员使用了两种主要的图像质量评估方法:基于感知的图像相似度度量方法LPIPS和衡量图像质量的常用指标PSNR。...
谷歌世界首个AI游戏引擎,2000亿游戏产业恐颠覆!0代码生成游戏

谷歌世界首个AI游戏引擎,2000亿游戏产业恐颠覆!0代码生成游戏

编辑:编辑部 【新智元导读】炸裂!世界上首个完全由AI驱动的游戏引擎来了。谷歌研究者训练的GameNGen,能以每秒20帧实时生成DOOM的游戏画面,画面如此逼真,60%的片段都没让玩家认出是AI!全球2000亿美元的游戏行业,从此将被改变。 世界上第一个完全由神经模型驱动的游戏引擎,刚刚诞生了! 「黑神话:悟空」的热度正旺,AI又在游戏中创造了全新的里程碑。 史上首次,AI能在没有游戏引擎的情况下,为玩家生成实时游戏了。 从此,我们开始进入一个炸裂的新时代:游戏不仅能被AI玩,还能由AI来创造和驱动。 谷歌的GameNGen,可以在单个TPU上,让AI以每秒20帧的速度,生成实时可玩的游戏。每一帧,都是由扩散模型预测的。 几年后,AI实时生成3A游戏大作的愿望还会远吗? 从此,开发者不必再手动编程游戏逻辑,开发时间和成本都会显著降低。 价值2000亿美元的全球游戏产业,可能会被彻底颠覆! 谷歌研究者表示,GameNGen是第一个完全由神经模型驱动的游戏引擎,能够在复杂环境中,实现高质量的长轨迹实时交互。 论文地址:https://arxiv.org/abs/2408.14837 不仅速度是实时的,它的优秀画质,也是让开发者颤抖的地步。 模拟「毁灭战士」时,它下一帧预测的峰值信噪比(PSNR)达到了29.4,已经可以和有损JPEG压缩相媲美。 在神经网络上实时运行时,视觉质量已经达到了与原始游戏相当。 模拟片段和游戏片段如此相似,让不少人类被试都分不清,眼前的究竟是游戏还是模拟? 网友感慨:这不是游戏,这是人生模拟器。 小岛秀夫的另一个预言,成真了。 3A电视剧是不是也来了?想象下,按照自己的喜好生成一版《权游》。 想象下,1000年后或一百万年后,这项技术是什么样?我们是模拟的概率,已经无限接近于1了。 从此,游戏开发不再需要游戏引擎? AI首次完全模拟具有高质量图形和复杂交互的复杂视频游戏,就做到了这个地步,实在是太令人惊叹了。 作为最受欢迎、最具传奇色彩的第一人称射击游戏,自1993年发布以来,「毁灭战士」一直是个技术标杆。 它被移植到一系列超乎想象的平台上,包括微波炉、数码相机、洗衣机、保时捷等等。 而这次,GameNGen把这些早期改编一举超越了。 从前,传统的游戏引擎依赖的是精心编码的软件,来管理游戏状态和渲染视觉效果。 而GameNGen,只用AI驱动的生成扩散模型,就能自动模拟整个游戏环境了。 AI引擎的意义,不仅仅是减少游戏的开发时间和成本。 这种技术,可以使游戏创作彻底民主化,无论是小型工作室,还是个人创作者,都能创造出从前难以想象的复杂互动体验。 此外,AI游戏引擎,还给全新的游戏类型打开了大门。 无论是环境、叙事,还是游戏机制,都可以根据玩家的行为动态来发展。 从此,游戏格局可能会被整个重塑,行业会从热门游戏为中心的模式,转向更多样化的生态系统。 顺便一提,「DOOM」的大小只有12MB。 大佬们「疯了」 AI初创HyperWrite的CEO Matt Schumer表示,这简直太疯狂了!用户玩游戏时,一个模型正在实时生成游戏。 如果将大多数AI模型的进展/轨迹映射到这上面,那么在几年内,我们将会得到3A级生成游戏。 英伟达高级科学家Jim Fan感慨道,被黑客们在各种地方疯狂运行的DOOM,竟然在纯粹的扩散模型中实现了,每个像素都是生成的。 连Sora跟它比起来,都黯然失色。我们只能设定初始条件(一个文本或初始帧),然后只能被动观看模拟过程。 因为Sora无法进行交互,因此还不算是一个「数据驱动的物理引擎」。 而GameNGen是一个真正的神经世界模型。它将过去的帧(状态)和用户的一个动作(键盘/鼠标)作为输入,并输出下一帧。这种质量,是他见过的最令人印象深刻的DOOM。 随后,他深度探讨了一些GameNGen中存在的限制。 比如在单个游戏上过拟合到了极致;无法想象新的场景,无法合成新的游戏或交互机制;数据集的瓶颈,导致了方法无法推广;无法实现用提示词创造可玩世界,或用世界模型训练更好的具身AI,等等。 一个真正有用的神经世界模型,应该是什么样子?...