作者|陶然 编辑|魏晓

视频大模型赛道,彻底卷起来了。

周末晚间,蓝媒君的手机弹出一条消息:智谱AI,发布了名为「清影」的AI生视频大模型。

寒冷的北极,探险队穿越冰雪,使用雪地摩托追逐极光

手机App和网页版,同步上线。

7fac0b12db914094924728a833abd9f1.png

还非常高调地,对先前在智谱清言有过注册的用户做了批量推广。

87cc6a100c6543fd85d22b8398769595.jpeg

甚至,超前上架了制作加速和配乐等氪金入口,大有迅速迈向商业化阶段的架势。

27b4b9fe18384ab5a9f07278165dba26.jpeg

在被定调为业界标杆的OpenAI Sora 模型迟迟未能公测的时间段里,国产大模型赛道可谓惊喜不断:爱诗科技PixVerse、快手可灵、商汤 Vimi 相继落地。

贵为新AI四小龙之一的智谱,先前则是在投融资和AI项目投标等领域,捷报频传。

此番开放AI生视频模型,也是相当突然。

下一个问题,效果如何?

又是一位高分玩家

既然智谱AI有自己的通用大模型ChatGLM,不妨让大模型出题,测评一下新发布的这款视频模型。

第一轮对话,遗憾翻车,AI并没能直接理解视频所需提示词的含义。

8595d4f8dd084eb1b8e80f2c7b12711b.png

好在,经过提示修改,ChatGLM还是给出了五段由简单到复杂的prompt,并简单解释了每一段的设计理由。

3176a883fef84d709a5ec38ac99304e2.png

接下来,直接将ChatGLM生成的提示词喂给「清影」。首先是简单场景:

一个孩子在公园里放风筝,阳光明媚,绿草如茵。

整体氛围感还可以,光影效果比较自然,但AI在处理人物动作时缺乏物理逻辑的通病,细看画面,「清影」也未能完全克服。

进一步,引入需要刻画面部表情细节的场景:

一位老人在雨中等待失散多年的儿子,表情充满期待与忧虑。

忽略手部动作极其细微的不自然(手指和脚趾动作,事实上目前大部分AI目前都无法理解),画面中人物的质感和环境中雨滴的效果,几乎以假乱真。

继续设置更为复杂的情节,加入多角色互动:

两位宇航员在太空站外进行紧急维修,背景是宇宙的浩瀚星空,对话中透露出紧张气氛。

2be9768aad41454b8b82fc6d89515260.jpeg

在经历了一次效果不佳的生成和一次服务器忙碌宕机后,「清影」输出的第二版视频内容总算是有了清晰的“太空站”,但背景上的星空效果却不如第一版。宇航员的外观轮廓,似乎还有些异样。

如果「清影」后续能支持通过提示词微调视频,而非只能再次生成、推倒重来的话,可玩空间应该会更大一些。

下一项,让AI设计些意识流产物,抽象概念与视觉效果:

时间流逝的视觉表现,通过四季变换和物体衰败的快速剪辑来展现。

在需要大量新奇创意,以及处理那些不用特别写实的需求时,AI往往是比较愿意发挥的。但可能因为提示词中,四季变换和物体衰败包含了过多的场景变化,尝试了几次生成之后,「清影」依然每次都选择将画面切割成四个甚至八个分镜,搭配饱和度偏高的油画风格。

最后,是ChatGLM认为的最高难度,创意与技术的结合:

一个未来城市的全景,展示飞行汽车、高楼大厦和悬浮屏幕,融合高科技与日常生活。

这种强调科幻感的提示词,一般都需要AI脱离现实去创造。不确定是不是在训练中,城市夜景、光影反射和未来科技这类素材喂的比较多,包括此前AI蓝媒汇测试过的可灵大模型在内,在处理科幻感方面,效果都意外的优秀。

除文生视频外,「清影」还提供了另一项主流AIGC功能,图生视频。

将巴黎奥运会开幕式授旗环节的神秘人照片上传,要求「清影」制作其走上台阶的动态效果。

5bfb902034ff4032a15045e072a3c44d.jpeg

最后的成像效果,人物动作部分基本是对的,但背后这个披风多少丢了些优雅。

不过,瑕不掩瑜,在手边所有能用的视频大模型中,「清影」也值得给一个高分。

国内玩家,领先Sora?

“让大家体验一下目前视频生成这样的事情,在每人可用的前提下能做到什么程度,而不是关在实验室里,或者在很小的概率上生成出什么东西。”

这是智谱AI CEO 张鹏,对于「清影」,以及视频生成模型赛道的态度。

话里话外,似乎指向的都是OpenAI迟迟没有开放体验的Sora。

事实上,“追赶OpenAI”一直是智谱AI被外界所熟知的标签之一,张鹏就曾多次在公开场合提及,对标Open AI“是公司成立以来的目标”。

这一次,至少在发布速度和实用性上,智谱AI确实领先了。

公开资料显示,「清影」依托于智谱 AI 大模型团队自研打造的新一代视频生成大模型 CogVideoX。其前代模型CogVideo发布于去年十一月并在之后被开源。

CogVideo 拥有 94 亿参数,可根据文本描述生成 3D 环境,直接利用预训练模型,避免了昂贵的训练,并且完全支持中文 Prompt 输入。

技术优化后,新发布的CogVideoX 的推理速度和前代相比提升了 6 倍之多。目前生成 6s 视频,模型花费的理论时间是30秒。

fd83595f235f48daa9af6ae813b1735d.jpeg

在「清影」发布后的媒体采访中,张鹏不出意外也谈到了Sora和AI商业化等热点议题。

对于Sora,张鹏直言现阶段的「清影」“和OpenAI、和世界顶级水平之间仍有差距”,暂时还无法做到在质量和视频长度上与Sora对标。智谱AI的角色,仍是追赶者。

对于商业化,张鹏认为现阶段不论是to C还是to B,谈论大规模商业化都为时尚早。「清影」之所以选择面向C端基本功能免费,但to B开放平台API付费,一方面考虑到“亲民”,也就是降低门槛迅速揽客、铺开;另一方面,视频生成模型的成本还是“非常高”,智谱AI也确实需要多少收回一点现金。

实际上,目前手握美团、蚂蚁、阿里、腾讯、小米、红杉、高瓴等多家大厂和知名机构,以及中东石油巨头沙特阿美旗下风投基金投融资的智谱AI,显然不太可能是“缺钱的玩家”。

但在手握阶段性成果之后,公司却表现得相对克制,非常现实。

唯一明显走高的,大概就是市场对智谱AI、对国产视频模型赛道的期待值了吧。

Lanmeih/今日话题

你体验智谱AI的视频大模型了吗?评价如何?

咱们评论区聊聊~

返回搜狐,查看更多

责任编辑:

Leave a Reply

Your email address will not be published. Required fields are marked *