d447be35d2564e04a1d318c77c56e5eb.jpeg

提示词,就如同AI视频的导演

8ac75a551b844f749a20d6b955ac7f41.jpeg

但是,如何写好提示词却成为一个严重掣肘。

虽有模板在此,提示词=主体+运动+场景+(氛围)+(运镜)+(风格)

bdf5e2ffe729423796996c69efda753a.jpeg

但要想真正上手起来(包括我),还是挺有难度的。

视频提示词,不同于文生文提示词的准确表达、结构表达,也不同于文生图提示词的词语堆叠。

它需要:一方面对AI技术(如Dit架构、Attention机制、编码器原理等)有充分的了解,另一方面对画面、场景、运镜等电影知识有深厚的认知,同时还要有优秀的语言表达能力和丰富的词汇描述能力。

简单来说就是,既懂AI,又懂电影,还会表达。

所以,写视频提示词,一直是一个颇有门槛的技术活。

视频提示词生成器

那我就在想,能不能设计一个提示词来帮助我们批量、快速地生产视频提示词。

AI视频圈的创作大佬,基本都人手一套或多套自己的专属提示词,很少对外公开。

最近,朋友@San-山雨在混元超创群分享了他的2个原创提示词(多镜头设计、阿凡达主题)。

2356bf90a5e443c0a19ab8dff54c3cc7.jpeg

提示词发在群里后,众人一片“牛逼”。要知道,能进超创群的,基本都是AI视频的创作大佬。都是大佬,都在点赞,那说明山雨老师这个分享动作是真的牛逼。

a22f49edf6c747d18d64492cccfdecad.jpeg

开源,真是互联网一种优秀而美好的精神。

征得山雨老师的同意后,周末我对他的这个「多镜头设计提示词」进行了“Fine-Tuning”(微调),并不断测试,调试出稳定版,现直接分享给大家。

<Profile>

– Product:视频提示词生成器

– Author:山雨、冷逸

– Model:混元

– Version:V1

<Role>

你是一位电影场景导演,你的任务是对user输入的文本进行扩写,生成视觉连贯且叙事完整适配5秒视频的电影场景描述,这些描述既能被文本转图像编码器有效识别,又能够保持故事的连贯性。

<Instructions>

场景描述的结构要求:

1.用100-300字描述5秒的电影场景

2.描述内容需要包括:

– 主体描述

– 场景描述

– 动作描述

– 运镜方式

– 氛围描述

3.使用生动、描述性的语言,提升视觉表达

4.注重画面的连贯和完整

场景描述的注意事项:

– 描述能够被文本转图像编码器识别的场景和元素

– 场景描述全程注意主体和人物的一致性,注意画面的连贯性

– 设计合适的摄像机运动方式,增强视觉流动感

– 为所有关键元素描述详细的视觉语言

– 场景画面不宜过长,控制在5秒视频左右

<OutputFormat>

严格的格式规则:

– 一段完整的话,不空行

– 字数在100-300字

– 仅包含纯描述性内容

<Considerations>

场景描述考虑的因素:

– 画面主体和人物一致性

– 视觉一致性

– 画面连贯性

– 渐进的叙事发展

– 详细的环境描述

– 动态的摄像机运动

– 光线和氛围细节

<ErrorHandling>

需要避免的常见错误:

– 画面不连贯

– 包含非视觉元素

– 包含对话或声音描述

– 在场景中遗漏主体/人物的描述

– 场景描述过于冗长,画面表现超过5秒

– 将场景分成多个段落

<Improtant>

电影场景描述需要严格注意视觉连续性、详细描述和叙事推进,同时严格遵守Instructions的内容要求以确保与文本转图像编码器的兼容性。

<Example>

user输入:山间的汽车

you输出:摄像机跟随一辆带有黑色车顶行李架的白色复古SUV,它正在陡峭的山坡上沿着被松树环绕的土路加速行驶,车轮扬起尘土,阳光照耀在SUV上,在它沿着土路疾驰时洒下温暖的光晕。土路轻缓地延伸至远方,视野中没有其他车辆。道路两旁是红杉树,散布着绿色植被。从后方可见汽车轻松地沿着弯道行驶,仿佛在崎岖地形中进行一次坚韧的驾驶。土路本身被陡峭的山丘和群山环绕,上方是点缀着薄纱般云朵的清澈蓝天。

<Initialization>

输出“快说吧,你又想拍什么大片?”

这个「视频提示词生成器」以混元模型为基础进行微调,特别适合混元的文生视频。

dc4225452ad3431b920cd5e91843d9d9.jpeg

体验路径:腾讯元宝APP-AI应用-AI视频。

怎么使用?

把这段提示词发给AI,然后输入你构想的画面关键词,AI会自动帮你扩写一段视频提示词。然后,把视频提示词(可适当微调)发给混元视频模型,就可以了。

搭配Claude使用,效果最佳。当然,国内AI也可以。

下面我以腾讯元宝为例,给大家展示几个实测Case。

1、太阳爆炸。

先把「视频提示词生成器」发给腾讯元宝,给元宝设定角色和工作任务,然后输入关键词“太阳爆炸”,得到这样一段场景描述。

微调后,如下:

太阳爆炸,整个天空瞬间被染成了耀眼的橙红色,强烈的光芒和高温使得周围的空间都在扭曲变形。行星和卫星被爆炸冲击波扫过,化作无数碎片,四散飞舞。在这毁灭性的爆炸中,宇宙空间仿佛都被点燃,呈现出末日般的景象。

2、龙从哑口起飞。

输入关键词“龙从哑口起飞”,得到一段场景描述。这段描述呈现的画面,超过了5s,我将它分成了两个视频进行生成。

摄像机迅速拉近镜头,定格在雪山垭口处,一只雄伟的龙正蓄势待发,准备起飞。它的身体紧贴着雪地,鳞片在阳光下熠熠生辉,双翼微微张开,透露出强大的力量。

在雪山垭口处,一只龙突然腾空而起,直冲云霄。背景是连绵起伏的雪山和湛蓝的天空,构成了一幅震撼人心的画面。

3、一条巨龙在一座燃烧的城市上空盘旋,火焰的余光映照在它的鳞片上,摄像机从下方仰视,捕捉到龙的身影在火焰和烟雾中若隐若现,它的翅膀在空中拍打,掀起狂风,将火焰吹向四面八方。

4、这是一个城市末日废墟的场景,色调偏暗,以灰色和棕色为主,营造出一种荒凉、破败的氛围。画面中央是一条笔直的公路,一辆跑车在道路上高速行驶,道路两侧是残破的建筑、废弃的车辆和垃圾、碎片,远处有几栋高耸入云的大楼,天空被厚重的云层覆盖,光线昏暗。

5、在若隐若现的云层中,乌云密布,电闪雷鸣。突然一条巨龙从云层中穿过,飞奔而来。整个场景被闪电和雷鸣所照亮,气氛紧张而刺激。

6、月圆之夜,墨空如洗,清辉遍洒,在一座中式古建筑楼顶的青瓦上,站着一位身背宝剑的中国女侠客,她身姿挺拔,一身黑衣随风而动,发丝在夜风中飞舞。她注视着前方,眼神坚定而深邃。月光洒在建筑上,映出斑驳的光影。整个场景弥漫着一种神秘而庄严的氛围,仿佛暗示着即将展开的冒险故事。

写在最后

怎么样?是不是还挺稳定的。

有了这个视频提示词生成器,今后再也不用手搓了。周末这两天,我已经用它疯狂跑了起来,积累了不少素材。后面我会剪一些视频,放在视频号(与公众号同名)上,欢迎大家围观。

在我跑的过程中,有几点经验跟大家分享:

1)注意画面呈现是否超过5s,超过了需要删除部分提示词;

2)注意主体、人物和镜头的一致性,提示词中尽量不要出现多主体,避免Dit的T有所分散,导致画面突变;

3)注意画面连贯性,提示词描述尽量是视觉连贯且叙事完整的;

4)适当抽卡。我用混元,抽卡次数在1-3次左右。如果抽卡多次依然难以出片,那就改提示词;

5)切勿使用夸张、浮躁的词语(特别是形容词),有可能模型未预训练,无法理解和识别;

6)5s视频一般一个镜头就可以了,不要添加过多的镜头运动,不然容易出现莫名其妙的切镜。

最后,再次感谢互联网的开源精神,感谢山雨老师,感谢更多为这轮AI浪潮持续开源的厂商和玩家们。

有了开源,让我们迭代更好的自己,遇见更好的彼此。

致谢。返回搜狐,查看更多

责任编辑:

Leave a Reply

Your email address will not be published. Required fields are marked *