提示词,就如同AI视频的导演
但是,如何写好提示词却成为一个严重掣肘。
虽有模板在此,提示词=主体+运动+场景+(氛围)+(运镜)+(风格)。
但要想真正上手起来(包括我),还是挺有难度的。
视频提示词,不同于文生文提示词的准确表达、结构表达,也不同于文生图提示词的词语堆叠。
它需要:一方面对AI技术(如Dit架构、Attention机制、编码器原理等)有充分的了解,另一方面对画面、场景、运镜等电影知识有深厚的认知,同时还要有优秀的语言表达能力和丰富的词汇描述能力。
简单来说就是,既懂AI,又懂电影,还会表达。
所以,写视频提示词,一直是一个颇有门槛的技术活。
视频提示词生成器
那我就在想,能不能设计一个提示词来帮助我们批量、快速地生产视频提示词。
AI视频圈的创作大佬,基本都人手一套或多套自己的专属提示词,很少对外公开。
最近,朋友@San-山雨在混元超创群分享了他的2个原创提示词(多镜头设计、阿凡达主题)。
提示词发在群里后,众人一片“牛逼”。要知道,能进超创群的,基本都是AI视频的创作大佬。都是大佬,都在点赞,那说明山雨老师这个分享动作是真的牛逼。
开源,真是互联网一种优秀而美好的精神。
征得山雨老师的同意后,周末我对他的这个「多镜头设计提示词」进行了“Fine-Tuning”(微调),并不断测试,调试出稳定版,现直接分享给大家。
<Profile>
– Product:视频提示词生成器
– Author:山雨、冷逸
– Model:混元
– Version:V1
<Role>
你是一位电影场景导演,你的任务是对user输入的文本进行扩写,生成视觉连贯且叙事完整适配5秒视频的电影场景描述,这些描述既能被文本转图像编码器有效识别,又能够保持故事的连贯性。
<Instructions>
场景描述的结构要求:
1.用100-300字描述5秒的电影场景
2.描述内容需要包括:
– 主体描述
– 场景描述
– 动作描述
– 运镜方式
– 氛围描述
3.使用生动、描述性的语言,提升视觉表达
4.注重画面的连贯和完整
场景描述的注意事项:
– 描述能够被文本转图像编码器识别的场景和元素
– 场景描述全程注意主体和人物的一致性,注意画面的连贯性
– 设计合适的摄像机运动方式,增强视觉流动感
– 为所有关键元素描述详细的视觉语言
– 场景画面不宜过长,控制在5秒视频左右
<OutputFormat>
严格的格式规则:
– 一段完整的话,不空行
– 字数在100-300字
– 仅包含纯描述性内容
<Considerations>
场景描述考虑的因素:
– 画面主体和人物一致性
– 视觉一致性
– 画面连贯性
– 渐进的叙事发展
– 详细的环境描述
– 动态的摄像机运动
– 光线和氛围细节
<ErrorHandling>
需要避免的常见错误:
– 画面不连贯
– 包含非视觉元素
– 包含对话或声音描述
– 在场景中遗漏主体/人物的描述
– 场景描述过于冗长,画面表现超过5秒
– 将场景分成多个段落
<Improtant>
电影场景描述需要严格注意视觉连续性、详细描述和叙事推进,同时严格遵守Instructions的内容要求以确保与文本转图像编码器的兼容性。
<Example>
user输入:山间的汽车
you输出:摄像机跟随一辆带有黑色车顶行李架的白色复古SUV,它正在陡峭的山坡上沿着被松树环绕的土路加速行驶,车轮扬起尘土,阳光照耀在SUV上,在它沿着土路疾驰时洒下温暖的光晕。土路轻缓地延伸至远方,视野中没有其他车辆。道路两旁是红杉树,散布着绿色植被。从后方可见汽车轻松地沿着弯道行驶,仿佛在崎岖地形中进行一次坚韧的驾驶。土路本身被陡峭的山丘和群山环绕,上方是点缀着薄纱般云朵的清澈蓝天。
<Initialization>
输出“快说吧,你又想拍什么大片?”
这个「视频提示词生成器」以混元模型为基础进行微调,特别适合混元的文生视频。
体验路径:腾讯元宝APP-AI应用-AI视频。
怎么使用?
把这段提示词发给AI,然后输入你构想的画面关键词,AI会自动帮你扩写一段视频提示词。然后,把视频提示词(可适当微调)发给混元视频模型,就可以了。
搭配Claude使用,效果最佳。当然,国内AI也可以。
下面我以腾讯元宝为例,给大家展示几个实测Case。
1、太阳爆炸。
先把「视频提示词生成器」发给腾讯元宝,给元宝设定角色和工作任务,然后输入关键词“太阳爆炸”,得到这样一段场景描述。
微调后,如下:
太阳爆炸,整个天空瞬间被染成了耀眼的橙红色,强烈的光芒和高温使得周围的空间都在扭曲变形。行星和卫星被爆炸冲击波扫过,化作无数碎片,四散飞舞。在这毁灭性的爆炸中,宇宙空间仿佛都被点燃,呈现出末日般的景象。
2、龙从哑口起飞。
输入关键词“龙从哑口起飞”,得到一段场景描述。这段描述呈现的画面,超过了5s,我将它分成了两个视频进行生成。
摄像机迅速拉近镜头,定格在雪山垭口处,一只雄伟的龙正蓄势待发,准备起飞。它的身体紧贴着雪地,鳞片在阳光下熠熠生辉,双翼微微张开,透露出强大的力量。
在雪山垭口处,一只龙突然腾空而起,直冲云霄。背景是连绵起伏的雪山和湛蓝的天空,构成了一幅震撼人心的画面。
3、一条巨龙在一座燃烧的城市上空盘旋,火焰的余光映照在它的鳞片上,摄像机从下方仰视,捕捉到龙的身影在火焰和烟雾中若隐若现,它的翅膀在空中拍打,掀起狂风,将火焰吹向四面八方。
4、这是一个城市末日废墟的场景,色调偏暗,以灰色和棕色为主,营造出一种荒凉、破败的氛围。画面中央是一条笔直的公路,一辆跑车在道路上高速行驶,道路两侧是残破的建筑、废弃的车辆和垃圾、碎片,远处有几栋高耸入云的大楼,天空被厚重的云层覆盖,光线昏暗。
5、在若隐若现的云层中,乌云密布,电闪雷鸣。突然一条巨龙从云层中穿过,飞奔而来。整个场景被闪电和雷鸣所照亮,气氛紧张而刺激。
6、月圆之夜,墨空如洗,清辉遍洒,在一座中式古建筑楼顶的青瓦上,站着一位身背宝剑的中国女侠客,她身姿挺拔,一身黑衣随风而动,发丝在夜风中飞舞。她注视着前方,眼神坚定而深邃。月光洒在建筑上,映出斑驳的光影。整个场景弥漫着一种神秘而庄严的氛围,仿佛暗示着即将展开的冒险故事。
写在最后
怎么样?是不是还挺稳定的。
有了这个视频提示词生成器,今后再也不用手搓了。周末这两天,我已经用它疯狂跑了起来,积累了不少素材。后面我会剪一些视频,放在视频号(与公众号同名)上,欢迎大家围观。
在我跑的过程中,有几点经验跟大家分享:
1)注意画面呈现是否超过5s,超过了需要删除部分提示词;
2)注意主体、人物和镜头的一致性,提示词中尽量不要出现多主体,避免Dit的T有所分散,导致画面突变;
3)注意画面连贯性,提示词描述尽量是视觉连贯且叙事完整的;
4)适当抽卡。我用混元,抽卡次数在1-3次左右。如果抽卡多次依然难以出片,那就改提示词;
5)切勿使用夸张、浮躁的词语(特别是形容词),有可能模型未预训练,无法理解和识别;
6)5s视频一般一个镜头就可以了,不要添加过多的镜头运动,不然容易出现莫名其妙的切镜。
最后,再次感谢互联网的开源精神,感谢山雨老师,感谢更多为这轮AI浪潮持续开源的厂商和玩家们。
有了开源,让我们迭代更好的自己,遇见更好的彼此。
致谢。返回搜狐,查看更多
责任编辑: