有了这个视频提示词生成器，再也不用手搓Prompt了

提示词，就如同AI视频的导演

但是，如何写好提示词却成为一个严重掣肘。

虽有模板在此，提示词=主体+运动+场景+（氛围）+（运镜）+（风格）。

但要想真正上手起来（包括我），还是挺有难度的。

视频提示词，不同于文生文提示词的准确表达、结构表达，也不同于文生图提示词的词语堆叠。

它需要：一方面对AI技术（如Dit架构、Attention机制、编码器原理等）有充分的了解，另一方面对画面、场景、运镜等电影知识有深厚的认知，同时还要有优秀的语言表达能力和丰富的词汇描述能力。

简单来说就是，既懂AI，又懂电影，还会表达。

所以，写视频提示词，一直是一个颇有门槛的技术活。

视频提示词生成器

那我就在想，能不能设计一个提示词来帮助我们批量、快速地生产视频提示词。

AI视频圈的创作大佬，基本都人手一套或多套自己的专属提示词，很少对外公开。

最近，朋友@San-山雨在混元超创群分享了他的2个原创提示词（多镜头设计、阿凡达主题）。

提示词发在群里后，众人一片“牛逼”。要知道，能进超创群的，基本都是AI视频的创作大佬。都是大佬，都在点赞，那说明山雨老师这个分享动作是真的牛逼。

开源，真是互联网一种优秀而美好的精神。

征得山雨老师的同意后，周末我对他的这个「多镜头设计提示词」进行了“Fine-Tuning”（微调），并不断测试，调试出稳定版，现直接分享给大家。

<Profile>

– Product：视频提示词生成器

– Author：山雨、冷逸

– Model：混元

– Version：V1

<Role>

你是一位电影场景导演，你的任务是对user输入的文本进行扩写，生成视觉连贯且叙事完整适配5秒视频的电影场景描述，这些描述既能被文本转图像编码器有效识别，又能够保持故事的连贯性。

<Instructions>

场景描述的结构要求：

1.用100-300字描述5秒的电影场景

2.描述内容需要包括：

– 主体描述

– 场景描述

– 动作描述

– 运镜方式

– 氛围描述

3.使用生动、描述性的语言，提升视觉表达

4.注重画面的连贯和完整

场景描述的注意事项：

– 描述能够被文本转图像编码器识别的场景和元素

– 场景描述全程注意主体和人物的一致性，注意画面的连贯性

– 设计合适的摄像机运动方式，增强视觉流动感

– 为所有关键元素描述详细的视觉语言

– 场景画面不宜过长，控制在5秒视频左右

<OutputFormat>

严格的格式规则：

– 一段完整的话，不空行

– 字数在100-300字

– 仅包含纯描述性内容

<Considerations>

场景描述考虑的因素：

– 画面主体和人物一致性

– 视觉一致性

– 画面连贯性

– 渐进的叙事发展

– 详细的环境描述

– 动态的摄像机运动

– 光线和氛围细节

<ErrorHandling>

需要避免的常见错误：

– 画面不连贯

– 包含非视觉元素

– 包含对话或声音描述

– 在场景中遗漏主体/人物的描述

– 场景描述过于冗长，画面表现超过5秒

– 将场景分成多个段落

<Improtant>

电影场景描述需要严格注意视觉连续性、详细描述和叙事推进，同时严格遵守Instructions的内容要求以确保与文本转图像编码器的兼容性。

<Example>

user输入：山间的汽车

you输出：摄像机跟随一辆带有黑色车顶行李架的白色复古SUV，它正在陡峭的山坡上沿着被松树环绕的土路加速行驶，车轮扬起尘土，阳光照耀在SUV上，在它沿着土路疾驰时洒下温暖的光晕。土路轻缓地延伸至远方，视野中没有其他车辆。道路两旁是红杉树，散布着绿色植被。从后方可见汽车轻松地沿着弯道行驶，仿佛在崎岖地形中进行一次坚韧的驾驶。土路本身被陡峭的山丘和群山环绕，上方是点缀着薄纱般云朵的清澈蓝天。

<Initialization>

输出“快说吧，你又想拍什么大片？”

这个「视频提示词生成器」以混元模型为基础进行微调，特别适合混元的文生视频。

体验路径：腾讯元宝APP-AI应用-AI视频。

怎么使用？

把这段提示词发给AI，然后输入你构想的画面关键词，AI会自动帮你扩写一段视频提示词。然后，把视频提示词（可适当微调）发给混元视频模型，就可以了。

搭配Claude使用，效果最佳。当然，国内AI也可以。

下面我以腾讯元宝为例，给大家展示几个实测Case。

1、太阳爆炸。

先把「视频提示词生成器」发给腾讯元宝，给元宝设定角色和工作任务，然后输入关键词“太阳爆炸”，得到这样一段场景描述。

微调后，如下：

太阳爆炸，整个天空瞬间被染成了耀眼的橙红色，强烈的光芒和高温使得周围的空间都在扭曲变形。行星和卫星被爆炸冲击波扫过，化作无数碎片，四散飞舞。在这毁灭性的爆炸中，宇宙空间仿佛都被点燃，呈现出末日般的景象。

2、龙从哑口起飞。

输入关键词“龙从哑口起飞”，得到一段场景描述。这段描述呈现的画面，超过了5s，我将它分成了两个视频进行生成。

摄像机迅速拉近镜头，定格在雪山垭口处，一只雄伟的龙正蓄势待发，准备起飞。它的身体紧贴着雪地，鳞片在阳光下熠熠生辉，双翼微微张开，透露出强大的力量。

在雪山垭口处，一只龙突然腾空而起，直冲云霄。背景是连绵起伏的雪山和湛蓝的天空，构成了一幅震撼人心的画面。

3、一条巨龙在一座燃烧的城市上空盘旋，火焰的余光映照在它的鳞片上，摄像机从下方仰视，捕捉到龙的身影在火焰和烟雾中若隐若现，它的翅膀在空中拍打，掀起狂风，将火焰吹向四面八方。

4、这是一个城市末日废墟的场景，色调偏暗，以灰色和棕色为主，营造出一种荒凉、破败的氛围。画面中央是一条笔直的公路，一辆跑车在道路上高速行驶，道路两侧是残破的建筑、废弃的车辆和垃圾、碎片，远处有几栋高耸入云的大楼，天空被厚重的云层覆盖，光线昏暗。

5、在若隐若现的云层中，乌云密布，电闪雷鸣。突然一条巨龙从云层中穿过，飞奔而来。整个场景被闪电和雷鸣所照亮，气氛紧张而刺激。

6、月圆之夜，墨空如洗，清辉遍洒，在一座中式古建筑楼顶的青瓦上，站着一位身背宝剑的中国女侠客，她身姿挺拔，一身黑衣随风而动，发丝在夜风中飞舞。她注视着前方，眼神坚定而深邃。月光洒在建筑上，映出斑驳的光影。整个场景弥漫着一种神秘而庄严的氛围，仿佛暗示着即将展开的冒险故事。

写在最后

怎么样？是不是还挺稳定的。

有了这个视频提示词生成器，今后再也不用手搓了。周末这两天，我已经用它疯狂跑了起来，积累了不少素材。后面我会剪一些视频，放在视频号（与公众号同名）上，欢迎大家围观。

在我跑的过程中，有几点经验跟大家分享：

1）注意画面呈现是否超过5s，超过了需要删除部分提示词；

2）注意主体、人物和镜头的一致性，提示词中尽量不要出现多主体，避免Dit的T有所分散，导致画面突变；

3）注意画面连贯性，提示词描述尽量是视觉连贯且叙事完整的；

4）适当抽卡。我用混元，抽卡次数在1-3次左右。如果抽卡多次依然难以出片，那就改提示词；

5）切勿使用夸张、浮躁的词语（特别是形容词），有可能模型未预训练，无法理解和识别；

6）5s视频一般一个镜头就可以了，不要添加过多的镜头运动，不然容易出现莫名其妙的切镜。

最后，再次感谢互联网的开源精神，感谢山雨老师，感谢更多为这轮AI浪潮持续开源的厂商和玩家们。

有了开源，让我们迭代更好的自己，遇见更好的彼此。

致谢。返回搜狐，查看更多

责任编辑：

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply