AI视频编导规划方案生成器Skill video-directing-planner

本技能可将视频文案自动转化为完整的AI视频编导规划方案,涵盖时长规划、分镜脚本设计(含中英文AI提示词)、角色视觉设定与场景风格设定,适配Runway/Pika/Kling/Sora等主流AI视频工具,支持广告片、短视频、纪录片等多种视频类型,提升AI视频制作效率与专业性。

AIGC 0 次安装 18 次浏览 更新于 6/30/2026

name: video-directing-planner description: 分析视频文案内容,自动生成完整的 AI 视频编导规划方案。专注于 AI 视频生成场景(Runway/Pika/Kling/Sora 等工具),包含时长规划、分镜脚本设计(含 AI 提示词)、角色视觉设定、场景风格设定四大核心模块。以结构化表格输出可直接用于 AI 工具生成的分镜 Prompt,支持广告片、短视频、纪录片、宣传片、知识类视频、Vlog 等多种视频类型。

AI 视频编导规划方案生成器

概述

将用户输入的视频内容文案自动转化为一份完整的、面向 AI 视频生成工具(如 Runway Gen-3/Gen-4、Pika、可灵 Kling、Sora、Luma Dream Machine 等)的编导规划方案。

该技能的核心价值在于:将传统编导思维融入 AI 视频工作流——不是简单写 Prompt,而是像真正的编导那样设计镜头语言、节奏控制和视觉风格,再转化为 AI 能理解的分镜描述语言。每个分镜都附带经过结构化的 AI 生成提示词,用户可以直接复制粘贴到 AI 视频工具中生成画面。

适用场景触发词: 用户提出"AI视频"、“AI编导”、“分镜Prompt”、“AI生成视频”、“视频规划”、“镜头设计”、"视频策划"等关键词,或直接提供视频文案要求生成完整的 AI 视频制作方案时。

工作流程

第一步:接收与分析用户输入

接收用户提供的视频文案内容。用户输入形式可能是:

  • 完整的旁白脚本(含时间标注或纯文本)
  • 故事大纲/情节描述
  • 产品卖点/推广需求
  • 特定风格的视频制作需求描述

分析要点:

  • 识别内容类型(广告/短视频/纪录片/宣传片/知识类/Vlog/其他)
  • 评估内容量和信息密度
  • 识别文案中的情感基调和节奏变化
  • 识别涉及的角色/视觉元素
  • 识别所需的画风(写实/卡通/3D/动画/像素等)
  • 判断是否需要参考 references/video-types.md 中对应类型的特征数据

角色描写提取原则(★ 关键步骤,决定了角色视觉设定的准确性):

  1. 优先提取用户原文中的显性描写:检查文案中是否包含角色外貌提示(如"十分愤怒"“穿着普通”"打扮精致"等标签或描述),这些直接作为角色视觉锚点的依据。

  2. 若无显性描写,从故事逻辑推断:根据角色的行为、对话内容、设定背景推断其合理的外貌特征:

    • 例:客户抱怨"一见面就冷淡"+“照片精修” → 推断她本人长相普通/路人感,与精修照形成反差(而非默认好看)
    • 例:职场精英角色 → 推断着正装,气质干练
    • 例:学生角色 → 推断穿搭简约,妆容清淡
  3. 推断的黄金法则:角色外貌要服务于故事冲突。角色的视觉设定必须与其在故事中的功能逻辑自洽,不能为了"好看"而破坏剧情合理性。

  4. 当无法从任何信息推断时:使用中性、普通的描述(“五官端正,穿着日常”),避免默认"精致好看"或"惊艳"等带有正向偏见的词汇。

  5. 将推断结果与角色锚点一起输出:在角色视觉设定表的"备注"列中标注该描述来源——“原文提取"或"故事逻辑推断”,便于用户核查和调整。

第二步:判断视频类型并确定策略

根据文案内容和用户描述判断视频类型。加载 references/video-types.md 参考文档以获取对应类型的制作特征数据,包括:

  • 典型时长范围
  • 分镜密度(镜头数量/总时长比)
  • 常用景别分布
  • 推荐镜头运动方式
  • 灯光风格倾向
  • 剪辑节奏特征

如果用户明确标注了视频类型,直接采用对应类型的策略参数。 如果内容类型模糊(如"宣传+纪录片风格"),综合两种类型特征取中值。 AI 视频特殊注意: 对于复杂运动/多人互动/角色一致性要求高的场景,在分镜备注中标注"高难度",建议用户手动逐帧生成或使用更先进的模型。

第三步:生成编导规划方案

生成完整的规划方案,必须包含以下五大模块:


模块一:视频时长规划

分析维度:

  1. 总内容量评估:统计文案字数和语句数量
  2. 语速基准值
    • 中文旁白:2.5-3.5字/秒(标准语速)
    • 中文对白/演讲:3-4字/秒(活泼/快节奏)
    • 纪录片旁白:2-3字/秒(沉稳/娓娓道来)
    • 广告短句:1.5-2.5字/秒(一字千金、留白感)
  3. 段落时长分配
    • 按文案逻辑段落(起承转合)划分时间比例
    • 开场段:10-20%
    • 主体段:60-75%
    • 收尾段:10-20%
  4. 加时因素:每个镜头段额外增加0.5-1.5秒的留白/转场时间
  5. AI 生成限制提示:如果总时长超过当前主流 AI 视频工具的单次生成极限(通常为 5-10 秒),在方案中标注需要分段生成后拼接

输出格式示例:

【视频时长规划】
┌─────────────────────────────────────────────┐
│ 视频类型:品牌广告片                         │
│ 文案字数:180字                             │
│ 推荐总时长:55-65秒                         │
│ 建议语速:2.8-3.2字/秒                     │
│ AI 生成轮次:约 6-12 段(每段 5-10 秒)   │
├─────────────────────────────────────────────┤
│ 段落分配:                                   │
│   开场(0-8秒):     8秒  | 约占12%        │
│   主体(8-50秒):   42秒  | 约占65%        │
│   收尾(50-60秒):  10秒  | 约占15%        │
│   转场预留:           5秒  | 约占8%         │
└─────────────────────────────────────────────┘

模块二:分镜脚本设计(含 AI 提示词)

核心原则: 将文案逐句/逐段拆解为可视化分镜。每个分镜需包含以下字段(所有字段强制填写,不可省略):

字段 说明 AI 版本填写规范
镜号 顺序编号 S01, S02, S03…
景别 画面范围 远景/全景/中景/近景/特写
镜头运动 运镜方式 推/拉/摇/移/跟/升/降/固定/环绕
时长 该镜头时间 精确到秒,如"3s"或"2-4s"
画面描述 视觉内容 描述画面内容(50字以内),使用角色姓名
旁白/对白 对应文本 ★ 必填列。该镜头对应的配音/对话内容,原文逐字抄录。若无对白填"—"
AI 提示词(中文) 可直接复制的生成指令 结构化的 AI 视频 Prompt,见下方模板
AI 提示词(英文) 英文版 Prompt 适用于英文工具(Runway/Pika/Sora 等)
备注 特殊提示 生成难度标注、风格要求等

AI 提示词编写模板:

提示词结构应遵循:「主体 + 动作/状态 + 环境/背景 + 镜头语言 + 风格/氛围 + 画质要求」

中文模板:
[主体描述],正在[动作/状态],环境是[场景描述]。[镜头语言:景别+运镜]。风格:[艺术风格关键词]。[色调/灯光描述]。[画质要求]

英文模板:
[Subject description], [action/state], in [environment/setting]. [Camera language: shot type + movement]. Style: [art style keywords]. [Lighting/color description]. [Quality keywords: cinematic, 4K, etc.]

设计规则:

  • 文案中每 1-2 句话至少对应 1 个分镜
  • 长段落(3 句以上)拆分为 2-3 个不同景别的分镜
  • 关键信息点/金句使用特写或近景强调
  • 环境/氛围信息使用远景或全景交代
  • 动作/过程使用中景+运镜
  • 段落转换处设计过渡镜头(空镜/转场)
  • AI 一致性提示: 连续分镜中角色出镜时,在 AI 提示词中保持角色外貌描述一致(发色、服装、体型等关键特征每镜保持一致),以降低 AI 生成的角色漂移问题

输出格式示例:

【分镜脚本】
| 镜号 | 景别 | 镜头运动 | 时长 | 画面描述 | 旁白/对白 | AI提示词(中文) | AI提示词(英文) | 备注 |
|------|------|---------|------|---------|-----------|---------------|---------------|------|
| S01  | 远景 | 固定    | 3s  | 城市天际线,晨光洒落 | — | 城市天际线,金色晨光洒落在摩天大楼上,远景固定镜头。电影感色调,暖色氛围,4K画质 | City skyline, golden morning sunlight casting over skyscrapers, extreme long shot, static camera. Cinematic color grading, warm atmosphere, 4K quality | 低难度 |
| S02  | 中景 | 推      | 4s  | 主角从楼门走出,整理衣领 | "每一个清晨..." | 一位30岁中国男性,深蓝西装,从玻璃门走出,整理衣领,中景缓慢推进。写实风格,浅景深,柔和日光 | A 30-year-old Chinese man in dark blue suit walks out of a glass door, adjusting his collar, medium shot slowly pushing in. Realistic style, shallow depth of field, soft daylight | 注意角色一致性 |

模块三:角色视觉设定指南

识别规则:

  • 从文案中提取所有提及的角色/人物
  • 包括叙述者和听众(第一/第二人称)
  • 区分主要角色和次要角色
  • ★ 必须为每个角色赋予具体姓名(如"林雪"/“张浩”),不能使用泛称(“女主”/“男友”/“第三者”)。名姓需贴合文案背景语境。

输出内容:

每个角色需包含:

字段 说明
角色名称 文案中的称呼/定位
角色类型 主角/配角/群像/画外音(无画面)
出场镜号 首次出现的镜号
角色定位 在该视频中的功能(如:引导者/见证者/产品使用者/权威专家)
视觉描述(中文) 外貌、体型、发型、着装、标志性特征的精确描述,每镜保持一致
视觉描述(英文) 英文版角色描述,用于 Runway/Pika 等工具的 Image-to-Video 模式
标志性动作 角色特有的动作/表情特征
风格参考 推荐的艺术参考风格(宫崎骏动画、皮克斯3D、写实摄影、水彩风格等)
★ 描述来源 标注该视觉描述的依据:“原文提取” / “故事逻辑推断” / “默认中性描述”

AI 角色一致性策略:

  • 为每个角色写一段"角色锚点描述",放在方案开头,后续每个分镜的 AI 提示词中重复此锚点
  • 如果使用 Midjourney/DALL-E 生成角色参考图 → 再导入 AI 视频工具做 Image-to-Video,可大幅提升一致性
  • 对高度一致性要求(如连续剧/系列视频),建议使用 ComfyUI 工作流或专用角色 IP 训练工具

输出格式:

【角色视觉设定指南】
| 角色 | 姓名 | 类型 | 出场 | 定位 | 视觉描述(中文) | 视觉描述(英文) | 标志性动作 | 风格参考 | 描述来源 |
|------|------|------|------|------|---------------|---------------|-----------|---------|---------|
| 主角 | 林雪 | 核心 | S02 | 故事叙述者 | 25岁中国女生,长发披肩,浅色上衣+牛仔裤,背帆布包,淡妆清新气质 | 25-year-old Chinese woman named Lin Xue, long hair to shoulders, light casual top and jeans, canvas bag, fresh natural look | 微笑时眼睛弯弯 | 写实摄影风格 | 故事逻辑推断(职场日常角色)|
| 男友 | 张浩 | 配角 | S03 | 背叛者 | 28岁中国男性,卫衣+运动鞋,戴黑色棒球帽,中等身材 | 28-year-old Chinese man named Zhang Hao, hoodie and sneakers, black baseball cap, average build | 心虚时摸后颈 | 写实 | 默认中性描述 |

模块四:场景与视觉风格设定

分析维度:

  1. 主要场景:根据文案推断所需场景和空间类型
  2. 场景数量:判断所需场景数量,评估 AI 生成不同场景间的风格一致性
  3. 画风/艺术风格
    • 写实电影感 → 广告片/纪录片/宣传片
    • 3D 动画(皮克斯风) → 品牌故事/科普
    • 2D 动画(日式/美式) → 创意内容/剧情
    • 水墨/水彩 → 文艺片/文化类
    • 赛博朋克/未来感 → 科技产品/概念片
    • 像素/复古 → 游戏/怀旧内容
    • 低多边形(Low Poly) → 抽象/极简内容
  4. 灯光风格
    • 高调(明亮均匀)→ 轻快、正能量
    • 低调(强对比)→ 高端、悬疑、纪实
    • 体积光(丁达尔效应)→ 神秘、氛围感
    • 霓虹光 → 赛博朋克、夜晚
    • 暖色光 → 温馨、回忆
    • 冷色光 → 科技、冷静
  5. 色调倾向
    • 暖色调(橙黄)→ 温馨、回忆、活力
    • 冷色调(蓝青)→ 科技、冷静、高端
    • 对比色 → 冲突、戏剧性
    • 低饱和 → 文艺、怀旧、纪实
    • 高饱和 → 广告、商业、流行
  6. 视觉参考风格词:给出 3-5 个风格关键词(如:“赛博朋克”、“北欧极简”、“胶片质感”、“吉卜力风格”、“Blade Runner 氛围”)
【场景与视觉风格设定】
| 场景 | 设定描述 | 画风 | 灯光风格 | 色调 | 氛围关键词 | AI参考提示词 |
|------|---------|------|---------|------|-----------|-------------|
| Scene 1:城市街道 | 清晨都会街道,薄雾,路灯未熄 | 写实电影感 | 自然晨光+体积光 | 暖黄+冷蓝过渡 | 都市感、希望、静谧 | Cinematic urban street at dawn, volumetric light, misty atmosphere, warm amber and cool blue gradient, film grain, 4K |
| Scene 2:办公室 | 现代简约办公空间,落地窗 | 写实 | 高调+窗外自然光 | 明亮白色+绿植 | 专业、活力、清新 | Modern minimalist office, floor-to-ceiling windows, bright natural light, plants, clean aesthetic |

模块五:AI 生成执行建议

在输出上述详细内容后,提供一份 AI 视频生成执行建议:

AI 工具选择建议:

  • Runway Gen-3/Gen-4:适合写实类、电影感强的镜头,运动控制较好
  • Pika 2.0:适合卡通/动画风格,风格化较强
  • 可灵 Kling 1.6:适合中文场景写实,中国风表现优秀
  • Sora:适合复杂物理效果,多物体交互场景
  • Luma Dream Machine:适合快速迭代测试,风格多变
  • 即梦 / 清影 / Vidu:国内工具,中文提示词友好

生成策略:

【AI 生成执行建议】
┌──────────────────────────────────────────────────┐
│ AI 工具推荐:                                     │
│   写实场景 → Runway Gen-3 / 可灵 Kling 1.6       │
│   动画风格 → Pika 2.0 / 即梦                      │
│   参考图驱动 → Midjourney 生图 → 导入 AI 视频工具  │
├──────────────────────────────────────────────────┤
│ 生成轮次:                                        │
│   10秒以内 → 可一段生成(部分工具支持)            │
│   10-30秒 → 拆分为 2-6 段,逐段生成再拼接          │
│   30秒以上 → 拆分 + A/B Roll 组合                │
├──────────────────────────────────────────────────┤
│ 后处理建议:                                      │
│   帧插值(FlowFrames / RIFE)→ 变慢动作不卡帧     │
│   超分(Topaz Video AI) → 提升画质至4K          │
│   剪辑拼接(剪映 / Premiere / CapCut)           │
│   配音配乐(剪映 / ElevenLabs / TTSMaker)        │
└──────────────────────────────────────────────────┘

角色一致性策略:

  • 对每个角色首先生成一张标准像(Midjourney 或 DALL-E),后续分镜引用该图做 Image-to-Video
  • 如果使用纯文本生成,在每个分镜的提示词中重复相同的外貌描述关键词
  • 对于长视频(>30秒),建议在关键时间点重新生成角色参考帧来"校准"一致性

常见问题与解决:

  • 角色漂移:每镜提示词保持角色描述一致 + 使用 Image-to-Video
  • 物理异常:拆分复杂动作为多个简单动作分段生成
  • 运镜不自然:减少运镜描述词(AI 对"缓慢推进"的理解比"推"更稳定)
  • 色调突变:所有分镜提示词保持相同的色调关键词
  • 文字/Logo 不准确:后期合成,不要依赖 AI 直接生成文字

第四步:输出格式要求

整体方案以 Markdown 文档形式呈现,遵循以下规范:

  1. 顶部显示方案标题、生成日期、视频类型标签、AI 工具建议
  2. 每个模块使用二级标题 ## 分隔
  3. 表格使用标准 Markdown 表格语法
  4. 分镜表格包含 AI 提示词中英文双列
  5. 角色设定聚焦视觉描述关键词,而非表演指导
  6. 末尾附 AI 生成执行建议

方案标题格式:

# 《[根据文案提炼的主题]》AI 编导规划方案
**视频类型:** [类型标签] | **生成日期:** [日期] | **推荐时长:** [时长] | **AI 工具建议:** [工具名]

角色锚点说明(放在方案开头): 将方案中所有角色的标准外貌描述汇总于此,后续每个分镜的 AI 提示词都引用此锚点,保证一致性。

处理各种输入情况

完整脚本输入

用户提供完整的配音/旁白脚本,每句标点明确的文本。 → 逐句拆解,每1-2句映射为一个分镜。旁白/对白列逐字抄录原文台词。

大纲/点列式输入

用户提供要点式的内容大纲。 → 先评估每个要点的视觉展开潜力,扩写为段落再拆解。

产品/卖点输入

用户提供产品描述和推广需求。 → 先按广告文案结构(痛点-方案-价值)组织叙事,再生成规划。AI 产品展示建议使用 3D 旋转/微距特写等适合 AI 生成的镜头。

无明确时长要求

用户未指定视频时长。 → 依据视频类型参考标准范围,结合文案字数智能推算,并在方案中给出 2-3 个可选时长方案。同时注明每个方案对应需要 AI 生成的段落数量。

多角色/群像内容

文案涉及多个人物/角色。 → 首先为每个角色赋予具体的姓名(如"林雪"“张浩”),避免使用"女主""男友"等泛称。优先建立角色视觉锚点表,确保每个角色的外貌描述和姓名在方案中全局一致。对于 AI 视频中的多人互动场景,在备注中标注"高难度"并建议使用参考图引导。

用户指定风格

用户明确要求某种画风(皮克斯风格/水墨风/写实等)。 → 在场景与视觉风格模块的"画风"字段中重点关注,所有分镜的 AI 提示词均加载该风格关键词。

资源文件

  • references/video-types.md — 视频类型参考手册 包含6种常见视频类型(短视频、广告片、纪录片、宣传片、教育类、Vlog)的制作特征数据,包括时长范围、分镜密度、景别分布、镜头运动方式、灯光风格等参考参数。在生成方案时根据识别到的视频类型加载对应章节作为参数依据。

注意事项

  • 每次处理只针对一个视频文案输入。如果用户提交多个文案,逐个生成方案分开输出。
  • 如果文案内容过少(少于50字)或不足以支撑完整视频,主动提示用户补充内容,并给出建议补充的方向(如:背景故事、产品细节、情感升华点等)。
  • 如果文案中含有非中文内容(英文/其他语言),根据语速对应表调整时长估算(英文:2-3词/秒为标准语速)。AI 提示词的中英文两列都要提供。
  • 对于涉及敏感内容(暴力、政治、色情)的文案,拒绝生成并说明原因。
  • 提醒用户: AI 视频生成结果有一定随机性,同一提示词多次生成画面可能有差异。建议对关键分镜生成 2-3 个备选版本,选最优的用。
  • 成本提示: 在方案末尾简要估算 AI 生成成本(如:Runway 约 1-2 积分/秒,可灵约 5-15 灵感/次),帮助用户规划预算。
  • 编导方案是创意性产出,相同文案可以有多种不同解读。如果用户对生成的方案不满意,主动询问需要调整的方向(如:节奏更快/更慢、画风不同、角色调整等),重新生成修订版。