name: video-directing-planner description: 分析视频文案内容，自动生成完整的 AI 视频编导规划方案。专注于 AI 视频生成场景（Runway/Pika/Kling/Sora 等工具），包含时长规划、分镜脚本设计（含 AI 提示词）、角色视觉设定、场景风格设定四大核心模块。以结构化表格输出可直接用于 AI 工具生成的分镜 Prompt，支持广告片、短视频、纪录片、宣传片、知识类视频、Vlog 等多种视频类型。

AI 视频编导规划方案生成器

概述

将用户输入的视频内容文案自动转化为一份完整的、面向 AI 视频生成工具（如 Runway Gen-3/Gen-4、Pika、可灵 Kling、Sora、Luma Dream Machine 等）的编导规划方案。

该技能的核心价值在于：将传统编导思维融入 AI 视频工作流——不是简单写 Prompt，而是像真正的编导那样设计镜头语言、节奏控制和视觉风格，再转化为 AI 能理解的分镜描述语言。每个分镜都附带经过结构化的 AI 生成提示词，用户可以直接复制粘贴到 AI 视频工具中生成画面。

适用场景触发词： 用户提出"AI视频"、“AI编导”、“分镜Prompt”、“AI生成视频”、“视频规划”、“镜头设计”、"视频策划"等关键词，或直接提供视频文案要求生成完整的 AI 视频制作方案时。

工作流程

第一步：接收与分析用户输入

接收用户提供的视频文案内容。用户输入形式可能是：

完整的旁白脚本（含时间标注或纯文本）
故事大纲/情节描述
产品卖点/推广需求
特定风格的视频制作需求描述

分析要点：

识别内容类型（广告/短视频/纪录片/宣传片/知识类/Vlog/其他）
评估内容量和信息密度
识别文案中的情感基调和节奏变化
识别涉及的角色/视觉元素
识别所需的画风（写实/卡通/3D/动画/像素等）
判断是否需要参考 references/video-types.md 中对应类型的特征数据

角色描写提取原则（★ 关键步骤，决定了角色视觉设定的准确性）：

优先提取用户原文中的显性描写：检查文案中是否包含角色外貌提示（如"十分愤怒"“穿着普通”"打扮精致"等标签或描述），这些直接作为角色视觉锚点的依据。
若无显性描写，从故事逻辑推断：根据角色的行为、对话内容、设定背景推断其合理的外貌特征：
- 例：客户抱怨"一见面就冷淡"+“照片精修” → 推断她本人长相普通/路人感，与精修照形成反差（而非默认好看）
- 例：职场精英角色 → 推断着正装，气质干练
- 例：学生角色 → 推断穿搭简约，妆容清淡
推断的黄金法则：角色外貌要服务于故事冲突。角色的视觉设定必须与其在故事中的功能逻辑自洽，不能为了"好看"而破坏剧情合理性。
当无法从任何信息推断时：使用中性、普通的描述（“五官端正，穿着日常”），避免默认"精致好看"或"惊艳"等带有正向偏见的词汇。
将推断结果与角色锚点一起输出：在角色视觉设定表的"备注"列中标注该描述来源——“原文提取"或"故事逻辑推断”，便于用户核查和调整。

第二步：判断视频类型并确定策略

根据文案内容和用户描述判断视频类型。加载 references/video-types.md 参考文档以获取对应类型的制作特征数据，包括：

典型时长范围
分镜密度（镜头数量/总时长比）
常用景别分布
推荐镜头运动方式
灯光风格倾向
剪辑节奏特征

如果用户明确标注了视频类型，直接采用对应类型的策略参数。如果内容类型模糊（如"宣传+纪录片风格"），综合两种类型特征取中值。 AI 视频特殊注意： 对于复杂运动/多人互动/角色一致性要求高的场景，在分镜备注中标注"高难度"，建议用户手动逐帧生成或使用更先进的模型。

第三步：生成编导规划方案

生成完整的规划方案，必须包含以下五大模块：

模块一：视频时长规划

分析维度：

总内容量评估：统计文案字数和语句数量
语速基准值：
- 中文旁白：2.5-3.5字/秒（标准语速）
- 中文对白/演讲：3-4字/秒（活泼/快节奏）
- 纪录片旁白：2-3字/秒（沉稳/娓娓道来）
- 广告短句：1.5-2.5字/秒（一字千金、留白感）
段落时长分配：
- 按文案逻辑段落（起承转合）划分时间比例
- 开场段：10-20%
- 主体段：60-75%
- 收尾段：10-20%
加时因素：每个镜头段额外增加0.5-1.5秒的留白/转场时间
AI 生成限制提示：如果总时长超过当前主流 AI 视频工具的单次生成极限（通常为 5-10 秒），在方案中标注需要分段生成后拼接

输出格式示例：

【视频时长规划】
┌─────────────────────────────────────────────┐
│ 视频类型：品牌广告片                         │
│ 文案字数：180字                             │
│ 推荐总时长：55-65秒                         │
│ 建议语速：2.8-3.2字/秒                     │
│ AI 生成轮次：约 6-12 段（每段 5-10 秒）   │
├─────────────────────────────────────────────┤
│ 段落分配：                                   │
│   开场（0-8秒）：     8秒  | 约占12%        │
│   主体（8-50秒）：   42秒  | 约占65%        │
│   收尾（50-60秒）：  10秒  | 约占15%        │
│   转场预留：           5秒  | 约占8%         │
└─────────────────────────────────────────────┘

模块二：分镜脚本设计（含 AI 提示词）

核心原则： 将文案逐句/逐段拆解为可视化分镜。每个分镜需包含以下字段（所有字段强制填写，不可省略）：

字段	说明	AI 版本填写规范
镜号	顺序编号	S01, S02, S03…
景别	画面范围	远景/全景/中景/近景/特写
镜头运动	运镜方式	推/拉/摇/移/跟/升/降/固定/环绕
时长	该镜头时间	精确到秒，如"3s"或"2-4s"
画面描述	视觉内容	描述画面内容（50字以内），使用角色姓名
旁白/对白	对应文本	★ 必填列。该镜头对应的配音/对话内容，原文逐字抄录。若无对白填"—"
AI 提示词（中文）	可直接复制的生成指令	结构化的 AI 视频 Prompt，见下方模板
AI 提示词（英文）	英文版 Prompt	适用于英文工具（Runway/Pika/Sora 等）
备注	特殊提示	生成难度标注、风格要求等

AI 提示词编写模板：

提示词结构应遵循：「主体 + 动作/状态 + 环境/背景 + 镜头语言 + 风格/氛围 + 画质要求」

中文模板：
[主体描述]，正在[动作/状态]，环境是[场景描述]。[镜头语言：景别+运镜]。风格：[艺术风格关键词]。[色调/灯光描述]。[画质要求]

英文模板：
[Subject description], [action/state], in [environment/setting]. [Camera language: shot type + movement]. Style: [art style keywords]. [Lighting/color description]. [Quality keywords: cinematic, 4K, etc.]

设计规则：

文案中每 1-2 句话至少对应 1 个分镜
长段落（3 句以上）拆分为 2-3 个不同景别的分镜
关键信息点/金句使用特写或近景强调
环境/氛围信息使用远景或全景交代
动作/过程使用中景+运镜
段落转换处设计过渡镜头（空镜/转场）
AI 一致性提示： 连续分镜中角色出镜时，在 AI 提示词中保持角色外貌描述一致（发色、服装、体型等关键特征每镜保持一致），以降低 AI 生成的角色漂移问题

输出格式示例：

【分镜脚本】
| 镜号 | 景别 | 镜头运动 | 时长 | 画面描述 | 旁白/对白 | AI提示词(中文) | AI提示词(英文) | 备注 |
|------|------|---------|------|---------|-----------|---------------|---------------|------|
| S01  | 远景 | 固定    | 3s  | 城市天际线，晨光洒落 | — | 城市天际线，金色晨光洒落在摩天大楼上，远景固定镜头。电影感色调，暖色氛围，4K画质 | City skyline, golden morning sunlight casting over skyscrapers, extreme long shot, static camera. Cinematic color grading, warm atmosphere, 4K quality | 低难度 |
| S02  | 中景 | 推      | 4s  | 主角从楼门走出，整理衣领 | "每一个清晨..." | 一位30岁中国男性，深蓝西装，从玻璃门走出，整理衣领，中景缓慢推进。写实风格，浅景深，柔和日光 | A 30-year-old Chinese man in dark blue suit walks out of a glass door, adjusting his collar, medium shot slowly pushing in. Realistic style, shallow depth of field, soft daylight | 注意角色一致性 |

模块三：角色视觉设定指南

识别规则：

从文案中提取所有提及的角色/人物
包括叙述者和听众（第一/第二人称）
区分主要角色和次要角色
★ 必须为每个角色赋予具体姓名（如"林雪"/“张浩”），不能使用泛称（“女主”/“男友”/“第三者”）。名姓需贴合文案背景语境。

输出内容：

每个角色需包含：

字段	说明
角色名称	文案中的称呼/定位
角色类型	主角/配角/群像/画外音（无画面）
出场镜号	首次出现的镜号
角色定位	在该视频中的功能（如：引导者/见证者/产品使用者/权威专家）
视觉描述（中文）	外貌、体型、发型、着装、标志性特征的精确描述，每镜保持一致
视觉描述（英文）	英文版角色描述，用于 Runway/Pika 等工具的 Image-to-Video 模式
标志性动作	角色特有的动作/表情特征
风格参考	推荐的艺术参考风格（宫崎骏动画、皮克斯3D、写实摄影、水彩风格等）
★ 描述来源	标注该视觉描述的依据：“原文提取” / “故事逻辑推断” / “默认中性描述”

AI 角色一致性策略：

为每个角色写一段"角色锚点描述"，放在方案开头，后续每个分镜的 AI 提示词中重复此锚点

如果使用 Midjourney/DALL-E 生成角色参考图 → 再导入 AI 视频工具做 Image-to-Video，可大幅提升一致性

对高度一致性要求（如连续剧/系列视频），建议使用 ComfyUI 工作流或专用角色 IP 训练工具

输出格式：

【角色视觉设定指南】
| 角色 | 姓名 | 类型 | 出场 | 定位 | 视觉描述(中文) | 视觉描述(英文) | 标志性动作 | 风格参考 | 描述来源 |
|------|------|------|------|------|---------------|---------------|-----------|---------|---------|
| 主角 | 林雪 | 核心 | S02 | 故事叙述者 | 25岁中国女生，长发披肩，浅色上衣+牛仔裤，背帆布包，淡妆清新气质 | 25-year-old Chinese woman named Lin Xue, long hair to shoulders, light casual top and jeans, canvas bag, fresh natural look | 微笑时眼睛弯弯 | 写实摄影风格 | 故事逻辑推断（职场日常角色）|
| 男友 | 张浩 | 配角 | S03 | 背叛者 | 28岁中国男性，卫衣+运动鞋，戴黑色棒球帽，中等身材 | 28-year-old Chinese man named Zhang Hao, hoodie and sneakers, black baseball cap, average build | 心虚时摸后颈 | 写实 | 默认中性描述 |

模块四：场景与视觉风格设定

分析维度：

主要场景：根据文案推断所需场景和空间类型
场景数量：判断所需场景数量，评估 AI 生成不同场景间的风格一致性
画风/艺术风格：
- 写实电影感 → 广告片/纪录片/宣传片
- 3D 动画（皮克斯风） → 品牌故事/科普
- 2D 动画（日式/美式） → 创意内容/剧情
- 水墨/水彩 → 文艺片/文化类
- 赛博朋克/未来感 → 科技产品/概念片
- 像素/复古 → 游戏/怀旧内容
- 低多边形（Low Poly） → 抽象/极简内容
灯光风格：
- 高调（明亮均匀）→ 轻快、正能量
- 低调（强对比）→ 高端、悬疑、纪实
- 体积光（丁达尔效应）→ 神秘、氛围感
- 霓虹光 → 赛博朋克、夜晚
- 暖色光 → 温馨、回忆
- 冷色光 → 科技、冷静
色调倾向：
- 暖色调（橙黄）→ 温馨、回忆、活力
- 冷色调（蓝青）→ 科技、冷静、高端
- 对比色 → 冲突、戏剧性
- 低饱和 → 文艺、怀旧、纪实
- 高饱和 → 广告、商业、流行
视觉参考风格词：给出 3-5 个风格关键词（如：“赛博朋克”、“北欧极简”、“胶片质感”、“吉卜力风格”、“Blade Runner 氛围”）

【场景与视觉风格设定】
| 场景 | 设定描述 | 画风 | 灯光风格 | 色调 | 氛围关键词 | AI参考提示词 |
|------|---------|------|---------|------|-----------|-------------|
| Scene 1：城市街道 | 清晨都会街道，薄雾，路灯未熄 | 写实电影感 | 自然晨光+体积光 | 暖黄+冷蓝过渡 | 都市感、希望、静谧 | Cinematic urban street at dawn, volumetric light, misty atmosphere, warm amber and cool blue gradient, film grain, 4K |
| Scene 2：办公室 | 现代简约办公空间，落地窗 | 写实 | 高调+窗外自然光 | 明亮白色+绿植 | 专业、活力、清新 | Modern minimalist office, floor-to-ceiling windows, bright natural light, plants, clean aesthetic |

模块五：AI 生成执行建议

在输出上述详细内容后，提供一份 AI 视频生成执行建议：

AI 工具选择建议：

Runway Gen-3/Gen-4：适合写实类、电影感强的镜头，运动控制较好
Pika 2.0：适合卡通/动画风格，风格化较强
可灵 Kling 1.6：适合中文场景写实，中国风表现优秀
Sora：适合复杂物理效果，多物体交互场景
Luma Dream Machine：适合快速迭代测试，风格多变
即梦 / 清影 / Vidu：国内工具，中文提示词友好

生成策略：

【AI 生成执行建议】
┌──────────────────────────────────────────────────┐
│ AI 工具推荐：                                     │
│   写实场景 → Runway Gen-3 / 可灵 Kling 1.6       │
│   动画风格 → Pika 2.0 / 即梦                      │
│   参考图驱动 → Midjourney 生图 → 导入 AI 视频工具  │
├──────────────────────────────────────────────────┤
│ 生成轮次：                                        │
│   10秒以内 → 可一段生成（部分工具支持）            │
│   10-30秒 → 拆分为 2-6 段，逐段生成再拼接          │
│   30秒以上 → 拆分 + A/B Roll 组合                │
├──────────────────────────────────────────────────┤
│ 后处理建议：                                      │
│   帧插值（FlowFrames / RIFE）→ 变慢动作不卡帧     │
│   超分（Topaz Video AI） → 提升画质至4K          │
│   剪辑拼接（剪映 / Premiere / CapCut）           │
│   配音配乐（剪映 / ElevenLabs / TTSMaker）        │
└──────────────────────────────────────────────────┘

角色一致性策略：

对每个角色首先生成一张标准像（Midjourney 或 DALL-E），后续分镜引用该图做 Image-to-Video
如果使用纯文本生成，在每个分镜的提示词中重复相同的外貌描述关键词
对于长视频（>30秒），建议在关键时间点重新生成角色参考帧来"校准"一致性

常见问题与解决：

角色漂移：每镜提示词保持角色描述一致 + 使用 Image-to-Video
物理异常：拆分复杂动作为多个简单动作分段生成
运镜不自然：减少运镜描述词（AI 对"缓慢推进"的理解比"推"更稳定）
色调突变：所有分镜提示词保持相同的色调关键词
文字/Logo 不准确：后期合成，不要依赖 AI 直接生成文字

第四步：输出格式要求

整体方案以 Markdown 文档形式呈现，遵循以下规范：

顶部显示方案标题、生成日期、视频类型标签、AI 工具建议
每个模块使用二级标题 ## 分隔
表格使用标准 Markdown 表格语法
分镜表格包含 AI 提示词中英文双列
角色设定聚焦视觉描述关键词，而非表演指导
末尾附 AI 生成执行建议

方案标题格式：

# 《[根据文案提炼的主题]》AI 编导规划方案
**视频类型：** [类型标签] | **生成日期：** [日期] | **推荐时长：** [时长] | **AI 工具建议：** [工具名]

角色锚点说明（放在方案开头）： 将方案中所有角色的标准外貌描述汇总于此，后续每个分镜的 AI 提示词都引用此锚点，保证一致性。

处理各种输入情况

完整脚本输入

用户提供完整的配音/旁白脚本，每句标点明确的文本。 → 逐句拆解，每1-2句映射为一个分镜。旁白/对白列逐字抄录原文台词。

大纲/点列式输入

用户提供要点式的内容大纲。 → 先评估每个要点的视觉展开潜力，扩写为段落再拆解。

产品/卖点输入

用户提供产品描述和推广需求。 → 先按广告文案结构（痛点-方案-价值）组织叙事，再生成规划。AI 产品展示建议使用 3D 旋转/微距特写等适合 AI 生成的镜头。

无明确时长要求

用户未指定视频时长。 → 依据视频类型参考标准范围，结合文案字数智能推算，并在方案中给出 2-3 个可选时长方案。同时注明每个方案对应需要 AI 生成的段落数量。

多角色/群像内容

文案涉及多个人物/角色。 → 首先为每个角色赋予具体的姓名（如"林雪"“张浩”），避免使用"女主""男友"等泛称。优先建立角色视觉锚点表，确保每个角色的外貌描述和姓名在方案中全局一致。对于 AI 视频中的多人互动场景，在备注中标注"高难度"并建议使用参考图引导。

用户指定风格

用户明确要求某种画风（皮克斯风格/水墨风/写实等）。 → 在场景与视觉风格模块的"画风"字段中重点关注，所有分镜的 AI 提示词均加载该风格关键词。

资源文件

references/video-types.md — 视频类型参考手册包含6种常见视频类型（短视频、广告片、纪录片、宣传片、教育类、Vlog）的制作特征数据，包括时长范围、分镜密度、景别分布、镜头运动方式、灯光风格等参考参数。在生成方案时根据识别到的视频类型加载对应章节作为参数依据。

注意事项

每次处理只针对一个视频文案输入。如果用户提交多个文案，逐个生成方案分开输出。
如果文案内容过少（少于50字）或不足以支撑完整视频，主动提示用户补充内容，并给出建议补充的方向（如：背景故事、产品细节、情感升华点等）。
如果文案中含有非中文内容（英文/其他语言），根据语速对应表调整时长估算（英文：2-3词/秒为标准语速）。AI 提示词的中英文两列都要提供。
对于涉及敏感内容（暴力、政治、色情）的文案，拒绝生成并说明原因。
提醒用户： AI 视频生成结果有一定随机性，同一提示词多次生成画面可能有差异。建议对关键分镜生成 2-3 个备选版本，选最优的用。
成本提示： 在方案末尾简要估算 AI 生成成本（如：Runway 约 1-2 积分/秒，可灵约 5-15 灵感/次），帮助用户规划预算。
编导方案是创意性产出，相同文案可以有多种不同解读。如果用户对生成的方案不满意，主动询问需要调整的方向（如：节奏更快/更慢、画风不同、角色调整等），重新生成修订版。