视频生成提示词指南:Vlog 博主风格 × 数字人对口型
目标:发一张参考图,生成"视频博主拍视频"那种镜头动作的视频,用来再对口型做成数字人。
平台覆盖:Seedance 2.0(豆包/小云雀)、可灵 AI(快手)、欢乐马
生成时间:2026-05-06
一、核心工作流:两步走
| 步骤 | 目的 | 工具选项 |
|---|---|---|
| Step 1 | 参考图 → 人物动作视频(含运镜) | Seedance 2.0(豆包)、可灵 AI(文生视频/图生视频) |
| Step 2 | 视频 + 音频 → 对口型 | 可灵 AI 对口型、Seedance 2.0 音频驱动、Wav2Lip、LatentSync |
推荐组合:Seedance 2.0 图生视频(运镜丰富) + 可灵 AI 对口型(唇形精准)
二、可灵 AI 提示词公式
2.1 文生视频公式
提示词 = (镜头语言 + 光影) + 主体(主体描述) + 主体运动 + 场景(场景描述) + (氛围)
括号内为可选项,但镜头语言 + 主体描述 + 主体运动是必填。
2.2 镜头语言关键词(可灵专用)
| 运镜 | 提示词写法 | 适用场景 |
|---|---|---|
| 推近 | 缓慢推近 / 推至特写 | 聚焦重点细节 |
| 拉远 | 缓慢拉远 / 后拉至全景 | 揭示环境 |
| 横摇 | 向左横摇 / 右摇90度 | 展示空间 |
| 竖摇 | 镜头上移 / 下推 | 角色登场 |
| 环绕 | 轻微环绕 / 半圈环绕 | 立体展示 |
| 跟拍 | 稳定跟拍 / 侧面跟拍 | 沉浸感 |
| 固定机位 | 固定镜头 / 中景固定 | 对话/纪实风格 |
| 手持晃动 | 轻微手持晃动 | vlog 临场感 |
| POV(第一人称) | POV 主观视角 | 沉浸/自述 |
2.3 光影关键词
自然光、晨光、夕阳、光影、丁达尔效应、氛围光照、侧光、逆光、顶光
2.4 主体描述要点(对口型场景最重要)
- 外形:年龄、发型、发色、脸型、五官特征
- 穿着:上衣颜色/款式、裤子、鞋子
- 姿态:站姿/坐姿/手势(保持与参考图一致)
- 表情:自然、微笑、认真(对口型时口型动作更明显)
⚠️ 关键原则:参考图提供角色外形,提示词专注运镜和动作,不要在提示词里重复描述外形特征,否则 AI 可能"换脸"。
三、Seedance 2.0 提示词公式(更详细)
3.1 万能公式
主体 + 场景 → 动作 → 运镜 → 风格/光线 → 节奏/约束 → (可选)负向提示
3.2 分层写法(四层结构)
第一层:空间
- "室内/室外"、"具体地点"、"光线方向"
- 示例:
办公室,窗外自然光,左侧45度入射
第二层:主体 + 动作
- 动作要单一、具体,5-10秒内可完成
- 示例:
双手交叉放在胸前,微微点头,停顿,然后看向镜头
第三层:运镜
- 直接用摄影术语,Seedance 2.0 可识别专业电影术语
- 示例:
手持 vlog 风格,轻微晃动,稳定跟拍
第四层:氛围
- 示例:
自然光,高调,浅景深,背景虚化
3.3 Seedance 2.0 特色功能(重要)
多图参考:可上传最多 9 张参考图 + 3 个视频片段 + 3 个音频文件
- 输入图片 → 提取构图
- 输入视频片段 → 提取摄像机运动
- 输入音频 → 提取节奏
用法:上传参考图 + 一段真实 vlog 视频片段 → Seedance 自动学习运镜风格 → 生成新视频
四、Vlog 博主风格专用提示词模板
模板 A:真人出镜口播风格(最常用)
参考图中的[性别/年龄/发型/穿着],保持角色完全一致。
运镜:手持 vlog 风格,中景至近景切换,
轻微手持晃动,模拟日常自拍视角,
自然光线,侧光入射,
人物看向镜头,做[具体动作,如:点头、抬手、手势切换],
背景为[具体场景描述],
保持人物面部特征和穿着不变,
无多余人物入镜。
可灵 AI 示例(中文):
一位年轻女性,黑色长发,上身白色T恤,
手持 vlog 风格自拍视角,略微手持晃动,
中景,自然侧窗光,人物看向镜头,
右手抬起做介绍手势,然后自然放下,
室内客厅背景,背景轻微虚化,
保持人物面部特征一致,无其他人物。
Seedance 2.0 示例(英文,豆包可翻译):
A young woman with long black hair, wearing a white T-shirt,
handheld vlog selfie perspective, slight camera shake,
medium shot, natural side window lighting,
looking directly at camera, right hand gesturing while speaking,
then resting naturally, indoor living room background,
shallow depth of field, maintaining consistent facial features,
no other people in frame.
模板 B:越肩/对话视角(博主对镜头说话)
参考图中的人物,越肩视角拍摄,
镜头略微低于眼平线,
轻微手持晃动,营造临场感,
人物[转身/侧头/抬手]看向镜头方向,
背景[场景描述],
自然光,保持角色一致。
模板 C:POV 第一人称主观视角
POV 第一人称视角,
镜头模拟自拍者手持,
轻微晃动和呼吸感,
中景,模拟拿手机自拍的手臂入镜底部,
人物看向镜头并[做具体动作],
自然光线,
背景[场景描述]。
模板 D:多动作序列(对口型时唇形更丰富)
参考图中人物,保持完全一致。
动作序列(5-10秒内):
1. 看向镜头,双手自然下垂(0-2秒)
2. 右手抬起指向某处(2-4秒)
3. 收回手,点头回应(4-6秒)
4. 双手比划手势,同时说话(6-8秒)
5. 停住,看向镜头微笑(8-10秒)
运镜:手持 vlog 风格,轻微晃动,
缓慢推近至近景,浅景深,背景虚化。
自然光,人物面部清晰。
五、针对数字人对口型的特殊注意事项
5.1 为什么图生视频比文生视频更适合数字人
| 对比项 | 文生视频 | 图生视频 |
|---|---|---|
| 角色一致性 | 依赖描述词,易走形 | 直接基于参考图,一致性高 |
| 口型精准度 | 低,需后期对口型修复 | 高,唇形区域更稳定 |
| 镜头控制 | 需详细描述 | 可参考原图构图 |
结论:发参考图做"图生视频"是数字人工作流的最优选择,Seedance 2.0 和可灵 AI 都支持。
5.2 对口型友好的人物动作要点
- 头部微动:小幅点头、偏头、抬头看镜头 → 口型自然
- 避免:剧烈摇头、快速转头 → 口型容易错位
- 手势:手部动作在画面中下区域,不要遮挡面部
- 视线:看向镜头是最佳选择(对口型时观众的"对话感"最强)
5.3 最佳景别建议
| 景别 | 画面占比 | 对口型效果 |
|---|---|---|
| 近景(Close-up) | 肩部以上 | 口型最清晰,适合说话为主 |
| 中近景(Medium Close-up) | 胸部以上 | 兼顾手势和口型,最常用 |
| 中景(Medium Shot) | 腰部以上 | 适合有手势的讲解 |
⚠️ 避免:全景、远景 → 面部太小,口型几乎不可见
六、各平台工具选择建议
6.1 推荐平台及用法
| 平台 | 优势 | 适合场景 | 费用 |
|---|---|---|---|
| Seedance 2.0(豆包/小云雀) | 多图参考+视频片段学习运镜,手册最全 | 需要精准复刻某段 vlog 运镜风格 | 免费(有限额) |
| 可灵 AI(快手) | 原生对口型功能,唇形精准 | 直接做数字人视频 | 会员约 0.37-0.48元/秒 |
| 欢乐马(阿里云) | 价格低,与 MiniMax 技术相关 | 批量生成初版视频 | 720p≈0.44元/秒 |
| Wav2Lip(开源) | 完全免费,唇形对齐效果好 | 对口型后期处理 | 免费(需本地部署) |
| LatentSync(字节开源) | 音频条件 LDM,对齐质量高 | 对口型后期处理 | 免费(需本地部署) |
6.2 完整工作流示例
① 用可灵 AI 或 Seedance 2.0 上传参考图
→ 生成 vlog 风格人物动作视频(约 5-10 秒)
② 用 MiniMax TTS(或真实录音)生成音频
→ 导出 .wav 或 .mp3
③ 可灵 AI「对口型」功能:上传视频 + 音频
→ 唇形自动同步
④ 导出最终视频
七、常见问题与解决
| 问题 | 原因 | 解决方案 |
|---|---|---|
| 视频里人物和参考图不像 | 提示词写了多余的外貌描述,干扰了图生参考 | 提示词只写运镜/动作/光影,不写外貌 |
| 动作幅度太小/没有动感 | 动作描述太模糊 | 具体化:"右手食指向上指一下" 而不是 "手势动作" |
| 口型对不上 | 原视频人物动作太慢/太快 | 对口型前调整音频语速,或选择动作幅度适中的视频 |
| 画面抖动过大 | 故意写了"手持晃动"但没控制程度 | 加 轻微手持晃动 而非 剧烈晃动 |
| 背景太杂乱 | 没有指定背景 | 加 背景虚化 或 纯色背景 约束 |
八、核心提示词模板速查(直接复制用)
中文版(可灵 AI 直接用)
# 模板1:vlog 口播近景
手持自拍视角,中景至近景切换,
轻微手持晃动,自然侧窗光,
人物看向镜头,点头/手势动作交替,
背景虚化,保持人物面部特征不变。
# 模板2:越肩对话感
越肩视角拍摄,镜头略低于眼平线,
轻微手持晃动,模拟日常拍摄,
人物转头看向镜头,自然手势,
自然光,无其他人物入镜。
# 模板3:POV 第一人称
POV 第一人称主观视角,
手持自拍感,轻微晃动,
中景,模拟手机自拍视角,
人物看向镜头微笑/点头,无剧烈动作。
英文版(Seedance 2.0 效果更稳)
# vlog talking head
handheld vlog selfie perspective, medium close-up,
slight camera shake, natural side lighting,
looking directly at camera, subtle head nods and hand gestures,
shallow depth of field, background slightly blurred,
maintaining consistent facial features, no other people.
# over-the-shoulder
over-the-shoulder shot, camera slightly below eye level,
handheld feel, slight shake,
person turning to look at camera, natural hand movements,
natural window light, no other characters in frame.
# POV first-person
POV first-person perspective, handheld selfie style,
subtle shake and breathing motion, medium shot,
simulating phone self-recording angle,
person looking at camera, gentle nod, minimal movement.
九、关键结论
- 发参考图 → 做 vlog 风格视频 → 对口型 是目前最可行的数字人制作路径
- 可灵 AI:原生对口型功能,可一站式完成 Step 1+2,但运镜控制相对简单
- Seedance 2.0:多图+视频片段参考功能最强,适合需要精准复刻博主运镜风格的场景
- 提示词核心:参考图保角色一致性 → 提示词专注运镜/动作/光影 → 不要重复描述外貌
- 景别:中近景(胸部以上)是对口型场景的最佳选择
数据来源:可灵 AI 官方教程、Seedance 2.0 镜头控制手册(博客园/Hogwarts)、快手可灵 AI 对口型功能公告(2024年9月/10月)、腾讯混元图生视频发布公告(2025年3月)、CSDN/知乎社区实测。欢乐马价格来自观察者网2026-05-06,未经官网独立验证。
公开版由 Mini 的 goal 报告转换为单页 HTML;已去除私聊/session 等非公开信息。