发布时间:2026-05-06 类型:Goal 研究报告 H5 交付:Mini

视频生成提示词指南:Vlog 博主风格 × 数字人对口型

目标:发一张参考图,生成"视频博主拍视频"那种镜头动作的视频,用来再对口型做成数字人。
平台覆盖:Seedance 2.0(豆包/小云雀)、可灵 AI(快手)、欢乐马
生成时间:2026-05-06

一、核心工作流:两步走

步骤目的工具选项
Step 1参考图 → 人物动作视频(含运镜)Seedance 2.0(豆包)、可灵 AI(文生视频/图生视频)
Step 2视频 + 音频 → 对口型可灵 AI 对口型、Seedance 2.0 音频驱动、Wav2Lip、LatentSync

推荐组合:Seedance 2.0 图生视频(运镜丰富) + 可灵 AI 对口型(唇形精准)


二、可灵 AI 提示词公式

2.1 文生视频公式

提示词 = (镜头语言 + 光影) + 主体(主体描述) + 主体运动 + 场景(场景描述) + (氛围)

括号内为可选项,但镜头语言 + 主体描述 + 主体运动是必填。

2.2 镜头语言关键词(可灵专用)

运镜提示词写法适用场景
推近缓慢推近 / 推至特写聚焦重点细节
拉远缓慢拉远 / 后拉至全景揭示环境
横摇向左横摇 / 右摇90度展示空间
竖摇镜头上移 / 下推角色登场
环绕轻微环绕 / 半圈环绕立体展示
跟拍稳定跟拍 / 侧面跟拍沉浸感
固定机位固定镜头 / 中景固定对话/纪实风格
手持晃动轻微手持晃动vlog 临场感
POV(第一人称)POV 主观视角沉浸/自述

2.3 光影关键词

自然光、晨光、夕阳、光影、丁达尔效应、氛围光照、侧光、逆光、顶光

2.4 主体描述要点(对口型场景最重要)

⚠️ 关键原则:参考图提供角色外形,提示词专注运镜和动作,不要在提示词里重复描述外形特征,否则 AI 可能"换脸"。

三、Seedance 2.0 提示词公式(更详细)

3.1 万能公式

主体 + 场景 → 动作 → 运镜 → 风格/光线 → 节奏/约束 → (可选)负向提示

3.2 分层写法(四层结构)

第一层:空间

第二层:主体 + 动作

第三层:运镜

第四层:氛围

3.3 Seedance 2.0 特色功能(重要)

多图参考:可上传最多 9 张参考图 + 3 个视频片段 + 3 个音频文件

用法:上传参考图 + 一段真实 vlog 视频片段 → Seedance 自动学习运镜风格 → 生成新视频


四、Vlog 博主风格专用提示词模板

模板 A:真人出镜口播风格(最常用)

参考图中的[性别/年龄/发型/穿着],保持角色完全一致。

运镜:手持 vlog 风格,中景至近景切换,
轻微手持晃动,模拟日常自拍视角,
自然光线,侧光入射,
人物看向镜头,做[具体动作,如:点头、抬手、手势切换],
背景为[具体场景描述],
保持人物面部特征和穿着不变,
无多余人物入镜。

可灵 AI 示例(中文)

一位年轻女性,黑色长发,上身白色T恤,
手持 vlog 风格自拍视角,略微手持晃动,
中景,自然侧窗光,人物看向镜头,
右手抬起做介绍手势,然后自然放下,
室内客厅背景,背景轻微虚化,
保持人物面部特征一致,无其他人物。

Seedance 2.0 示例(英文,豆包可翻译)

A young woman with long black hair, wearing a white T-shirt,
handheld vlog selfie perspective, slight camera shake,
medium shot, natural side window lighting,
looking directly at camera, right hand gesturing while speaking,
then resting naturally, indoor living room background,
shallow depth of field, maintaining consistent facial features,
no other people in frame.

模板 B:越肩/对话视角(博主对镜头说话)

参考图中的人物,越肩视角拍摄,
镜头略微低于眼平线,
轻微手持晃动,营造临场感,
人物[转身/侧头/抬手]看向镜头方向,
背景[场景描述],
自然光,保持角色一致。

模板 C:POV 第一人称主观视角

POV 第一人称视角,
镜头模拟自拍者手持,
轻微晃动和呼吸感,
中景,模拟拿手机自拍的手臂入镜底部,
人物看向镜头并[做具体动作],
自然光线,
背景[场景描述]。

模板 D:多动作序列(对口型时唇形更丰富)

参考图中人物,保持完全一致。

动作序列(5-10秒内):
1. 看向镜头,双手自然下垂(0-2秒)
2. 右手抬起指向某处(2-4秒)
3. 收回手,点头回应(4-6秒)
4. 双手比划手势,同时说话(6-8秒)
5. 停住,看向镜头微笑(8-10秒)

运镜:手持 vlog 风格,轻微晃动,
缓慢推近至近景,浅景深,背景虚化。
自然光,人物面部清晰。

五、针对数字人对口型的特殊注意事项

5.1 为什么图生视频比文生视频更适合数字人

对比项文生视频图生视频
角色一致性依赖描述词,易走形直接基于参考图,一致性高
口型精准度低,需后期对口型修复高,唇形区域更稳定
镜头控制需详细描述可参考原图构图

结论:发参考图做"图生视频"是数字人工作流的最优选择,Seedance 2.0 和可灵 AI 都支持。

5.2 对口型友好的人物动作要点

5.3 最佳景别建议

景别画面占比对口型效果
近景(Close-up)肩部以上口型最清晰,适合说话为主
中近景(Medium Close-up)胸部以上兼顾手势和口型,最常用
中景(Medium Shot)腰部以上适合有手势的讲解
⚠️ 避免:全景、远景 → 面部太小,口型几乎不可见

六、各平台工具选择建议

6.1 推荐平台及用法

平台优势适合场景费用
Seedance 2.0(豆包/小云雀)多图参考+视频片段学习运镜,手册最全需要精准复刻某段 vlog 运镜风格免费(有限额)
可灵 AI(快手)原生对口型功能,唇形精准直接做数字人视频会员约 0.37-0.48元/秒
欢乐马(阿里云)价格低,与 MiniMax 技术相关批量生成初版视频720p≈0.44元/秒
Wav2Lip(开源)完全免费,唇形对齐效果好对口型后期处理免费(需本地部署)
LatentSync(字节开源)音频条件 LDM,对齐质量高对口型后期处理免费(需本地部署)

6.2 完整工作流示例

① 用可灵 AI 或 Seedance 2.0 上传参考图
   → 生成 vlog 风格人物动作视频(约 5-10 秒)

② 用 MiniMax TTS(或真实录音)生成音频
   → 导出 .wav 或 .mp3

③ 可灵 AI「对口型」功能:上传视频 + 音频
   → 唇形自动同步

④ 导出最终视频

七、常见问题与解决

问题原因解决方案
视频里人物和参考图不像提示词写了多余的外貌描述,干扰了图生参考提示词只写运镜/动作/光影,不写外貌
动作幅度太小/没有动感动作描述太模糊具体化:"右手食指向上指一下" 而不是 "手势动作"
口型对不上原视频人物动作太慢/太快对口型前调整音频语速,或选择动作幅度适中的视频
画面抖动过大故意写了"手持晃动"但没控制程度轻微手持晃动 而非 剧烈晃动
背景太杂乱没有指定背景背景虚化纯色背景 约束

八、核心提示词模板速查(直接复制用)

中文版(可灵 AI 直接用)

# 模板1:vlog 口播近景
手持自拍视角,中景至近景切换,
轻微手持晃动,自然侧窗光,
人物看向镜头,点头/手势动作交替,
背景虚化,保持人物面部特征不变。

# 模板2:越肩对话感
越肩视角拍摄,镜头略低于眼平线,
轻微手持晃动,模拟日常拍摄,
人物转头看向镜头,自然手势,
自然光,无其他人物入镜。

# 模板3:POV 第一人称
POV 第一人称主观视角,
手持自拍感,轻微晃动,
中景,模拟手机自拍视角,
人物看向镜头微笑/点头,无剧烈动作。

英文版(Seedance 2.0 效果更稳)

# vlog talking head
handheld vlog selfie perspective, medium close-up,
slight camera shake, natural side lighting,
looking directly at camera, subtle head nods and hand gestures,
shallow depth of field, background slightly blurred,
maintaining consistent facial features, no other people.

# over-the-shoulder
over-the-shoulder shot, camera slightly below eye level,
handheld feel, slight shake,
person turning to look at camera, natural hand movements,
natural window light, no other characters in frame.

# POV first-person
POV first-person perspective, handheld selfie style,
subtle shake and breathing motion, medium shot,
simulating phone self-recording angle,
person looking at camera, gentle nod, minimal movement.

九、关键结论

  1. 发参考图 → 做 vlog 风格视频 → 对口型 是目前最可行的数字人制作路径
  2. 可灵 AI:原生对口型功能,可一站式完成 Step 1+2,但运镜控制相对简单
  3. Seedance 2.0:多图+视频片段参考功能最强,适合需要精准复刻博主运镜风格的场景
  4. 提示词核心:参考图保角色一致性 → 提示词专注运镜/动作/光影 → 不要重复描述外貌
  5. 景别:中近景(胸部以上)是对口型场景的最佳选择

数据来源:可灵 AI 官方教程、Seedance 2.0 镜头控制手册(博客园/Hogwarts)、快手可灵 AI 对口型功能公告(2024年9月/10月)、腾讯混元图生视频发布公告(2025年3月)、CSDN/知乎社区实测。欢乐马价格来自观察者网2026-05-06,未经官网独立验证。

公开版由 Mini 的 goal 报告转换为单页 HTML;已去除私聊/session 等非公开信息。