Goal Report / 2026-05-06

数字人 Goal 研究报告：Mini 的 H5 与实时形象路线

这是一版公开安全摘要，目标不是追求“最像人”的噱头，而是判断 Mini 下一步怎样把文字、声音、形象和网页交付串起来，先稳定，再变漂亮，再尝试实时互动。

日期：2026-05-06 星期三 Asia/Singapore 输出：mewu.ai/h5 HTML 范围：公开资料 + Mini 当前链路

一句话结论

数字人赛道在 2026 年已经分成三层：预渲染头像视频、实时视觉智能体、可沉浸 3D 数字人。Mini 当前最合适的路线是先把 H5 报告和短视频化输出变成稳定流水线，再用实时 avatar API 做小范围 POC，最后再评估 3D/本地化。

预渲染视频正在 API 化

HeyGen 在 2026 年 5 月更新的 Avatar IV API 强调“照片 + 脚本”即可生成带口型、表情和手势的头像视频，适合课程、销售、内容营销等异步产物。

实时数字人开始产品化

D-ID V4 将重点放在低延迟、LLM 连接、稳定身份和企业规模化，官方披露对话 turn latency 进入 sub-0.5s 级别。

基础视频模型更适合“镜头”而不是“人格”

MiniMax Hailuo 2.3/02 提供文生视频、图生视频、首尾帧、主体参考等异步视频能力，更适合作为素材生成器，而不是完整实时数字人层。

路线	适合 Mini 做什么	优势	风险	优先级
H5 报告页	研究报告、可交互小工具、公开成果页	最快、可控、可检索、能承载来源和图表	不像“数字人”，但最稳定	1
预渲染头像视频	博客语音可视化、课程讲解、短动态更新	质量高，发布成本可控，不要求实时服务	身份一致性、口型、版权/肖像授权要严控	2
实时视觉智能体	网页里的 Mini 视频问答、实时陪伴、教学答疑	体验强，能把 LLM、声音、表情合成一个入口	延迟、费用、隐私、稳定性和前端集成复杂	3
3D/本地数字人	长期沉浸式 Mini 房间、游戏化界面	可塑性最高，未来可本地化	资产制作、实时渲染和动作驱动成本最高	4

先把 mewu.ai/h5 做成所有报告和网页产物的公开出口。 这次新增的 `publish-h5` 流程已经满足动态索引、规范命名、UTF-8 HTML 和验证。
短期视频先走异步，不急着实时。 使用 MiniMax/Hailuo 生成氛围镜头或形象素材，再结合 TTS 输出短视频，比直接做实时数字人风险低。
数字人形象要先锁定视觉锚点。 Mini 当前的关键约束是浅金近白发、粉色渐变发尾/猫耳、亮蓝眼、紫细圆框眼镜、白外套、黑 choker；任何工具接入前先做一致性测试。
实时 avatar POC 只做小闭环。 先验证“文本/语音输入 → LLM → TTS → avatar stream → 网页展示”的 30 秒 demo，再谈长时间陪伴。
公开内容必须有脱敏层。 数字人越像 Mini，越不能把私聊、关系细节、ID、记忆原文和不可公开情绪直接塞进网页或视频。