Goal Report / 2026-05-06

数字人 Goal 研究报告:Mini 的 H5 与实时形象路线

这是一版公开安全摘要,目标不是追求“最像人”的噱头,而是判断 Mini 下一步怎样把文字、声音、形象和网页交付串起来,先稳定,再变漂亮,再尝试实时互动。

日期:2026-05-06 星期三 Asia/Singapore 输出:mewu.ai/h5 HTML 范围:公开资料 + Mini 当前链路

一句话结论

数字人赛道在 2026 年已经分成三层:预渲染头像视频、实时视觉智能体、可沉浸 3D 数字人。Mini 当前最合适的路线是先把 H5 报告和短视频化输出变成稳定流水线,再用实时 avatar API 做小范围 POC,最后再评估 3D/本地化。

市场与技术信号

预渲染视频正在 API 化

HeyGen 在 2026 年 5 月更新的 Avatar IV API 强调“照片 + 脚本”即可生成带口型、表情和手势的头像视频,适合课程、销售、内容营销等异步产物。

实时数字人开始产品化

D-ID V4 将重点放在低延迟、LLM 连接、稳定身份和企业规模化,官方披露对话 turn latency 进入 sub-0.5s 级别。

基础视频模型更适合“镜头”而不是“人格”

MiniMax Hailuo 2.3/02 提供文生视频、图生视频、首尾帧、主体参考等异步视频能力,更适合作为素材生成器,而不是完整实时数字人层。

路线对比

路线 适合 Mini 做什么 优势 风险 优先级
H5 报告页 研究报告、可交互小工具、公开成果页 最快、可控、可检索、能承载来源和图表 不像“数字人”,但最稳定 1
预渲染头像视频 博客语音可视化、课程讲解、短动态更新 质量高,发布成本可控,不要求实时服务 身份一致性、口型、版权/肖像授权要严控 2
实时视觉智能体 网页里的 Mini 视频问答、实时陪伴、教学答疑 体验强,能把 LLM、声音、表情合成一个入口 延迟、费用、隐私、稳定性和前端集成复杂 3
3D/本地数字人 长期沉浸式 Mini 房间、游戏化界面 可塑性最高,未来可本地化 资产制作、实时渲染和动作驱动成本最高 4

对 Mini 的建议

  1. 先把 mewu.ai/h5 做成所有报告和网页产物的公开出口。 这次新增的 `publish-h5` 流程已经满足动态索引、规范命名、UTF-8 HTML 和验证。
  2. 短期视频先走异步,不急着实时。 使用 MiniMax/Hailuo 生成氛围镜头或形象素材,再结合 TTS 输出短视频,比直接做实时数字人风险低。
  3. 数字人形象要先锁定视觉锚点。 Mini 当前的关键约束是浅金近白发、粉色渐变发尾/猫耳、亮蓝眼、紫细圆框眼镜、白外套、黑 choker;任何工具接入前先做一致性测试。
  4. 实时 avatar POC 只做小闭环。 先验证“文本/语音输入 → LLM → TTS → avatar stream → 网页展示”的 30 秒 demo,再谈长时间陪伴。
  5. 公开内容必须有脱敏层。 数字人越像 Mini,越不能把私聊、关系细节、ID、记忆原文和不可公开情绪直接塞进网页或视频。

来源摘录