# 工作流合集 · 6 大能力分步做法（脱敏通用版）

> 每个能力都给：解决什么问题 → 分步工作流 → 用到的工具 → 省钱避坑要点。
> 配合下载包 `脚本/` 里的模板使用。

---

## 1. AI 文生 / 图生视频（电影级镜头，无需摄制组）

**解决**：想要一段有质感的视频镜头，但没有相机、演员、场地。

**工作流**
1. 先把**分镜脚本**写清楚：每个镜头画面内容、时长、运镜、氛围（让 AI 帮你拆）。
2. 需要锁画面风格时，先用文生图模型出一张**首帧图**，再"图生视频"接着动起来。
3. 用视频生成 API 逐镜生成（模板见 `脚本/seedance生成.py`）。**初版不要写"画面里出现某某文字"**——错字会逼你整段重生、烧钱。
4. 多镜头要连贯：固定机位、先锁主体再换场景；用同一张参考图保持一致性。
5. 拿到各镜头视频后，用 `ffmpeg` 拼接、转场、调色。
6. 配音用 edge-tts（免费），字幕最后用 ffmpeg 单独叠（见能力 6）。

**工具**：视频生成模型（如火山方舟 Seedance）、文生图模型、ffmpeg、edge-tts
**避坑**：① 上传参考图前先把图压到宽 ≤1600px，否则上传超时；② 生成是花钱的，先文字方案确认再生成。

---

## 2. 真人脸进 AI 视频（让本人/朋友出现在 AI 画面）

**解决**：想让真实的脸出现在 AI 生成的画面里，但很多 API 会以隐私/版权为由拒绝真人照。

**三条路线（按需选）**
- **路线一·互补遮挡参考库（最稳，适合普通人）**：拍本人正面照，分别用黑条遮住眼/鼻/嘴各做一张，三张一起作为参考 + 精准文字描述喂给模型。脚本：`脚本/build_occlusion_refs.py`。
- **路线二·纯文字精准锁特征（最省事，仅正脸够用时）**：不喂照片，用文字把特征写死（发型、脸型、眼镜、胡须……）。
- **路线三·中性基底 + 本地换脸（需要侧脸/360°或对一致性要求高时）**：先让模型生成一个**中性的脸**过审，再用本地换脸把真脸贴上去。脚本：`脚本/faceswap_video.py`。

**工作流**
1. 判断：要不要侧脸/大角度？对像不像要求多高？据此选路线。
2. 先做**一致性测试**：锁住同一个人，先定脸、再换装、再进场景。
3. 本地换脸完成后，用 ffmpeg 合回视频。

**工具**：视频生成模型、insightface（本地换脸）、ffmpeg
**避坑**：纯文字描述容易"不够像、胡子头发过长"，对一致性高的需求直接走路线一或三。

---

## 3. 透明 3D 虚拟形象，叠进任意背景

**解决**：想要一个虚拟形象（主播/讲解员）能干净地叠在网页、PPT、视频的任意背景上，没有底色冲突。

**工作流**
1. 用**绿幕背景**（不是纯黑）生成全身形象视频；机位固定、人物居中、头顶脚下留白、身高占画面比例固定（多个形象保持一致）。
2. 用 `ffmpeg` 的 chromakey 抠掉绿幕，导出 **VP9 格式的透明 webm**。
3. **关键坑**：ffmpeg 自己回读这个 webm 时透明通道会"假阴性"，必须用浏览器 Canvas 验证真的透明了。
4. 网页里用 `<video webm>` + `<video mp4 fallback>` 双源，CSS `transform:scale()` 对齐大小。
5. 多套形象切换：两个视频都常驻播放，只切透明度，别重新加载。

**工具**：视频生成模型、ffmpeg、浏览器 Canvas

---

## 4. 录音 → 离线转写 → 成稿

**解决**：上课、开会、采访的录音，想自动变成文字稿，再整理成笔记。

**工作流**
1. 录音（手机/电脑均可，麦克风靠近发言人质量更好），文件按日期命名。
2. 本地离线转写：`whisper-cli -m <模型> -f 录音.wav -l zh`（中文）。完全本地、不上传、免费。
3. 把转写稿 + 资料丢给 Agent，让它整理核心笔记、串讲概念。
4. 需要的话生成一个网页笔记（中英对照等），方便随时刷。

**工具**：whisper-cpp（本地）+ 你的 Agent
**避坑**：AI 听不了音频，必须先转写成文字它才能处理。

---

## 5. 免费 AI 配音

**解决**：给视频配旁白，又不想花钱、不想录自己的声音。

**做法（一行命令）**
```bash
edge-tts --voice zh-CN-XiaoxiaoNeural --text "你好，世界" --write-media out.mp3
```
- 默认女声 `zh-CN-XiaoxiaoNeural`（质感接近真人）；男声可用 `zh-CN-YunxiNeural`（叙事）/`zh-CN-YunyangNeural`（史诗）。
- 语速/音调微调：加 `--rate=-4% --pitch=-10Hz`。

**工具**：edge-tts（免费，微软 Neural 声音）

---

## 6. 电影级网页演讲（视频 + 配音 + 交互一体）

**解决**：重要的演讲/分享，不想只放静态 PPT，想要一个能自播放、有视频有配音有动画的网页。

**工作流**
1. **文稿**：先定核心观点（每页一句金句，越短越好），理清叙事线（三层递进、有反转）。
2. **视觉**：拆分镜，定背景/构图/氛围（看 `设计与视觉标准.md` 的标尺）。
3. **素材**：用能力 1~3 生成视频镜头和形象，用能力 5 配音。
4. **字幕**：初版不加字幕，先审画面+配音；确认后用 ffmpeg 叠**电影级底部小字幕**（不是综艺大字幕），0 API 成本。
5. **集成**：用 HTML/CSS/JS 把视频、音频、内容拼成一个自播放网页，带进度条和翻页。
6. **上线**：用能力见下方"一键上线"。

**工具**：上面全部 + 网页前端 + ffmpeg

---

## 7. 营销落地页 / 网页一键上线

**解决**：网页写好了，想立刻发布到全球、绑自己域名，但部署涉及一堆平台。

**做法**
1. 项目代码放好。
2. 跑 `脚本/一键上线.sh <项目名> <域名>`。
3. 脚本自动：建 GitHub 仓库 → 推代码 → 建站（Cloudflare Pages）→ 绑域名 → 配好自动部署。
4. 以后改代码 `git push`，网站自动更新。

**工具**：GitHub、Cloudflare Pages、wrangler / gh 命令行
**前置**：需要一个 Cloudflare 账号和一个域名（域名几十块/年）。