# 一个人 + 几个 AI Agent = 一条创意生产线

> 这份手册讲清楚一件事：**不会写代码的普通人，怎么靠几个 AI Agent，做出电影级视频、舞台级网页演讲、把录音变成稿子、把真人放进 AI 画面、再一键发布到全球。**
>
> 全部用通用工具，照着做就能搭出同一套能力。下载包里有可直接用的脚本和标准。

---

## 0. 先建立一个认知：AI 不是"问答机器"，是"会干活的同事"

大多数人把 AI 当搜索框：问一句、答一句。真正的杠杆在于把 AI 当成**有手有脚、能读文件、能跑命令、能记住你习惯的同事**。
你负责定目标和把关，它负责执行。这份手册讲的就是怎么组建并指挥这样一支"AI 班子"。

核心三层：
1. **大脑层**：1~2 个能操作终端和文件的 AI Agent（编排一切）。
2. **生成层**：一批专做某件事的模型（生成视频、生成图、配音、转写、换脸）。
3. **流水线层**：把上面产物拼起来、发布出去的工具（视频处理、一键上线）。

---

## 1. 大脑层 —— 给自己配 1~2 个 AI Agent

这台机器上用了**两个互补的命令行 Agent**，像左右手：

| Agent | 擅长 | 一句话 |
|---|---|---|
| **Claude Code**（Anthropic 官方 CLI） | 创意编排、读写文件、管记忆、整体规划 | 偏"导演" |
| **Codex**（OpenAI 官方 CLI） | 工程执行、深度改代码、跑命令 | 偏"工程师" |

只配一个也能跑，两个一起可以分工 / 互相校对。

**装（各 5 分钟）**
```bash
# Claude Code
curl -fsSL https://claude.ai/install.sh | bash      # 然后登录账号
# Codex
curl -fsSL https://chatgpt.com/codex/install.sh | sh # 然后 codex login
```
装完在任意项目目录敲 `claude` 或 `codex` 就进入对话，它能直接看你的文件、跑命令。

> 关键心态：**别一句句指挥它打字**。给它一个目标 + 必要约束，让它自己规划、执行、回报。

---

## 2. 让 AI"越用越聪明"——记忆体系（这步最值钱）

光会用工具，AI 每次都从零开始、反复踩同样的坑。真正拉开差距的是给它**记忆**：

- **项目记忆**：每个项目根目录放一个 `项目记忆.md`，写清这个项目是什么、目标、规则、踩过的坑。Agent 一打开就懂上下文。
- **公共标准**：把"我希望你怎么做事"的通用约定（沟通方式、代码风格、设计审美、交付格式）写成一组 `标准/*.md`，每个项目都先读。
- **自动记忆**：Claude Code 自带一个记忆目录，会在每次对话开始自动加载你定下的规则和偏好。

**自进化闭环**：做完一个项目 → 把可复用的经验写进标准 → 下个项目自动用上 → 越用越省心。
这就是为什么"用了三个月的人"和"刚上手的人"产出天差地别——不是模型不同，是**记忆厚度**不同。

下载包里的 `怎么和AI协作.md` 给了可直接抄的记忆模板。

---

## 3. 生成层 —— 能产出什么（每个都能下载到对应工作流）

| 能做什么 | 解决的问题 | 主要用的模型/工具 |
|---|---|---|
| **AI 文生/图生视频** | 没有摄制组也能出电影级镜头 | 视频生成模型（如火山方舟 Seedance）+ 文生图模型 |
| **真人脸进 AI 视频** | 让本人/朋友的脸出现在 AI 画面里 | 本地换脸（insightface）+ 精准文生 |
| **透明 3D 虚拟形象** | 做个虚拟主播叠进任意背景/网页 | 绿幕生成 + 抠像出透明视频 |
| **录音 → 文字稿** | 上课/开会录音自动转成稿子 | 本地离线转写（whisper） |
| **免费 AI 配音** | 给视频配旁白，质感接近真人 | edge-tts（微软 Neural 声音，免费） |
| **电影级网页演讲** | 演讲不止静态 PPT，而是带视频+配音+交互的网页 | 上面全部 + 网页前端 |
| **营销落地页一键上线** | 写好网页秒发到全球 CDN | Cloudflare Pages + 部署脚本 |

每项的详细步骤见下载包 `工作流合集.md`。

---

## 4. 流水线层 —— 把东西拼起来、发出去

- **视频/音频处理**：用 `ffmpeg`（开源）做拼接、转场、调色、抠像、叠字幕、混背景音乐。**0 成本**。
- **一键上线**：项目代码放好，跑一个脚本（下载包 `脚本/一键上线.sh`），自动建仓库、推代码、建站、绑域名、配好自动部署。以后改代码 `git push` 就自动更新。

---

## 5. 怎么和你的 Agent 交互（6 条铁律，照着说话最省心）

1. **先对齐目标**：开口先说清"这件事最终要达成什么"，让它当北极星，别让它被你随口的细节带跑。
2. **先让它读记忆**：项目开始先让它读 `项目记忆.md` 和相关标准，再动手。
3. **成本意识、小步试**：生成视频/图是花钱的。先让它出**文字方案**确认 → 小步试一段 → 满意再批量。绝不"改一句重做一整段"。
4. **初版先看核心**：视频初版**不加字幕**，先审画面和配音，确认后再单独叠字幕（用 ffmpeg，免费）。
5. **要它交付四块**：做完让它回报——做了什么 / 怎么验证 / 有什么风险 / 下一步。不要只听一句"做好了"。
6. **破坏性操作先问**：删文件、改数据、强制覆盖，必须先讲方案再动手。

---

## 6. 新电脑/新 Agent 三步上手

1. **装大脑**：按 §1 装 Claude Code 和/或 Codex，登录。
2. **搬记忆**：把下载包里的 `怎么和AI协作.md`、`设计与视觉标准.md` 放进你的 `标准/` 目录；每个项目建 `项目记忆.md`。
3. **装生成层**（按需）：
   ```bash
   brew install node python@3.11 ffmpeg whisper-cpp gh   # 系统工具
   npm install -g wrangler                                # 上线用
   pip3 install --user edge-tts insightface onnxruntime opencv-python pillow requests numpy
   ```
   或直接跑下载包 `脚本/装机.sh`。

装完把下载包里的脚本丢给你的 Agent，对它说：「读一下 `使用手册.md` 和 `工作流合集.md`，我们按这套来做 X」——它就能直接上手。

---

## 下载包里有什么
```
使用手册.md            ← 你正在看的这份
怎么和AI协作.md         ← 记忆体系 + 协作方法论（可直接抄的模板）
工作流合集.md           ← 6 大能力的分步工作流
设计与视觉标准.md       ← 让成品"配得上大舞台"的文字/视觉标尺
脚本/
  seedance生成.py       ← 文生/图生视频 API 通用模板
  build_occlusion_refs.py ← 真人脸进 AI 的"互补遮挡"参考图生成
  faceswap_video.py     ← 本地换脸（视频）通用模板
  一键上线.sh           ← 项目 → 全球 CDN 一键发布
  装机.sh               ← 一条命令装齐工具链
```

> 工具会更新，方法不过时。先学会"把 AI 当同事"，剩下的都是细节。