.claude/skills/video-from-script/references/manifest-schema.md

# manifest.json 规范

> `pipeline.js init` 创建，Pipeline 执行，Agent 审查。
>
> **禁止 AI 手写 manifest.json**，必须通过 `pipeline.js init` 初始化。脚本从 account.json 自动继承结构字段，AI 只提供创意内容（items 的 shotDesc/script/imagePrompt 等）。

---

## 创建方式

```bash
# Step 2-0：分镜确认后立即初始化（imagePrompt/videoPrompt 后续补充）
node scripts/pipeline.js init --account 军事账号 --mode single \
  --items '[{"shotDesc":"英文画面描述","script":"中文口播文案","duration":5,"directorRef":"tarantino","keyword":"权力"}]'

# 或从文件读取
node scripts/pipeline.js init --account 军事账号 --mode single --items-file ./items.json

# Step 2-C 人工确认
node scripts/pipeline.js confirm --manifest <path> --all
node scripts/pipeline.js confirm --manifest <path> --items 1,3,5

# 校验已有 manifest
node scripts/pipeline.js validate --manifest <path>
```

---

## 顶层字段

| 字段 | 说明 | 来源 | 谁填充 |
|------|------|------|--------|
| `account` | 账号 ID | account.json | **init 自动** |
| `imageModel` | `gemini` / `mj` | account.json | **init 自动** |
| `videoModel` | `veo3-fast-frames` / `grok-video-3` / `kling` 等 | account.json | **init 自动** |
| `format` | 画幅：`9:16` / `16:9` | account.json | **init 自动** |
| `estimatedVideoDuration` | 视频模型固定时长（秒），顶层冗余字段 | videoModel 查表 | **init 自动**，assemble 直接读 |
| `mode` | `single` 单图 / `framePair` 首尾帧 | CLI 参数 | **init 自动** |
| `references` | 参考图数组，从 account.json styles.*.references 搬入 | account.json | **init 自动** |
| `items` | 素材数组（AI 提供创意内容） | CLI --items | **AI → init** |


---

## references 字段

从 account.json 搬入，pipeline 直接使用，不再回读 account.json。

- **Gemini** → 读 `file`（本地路径，图生图用）
- **MJ** → 读 `url`（公网 URL，`--sref` 用）

---

## items[] 字段

### Agent 写入（创建时）

| 字段 | 说明 |
|------|------|
| `status` | 固定写 `"pending"` |
| `shotDesc` | 英文分镜描述（含隐性动势，40-80词） |
| `script` | **该 shot 的语义子句原文**（完整句拆分后的子段，一字不差）|
| `duration` | **TTS 估算秒数（= script字数÷5）**，必须 ≤ 6s |
| `estimatedAudioDuration` | 同 duration，备选别名 |
| `estimatedVideoDuration` | 视频模型固定时长（Kling=6s, VEO=8s, Grok=6s），pipeline init 时自动填入 |
| `imagePrompt` | 英文画面描述（给 Gemini/MJ），Step 2-A 生成 |
| `directorRef` | 导演构图参考（tarantino / kitano / fincher），三层透传 |
| `keyword` | 关键字氛围词（2-6 字），assemble 时以花字效果叠加在画面中央。可选 |
| `confirmed` | 人工确认状态，默认 `false` |

**强制约束：**
- **每个 shot 的 `duration`（TTS估算）必须 ≤ 6s**，否则 pipeline 拒绝执行
- `script` 必须是语义子句，**完整句直接填入多个 shot 是严重错误**
- `estimatedVideoDuration` 在 manifest 初始化时由 `pipeline.js init` 从 videoModel 自动推算：
  - `kling` → `6`
  - `veo3-fast` / `veo3-fast-frames` → `8`
  - `grok-video-3` → `6`
- assemble 阶段通过 `ratio = estimatedVideoDuration / realAudioDuration` 选择适配策略

### Agent 后续回写（Step 3-A 视频提示词）

| 字段 | 说明 | 写入时机 |
|------|------|---------|
| `videoPrompt` | 英文运动描述（给 Grok/VEO/Kling），描述镜头运动而非内容 | Step 3-A 由 Agent 回写 |

### Pipeline 回写（执行后）

| 字段 | 说明 | 写入阶段 |
|------|------|---------|
| `status` | `pending` → `generating` → `done` / `failed` | images |
| `file` | 生成的图片路径（相对 manifest） | images |
| `candidates` | MJ 拆分的 4 张候选图路径（Gemini 无此字段） | images |
| `url` | 图片 OSS 公网 URL | upload |
| `confirmed` | 人工确认后设为 `true` | confirm |
| `video` | 生成的视频路径 | videos |
| `videoDuration` | 视频实测时长（秒），Kling=6, VEO=8, Grok=6 | videos |
| `videoUrl` | 视频 OSS 公网 URL | videos |
| `audio` | TTS 音频路径 | tts |
| `audioDuration` | 音频实测时长（秒） | tts |
| `segments` | 分句音频数组（仅多句时存在），见下方 | tts |

### Agent 审查时可操作

- MJ 换选：`item.file = item.candidates[2]`
- 删除不合格 item：直接从 items 数组移除，重新跑 `--phase images`
- 调整 prompt 重跑：改 `imagePrompt`，status 改回 `pending`
- 人工确认：`node scripts/pipeline.js confirm --manifest <path> --all`

---

## 状态机

### item 生命周期

```
pending → [images] → done → [confirm] → confirmed=true → [upload: url填入] → [videos] → done → [tts] → done
             ↓                                          ↓
          failed                                    failed + error
```

status 一旦进入 `done` 就不再回退。后续阶段通过检查"有前置字段 + 无后置字段"来识别待处理 item，不依赖 status 变化。

### 各阶段拾取条件

Agent **不需要记住这些条件**，pipeline 内部自动匹配。仅供理解原理：

| 阶段 | item 被拾取的条件 |
|------|------------------|
| images | `status=pending` + 有 `imagePrompt` |
| upload | `status=done` + 有 `file` + 无 `url` |
| videos | `status=done` + `confirmed=true` + 有 `url` + 有 `videoPrompt` + 无 `video` |
| tts | `status=done` + 有 `script`（回退 `text`） + 无 `audio` |

### pipeline.phases 整体状态

每个阶段有独立状态：`pending` → `running` → `done` / `partial` / `failed`

- `done` — 全部 item 成功
- `partial` — 部分 item 失败（其他成功）
- `failed` — 阶段整体异常中断

---

## 失败处理

用 `--retry-failed` 一条命令搞定。

### 根据失败阶段选择操作

**图片生成失败**（images 阶段 partial）：

```bash
# 只改 prompt 不改图片风格 → 重试即可
node scripts/pipeline.js run --manifest <path> --phase images --retry-failed

# 需要换 prompt → 先改 item.imagePrompt，再重试
# （改完后跑上面同一条命令）
```

**视频生成失败**（videos 阶段 partial）：

```bash
# API 临时故障、网络超时 → 直接重试
node scripts/pipeline.js run --manifest <path> --phase videos --retry-failed

# 提示词问题 → 先改 item.videoPrompt，再重试
# （改完后跑上面同一条命令）

# 视频模型不可用 → 改 manifest.videoModel 或 account.json，再重试
```

**全阶段重试**：

```bash
node scripts/pipeline.js run --manifest <path> --retry-failed
```

### `--retry-failed` 内部行为

1. 扫描所有 `status=failed` 或 `status=partial` 的 item
2. 根据已有字段自动判断应重置到哪个阶段：
   - 有 `url` + `videoPrompt` + 无 `video` → 重置为可生视频（`status=done`）
   - 无 `url` + 有 `imagePrompt` → 重置为可生图（`status=pending`）
3. 对应 `pipeline.phases` 重置为 `pending`
4. 清除 `error` 字段
5. 正常执行指定阶段

---

## 首尾帧模式

`mode: "framePair"` 时，`imagePrompt` 作为起始帧，每个 item 额外字段：

| 字段 | 说明 | 谁填充 |
|------|------|--------|
| `imagePrompt` | 起始帧画面描述（与 single 模式复用同一字段） | AI |
| `lastFramePrompt` | 结束帧画面描述 | AI |
| `lastFrame` | 结束帧图片路径 | **pipeline images 回写** |
| `lastFrameUrl` | 结束帧 OSS URL | **pipeline upload 回写** |

**首尾帧规则**：同一场景、视角一致、状态对比。VEO 检测到 `lastFrameUrl` 自动启用双图模式。

---

## 目录结构

```
output/{name}_{YYYYMMDD}_{NNN}/
├── manifest.json       # 主清单
├── images/             # scene_{NN}_{slug}.jpeg（首尾帧加 _last，MJ 候选加 _cand{1-4}）
├── videos/             # scene_{NN}_{slug}.mp4
└── audio/              # seg_001.mp3
```

slug 从 `shotDesc` 派生（slugify: 保留中文和字母数字，最多 20 字符）。

---

## segments[] 字段（TTS 分句）

TTS 阶段统一生成，单句时数组仅 1 个元素，多句时 N 个元素。assemble 阶段直接使用各 segment 的实际音频时长对齐字幕。

| 字段 | 说明 |
|------|------|
| `text` | 分句文本（已去除标点） |
| `audio` | 该句音频路径（相对 manifest） |
| `duration` | 该句音频时长（秒） |

`item.audio` 指向 `segments[0].audio`，`item.audioDuration` 为各段累计时长。assemble 阶段遍历 segments 逐一添加音频和字幕，使用实际文件时长（非比例分配），确保音频与字幕精确同步，消除留白。

---

## 成片时间线规则

> **核心原则**：
> - 文案是时间轴唯一锚点
> - TTS 语速固定 1.15x（写死在 qwen-tts.js），音频导入 CapCut 时不可调速
> - **音频时长是主时间线**：每个 shot 的 TTS 估算必须 ≤ 视频模型固定时长
> - **视频必须 ≥ 音频**：audioDur > videoDur 的 shot 在分镜阶段必须拆分，不允许慢放/冻结

### 时间线估算规则

| 字段 | 计算方式 | 来源 |
|------|---------|------|
| TTS 语速 | **固定 1.15x** | qwen-tts.js 参数 `rate: 1.15`，不可修改 |
| 单 shot TTS 估算 | `script.length ÷ 5`（字/秒） | AI 写入 duration 字段 |
| 视频模型固定时长 | Kling=6s, VEO=8s, Grok=6s | `pipeline.js init` 从 videoModel 推算 |
| ratio | `estimatedVideoDuration / estimatedAudioDuration` | 估算值，供分镜阶段检查 |
| ratio（实测） | `videoDuration / audioDuration` | assemble 阶段真实值 |

### 图片模式（images）

图片没有独立时长。TTS 音频时长 = 画面时长。无 TTS 音频的 item 时长为 0（跳过，不显示）。

### 视频模式（videos）

**铁律：视频片段必须 ≥ 音频片段。**

TTS 音频为主轴，视频通过以下策略适配音频实测时长：

| ratio = estimatedVideoDuration / estimatedAudioDuration | 策略 | 说明 |
|---------------------------------------------------|------|------|
| 0.9 ~ 1.1 | none | 接近匹配，无需调整 |
| > 1.1, ≤ 2 | **speed_up**（最优） | 视频加速追上音频，音频速率不变 |
| > 2 | **trim**（次选） | 视频截断至音频时长，损失尾部 |
| < 0.9 | **禁止 / 打回分镜** | audioDur > videoDur 的 shot 在分镜阶段必须拆分，不允许慢放/冻结 |

**禁止的策略（已删除）：**
- `slow_down`：音频时长超过视频时不允许慢放
- `freeze`：不允许冻结帧补齐
- 音频调速：CapCut 导入音频时无 speed 字段，1.15x 速率固定

所有策略失败后兜底：截断到目标时长。
-												init: video-create project with skills and accounts

											
										
										
											2026-04-29 21:04:43 +08:00
+								# manifest.json 规范
 								> `pipeline.js init` 创建，Pipeline 执行，Agent 审查。
 								>
-												feat(video-pipeline): 将 narration 字段统一重命名为 script

字段重命名涉及所有文档、示例代码、提示词模板以及 slug 生成逻辑，确保管线各阶段（分镜、图生提示词、TTS、成片）一致使用 script 字段承载口播文案。

同时增强 `capcut_assemble.js` 的配音与字幕模块：
- 配音支持本地路径模式（不上传 OSS），新增 `--split-captions` 参数启用分句字幕
- 分句字幕按标点切分长文本为短句，基于字数权重动态分配显示时长
- 新增 `update-captions-standalone.js` 独立工具，可在草稿已生成后单独更新字幕

											
										
										
											2026-05-01 02:48:37 +08:00
+								> **禁止 AI 手写 manifest.json**，必须通过 `pipeline.js init` 初始化。脚本从 account.json 自动继承结构字段，AI 只提供创意内容（items 的 shotDesc/script/imagePrompt 等）。
-												init: video-create project with skills and accounts

											
										
										
											2026-04-29 21:04:43 +08:00
 								---
 								## 创建方式
 								```bash
-												feat(video-pipeline): 重构视频流水线，优化成片时间线规则和状态管理

- 引入 manifest.json 作为唯一状态源，所有子 Agent 操作回写 manifest
- 重构 timebuilder 逻辑，支持四种视频适配策略（加速/裁剪/放缓/画面停顿）
- 统一 TTS 阶段输出结构，单句和多句均写入 segments[]
- 重写字幕和配音生成，基于 segments 精确时长实现音画同步
- 新增 confirm 命令支持按 id 范围确认，上传阶段分离图片和视频
- 添加中间产物写入 output/ 目录的约束，清理废弃配置参数

											
										
										
											2026-05-02 00:14:40 +08:00
+								# Step 2-0：分镜确认后立即初始化（imagePrompt/videoPrompt 后续补充）
-												feat(video-pipeline): 将 narration 字段统一重命名为 script

字段重命名涉及所有文档、示例代码、提示词模板以及 slug 生成逻辑，确保管线各阶段（分镜、图生提示词、TTS、成片）一致使用 script 字段承载口播文案。

同时增强 `capcut_assemble.js` 的配音与字幕模块：
- 配音支持本地路径模式（不上传 OSS），新增 `--split-captions` 参数启用分句字幕
- 分句字幕按标点切分长文本为短句，基于字数权重动态分配显示时长
- 新增 `update-captions-standalone.js` 独立工具，可在草稿已生成后单独更新字幕

											
										
										
											2026-05-01 02:48:37 +08:00
+								node scripts/pipeline.js init --account 军事账号 --mode single \
-												feat(video-pipeline): 重构视频流水线，优化成片时间线规则和状态管理

- 引入 manifest.json 作为唯一状态源，所有子 Agent 操作回写 manifest
- 重构 timebuilder 逻辑，支持四种视频适配策略（加速/裁剪/放缓/画面停顿）
- 统一 TTS 阶段输出结构，单句和多句均写入 segments[]
- 重写字幕和配音生成，基于 segments 精确时长实现音画同步
- 新增 confirm 命令支持按 id 范围确认，上传阶段分离图片和视频
- 添加中间产物写入 output/ 目录的约束，清理废弃配置参数

											
										
										
											2026-05-02 00:14:40 +08:00
+								  --items '[{"shotDesc":"英文画面描述","script":"中文口播文案","duration":5,"directorRef":"tarantino","keyword":"权力"}]'
-												init: video-create project with skills and accounts

											
										
										
											2026-04-29 21:04:43 +08:00
 								# 或从文件读取
-												feat(video-pipeline): 将 narration 字段统一重命名为 script

字段重命名涉及所有文档、示例代码、提示词模板以及 slug 生成逻辑，确保管线各阶段（分镜、图生提示词、TTS、成片）一致使用 script 字段承载口播文案。

同时增强 `capcut_assemble.js` 的配音与字幕模块：
- 配音支持本地路径模式（不上传 OSS），新增 `--split-captions` 参数启用分句字幕
- 分句字幕按标点切分长文本为短句，基于字数权重动态分配显示时长
- 新增 `update-captions-standalone.js` 独立工具，可在草稿已生成后单独更新字幕

											
										
										
											2026-05-01 02:48:37 +08:00
+								node scripts/pipeline.js init --account 军事账号 --mode single --items-file ./items.json
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
 								# Step 2-C 人工确认
-												feat(video-pipeline): 将 narration 字段统一重命名为 script

字段重命名涉及所有文档、示例代码、提示词模板以及 slug 生成逻辑，确保管线各阶段（分镜、图生提示词、TTS、成片）一致使用 script 字段承载口播文案。

同时增强 `capcut_assemble.js` 的配音与字幕模块：
- 配音支持本地路径模式（不上传 OSS），新增 `--split-captions` 参数启用分句字幕
- 分句字幕按标点切分长文本为短句，基于字数权重动态分配显示时长
- 新增 `update-captions-standalone.js` 独立工具，可在草稿已生成后单独更新字幕

											
										
										
											2026-05-01 02:48:37 +08:00
+								node scripts/pipeline.js confirm --manifest <path> --all
 								node scripts/pipeline.js confirm --manifest <path> --items 1,3,5
-												init: video-create project with skills and accounts

											
										
										
											2026-04-29 21:04:43 +08:00
 								# 校验已有 manifest
-												feat(video-pipeline): 将 narration 字段统一重命名为 script

字段重命名涉及所有文档、示例代码、提示词模板以及 slug 生成逻辑，确保管线各阶段（分镜、图生提示词、TTS、成片）一致使用 script 字段承载口播文案。

同时增强 `capcut_assemble.js` 的配音与字幕模块：
- 配音支持本地路径模式（不上传 OSS），新增 `--split-captions` 参数启用分句字幕
- 分句字幕按标点切分长文本为短句，基于字数权重动态分配显示时长
- 新增 `update-captions-standalone.js` 独立工具，可在草稿已生成后单独更新字幕

											
										
										
											2026-05-01 02:48:37 +08:00
+								node scripts/pipeline.js validate --manifest <path>
-												init: video-create project with skills and accounts

											
										
										
											2026-04-29 21:04:43 +08:00
+								```
 								---
 								## 顶层字段
 								| 字段 | 说明 | 来源 | 谁填充 |
 								|------|------|------|--------|
 								| `account` | 账号 ID | account.json | **init 自动** |
 								| `imageModel` | `gemini` / `mj` | account.json | **init 自动** |
-												feat(video-from-script): 升级可灵视频生成使用官方 API 并添加失败重试机制

- 使用 AK/SK → JWT (HMAC-SHA256) 鉴权替代旧版 API Key
- 支持多种凭证来源：~/.config/kling/.credentials 或 config.json
- 更新 API 端点至官方规范 (v1/videos/image2video)
- 添加 `--retry-failed` 参数支持失败 item 状态重置和重试
- 更新 manifest 文档添加状态机和失败处理说明
- 调整模型名称和参数格式以匹配新 API

											
										
										
											2026-04-29 21:56:47 +08:00
+								| `videoModel` | `veo3-fast-frames` / `grok-video-3` / `kling` 等 | account.json | **init 自动** |
-												init: video-create project with skills and accounts

											
										
										
											2026-04-29 21:04:43 +08:00
+								| `format` | 画幅：`9:16` / `16:9` | account.json | **init 自动** |
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								| `estimatedVideoDuration` | 视频模型固定时长（秒），顶层冗余字段 | videoModel 查表 | **init 自动**，assemble 直接读 |
-												init: video-create project with skills and accounts

											
										
										
											2026-04-29 21:04:43 +08:00
+								| `mode` | `single` 单图 / `framePair` 首尾帧 | CLI 参数 | **init 自动** |
 								| `references` | 参考图数组，从 account.json styles.*.references 搬入 | account.json | **init 自动** |
 								| `items` | 素材数组（AI 提供创意内容） | CLI --items | **AI → init** |
 								---
 								## references 字段
 								从 account.json 搬入，pipeline 直接使用，不再回读 account.json。
 								- **Gemini** → 读 `file`（本地路径，图生图用）
 								- **MJ** → 读 `url`（公网 URL，`--sref` 用）
 								---
 								## items[] 字段
 								### Agent 写入（创建时）
 								| 字段 | 说明 |
 								|------|------|
 								| `status` | 固定写 `"pending"` |
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								| `shotDesc` | 英文分镜描述（含隐性动势，40-80词） |
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								| `script` | **该 shot 的语义子句原文**（完整句拆分后的子段，一字不差）|
 								| `duration` | **TTS 估算秒数（= script字数÷5）**，必须 ≤ 6s |
 								| `estimatedAudioDuration` | 同 duration，备选别名 |
 								| `estimatedVideoDuration` | 视频模型固定时长（Kling=6s, VEO=8s, Grok=6s），pipeline init 时自动填入 |
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								| `imagePrompt` | 英文画面描述（给 Gemini/MJ），Step 2-A 生成 |
 								| `directorRef` | 导演构图参考（tarantino / kitano / fincher），三层透传 |
-												feat(video-pipeline): 添加关键字氛围词花字叠加和Oss URL回写功能

- 新增 Q17 关键字氛围词问答项，支持关闭/默认/自定义花字效果
- 在 manifest 和 account.json 中添加 keyword 和 keywordStyle 字段
- 实现关键字氛围词在画面中央的叠加逻辑，支持动画、阴影、文字效果等配置
- 在 assemble 流程中增加 `keywords` 步骤，自动读取账号配置生成花字
- 修复音频上传后未回写 OSS URL 到 manifest 的问题，避免重复上传

											
										
										
											2026-05-01 15:21:59 +08:00
+								| `keyword` | 关键字氛围词（2-6 字），assemble 时以花字效果叠加在画面中央。可选 |
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								| `confirmed` | 人工确认状态，默认 `false` |
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								**强制约束：**
 								- **每个 shot 的 `duration`（TTS估算）必须 ≤ 6s**，否则 pipeline 拒绝执行
 								- `script` 必须是语义子句，**完整句直接填入多个 shot 是严重错误**
 								- `estimatedVideoDuration` 在 manifest 初始化时由 `pipeline.js init` 从 videoModel 自动推算：
 								  - `kling` → `6`
 								  - `veo3-fast` / `veo3-fast-frames` → `8`
 								  - `grok-video-3` → `6`
 								- assemble 阶段通过 `ratio = estimatedVideoDuration / realAudioDuration` 选择适配策略
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								### Agent 后续回写（Step 3-A 视频提示词）
 								| 字段 | 说明 | 写入时机 |
 								|------|------|---------|
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								| `videoPrompt` | 英文运动描述（给 Grok/VEO/Kling），描述镜头运动而非内容 | Step 3-A 由 Agent 回写 |
-												init: video-create project with skills and accounts

											
										
										
											2026-04-29 21:04:43 +08:00
 								### Pipeline 回写（执行后）
 								| 字段 | 说明 | 写入阶段 |
 								|------|------|---------|
 								| `status` | `pending` → `generating` → `done` / `failed` | images |
 								| `file` | 生成的图片路径（相对 manifest） | images |
 								| `candidates` | MJ 拆分的 4 张候选图路径（Gemini 无此字段） | images |
 								| `url` | 图片 OSS 公网 URL | upload |
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								| `confirmed` | 人工确认后设为 `true` | confirm |
-												init: video-create project with skills and accounts

											
										
										
											2026-04-29 21:04:43 +08:00
+								| `video` | 生成的视频路径 | videos |
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								| `videoDuration` | 视频实测时长（秒），Kling=6, VEO=8, Grok=6 | videos |
-												init: video-create project with skills and accounts

											
										
										
											2026-04-29 21:04:43 +08:00
+								| `videoUrl` | 视频 OSS 公网 URL | videos |
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								| `audio` | TTS 音频路径 | tts |
 								| `audioDuration` | 音频实测时长（秒） | tts |
-												feat(video-pipeline): 实现 TTS 逐句分句生成与字幕精确对齐

TTS 阶段将长文本按标点切分为短句，逐句生成音频并记录每句时长到 `item.segments[]`。assemble 阶段优先使用 segments 的精确时长分配字幕时间线，无 segments 时回退到字数权重估算。同时优化音频上传流程，支持分段音频独立上传 OSS 并在配音时按段映射时间线。

											
										
										
											2026-05-01 14:41:28 +08:00
+								| `segments` | 分句音频数组（仅多句时存在），见下方 | tts |
-												init: video-create project with skills and accounts

											
										
										
											2026-04-29 21:04:43 +08:00
 								### Agent 审查时可操作
 								- MJ 换选：`item.file = item.candidates[2]`
 								- 删除不合格 item：直接从 items 数组移除，重新跑 `--phase images`
 								- 调整 prompt 重跑：改 `imagePrompt`，status 改回 `pending`
-												feat(video-pipeline): 将 narration 字段统一重命名为 script

字段重命名涉及所有文档、示例代码、提示词模板以及 slug 生成逻辑，确保管线各阶段（分镜、图生提示词、TTS、成片）一致使用 script 字段承载口播文案。

同时增强 `capcut_assemble.js` 的配音与字幕模块：
- 配音支持本地路径模式（不上传 OSS），新增 `--split-captions` 参数启用分句字幕
- 分句字幕按标点切分长文本为短句，基于字数权重动态分配显示时长
- 新增 `update-captions-standalone.js` 独立工具，可在草稿已生成后单独更新字幕

											
										
										
											2026-05-01 02:48:37 +08:00
+								- 人工确认：`node scripts/pipeline.js confirm --manifest <path> --all`
-												init: video-create project with skills and accounts

											
										
										
											2026-04-29 21:04:43 +08:00
 								---
-												feat(video-from-script): 升级可灵视频生成使用官方 API 并添加失败重试机制

- 使用 AK/SK → JWT (HMAC-SHA256) 鉴权替代旧版 API Key
- 支持多种凭证来源：~/.config/kling/.credentials 或 config.json
- 更新 API 端点至官方规范 (v1/videos/image2video)
- 添加 `--retry-failed` 参数支持失败 item 状态重置和重试
- 更新 manifest 文档添加状态机和失败处理说明
- 调整模型名称和参数格式以匹配新 API

											
										
										
											2026-04-29 21:56:47 +08:00
+								## 状态机
 								### item 生命周期
 								```
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								pending → [images] → done → [confirm] → confirmed=true → [upload: url填入] → [videos] → done → [tts] → done
 								             ↓                                          ↓
 								          failed                                    failed + error
-												feat(video-from-script): 升级可灵视频生成使用官方 API 并添加失败重试机制

- 使用 AK/SK → JWT (HMAC-SHA256) 鉴权替代旧版 API Key
- 支持多种凭证来源：~/.config/kling/.credentials 或 config.json
- 更新 API 端点至官方规范 (v1/videos/image2video)
- 添加 `--retry-failed` 参数支持失败 item 状态重置和重试
- 更新 manifest 文档添加状态机和失败处理说明
- 调整模型名称和参数格式以匹配新 API

											
										
										
											2026-04-29 21:56:47 +08:00
+								```
 								status 一旦进入 `done` 就不再回退。后续阶段通过检查"有前置字段 + 无后置字段"来识别待处理 item，不依赖 status 变化。
 								### 各阶段拾取条件
 								Agent **不需要记住这些条件**，pipeline 内部自动匹配。仅供理解原理：
 								| 阶段 | item 被拾取的条件 |
 								|------|------------------|
 								| images | `status=pending` + 有 `imagePrompt` |
 								| upload | `status=done` + 有 `file` + 无 `url` |
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								| videos | `status=done` + `confirmed=true` + 有 `url` + 有 `videoPrompt` + 无 `video` |
-												feat(video-pipeline): 将 narration 字段统一重命名为 script

字段重命名涉及所有文档、示例代码、提示词模板以及 slug 生成逻辑，确保管线各阶段（分镜、图生提示词、TTS、成片）一致使用 script 字段承载口播文案。

同时增强 `capcut_assemble.js` 的配音与字幕模块：
- 配音支持本地路径模式（不上传 OSS），新增 `--split-captions` 参数启用分句字幕
- 分句字幕按标点切分长文本为短句，基于字数权重动态分配显示时长
- 新增 `update-captions-standalone.js` 独立工具，可在草稿已生成后单独更新字幕

											
										
										
											2026-05-01 02:48:37 +08:00
+								| tts | `status=done` + 有 `script`（回退 `text`） + 无 `audio` |
-												feat(video-from-script): 升级可灵视频生成使用官方 API 并添加失败重试机制

- 使用 AK/SK → JWT (HMAC-SHA256) 鉴权替代旧版 API Key
- 支持多种凭证来源：~/.config/kling/.credentials 或 config.json
- 更新 API 端点至官方规范 (v1/videos/image2video)
- 添加 `--retry-failed` 参数支持失败 item 状态重置和重试
- 更新 manifest 文档添加状态机和失败处理说明
- 调整模型名称和参数格式以匹配新 API

											
										
										
											2026-04-29 21:56:47 +08:00
 								### pipeline.phases 整体状态
 								每个阶段有独立状态：`pending` → `running` → `done` / `partial` / `failed`
 								- `done` — 全部 item 成功
 								- `partial` — 部分 item 失败（其他成功）
 								- `failed` — 阶段整体异常中断
 								---
 								## 失败处理
 								用 `--retry-failed` 一条命令搞定。
 								### 根据失败阶段选择操作
 								**图片生成失败**（images 阶段 partial）：
 								```bash
 								# 只改 prompt 不改图片风格 → 重试即可
-												feat(video-pipeline): 将 narration 字段统一重命名为 script

字段重命名涉及所有文档、示例代码、提示词模板以及 slug 生成逻辑，确保管线各阶段（分镜、图生提示词、TTS、成片）一致使用 script 字段承载口播文案。

同时增强 `capcut_assemble.js` 的配音与字幕模块：
- 配音支持本地路径模式（不上传 OSS），新增 `--split-captions` 参数启用分句字幕
- 分句字幕按标点切分长文本为短句，基于字数权重动态分配显示时长
- 新增 `update-captions-standalone.js` 独立工具，可在草稿已生成后单独更新字幕

											
										
										
											2026-05-01 02:48:37 +08:00
+								node scripts/pipeline.js run --manifest <path> --phase images --retry-failed
-												feat(video-from-script): 升级可灵视频生成使用官方 API 并添加失败重试机制

- 使用 AK/SK → JWT (HMAC-SHA256) 鉴权替代旧版 API Key
- 支持多种凭证来源：~/.config/kling/.credentials 或 config.json
- 更新 API 端点至官方规范 (v1/videos/image2video)
- 添加 `--retry-failed` 参数支持失败 item 状态重置和重试
- 更新 manifest 文档添加状态机和失败处理说明
- 调整模型名称和参数格式以匹配新 API

											
										
										
											2026-04-29 21:56:47 +08:00
 								# 需要换 prompt → 先改 item.imagePrompt，再重试
 								# （改完后跑上面同一条命令）
 								```
 								**视频生成失败**（videos 阶段 partial）：
 								```bash
 								# API 临时故障、网络超时 → 直接重试
-												feat(video-pipeline): 将 narration 字段统一重命名为 script

字段重命名涉及所有文档、示例代码、提示词模板以及 slug 生成逻辑，确保管线各阶段（分镜、图生提示词、TTS、成片）一致使用 script 字段承载口播文案。

同时增强 `capcut_assemble.js` 的配音与字幕模块：
- 配音支持本地路径模式（不上传 OSS），新增 `--split-captions` 参数启用分句字幕
- 分句字幕按标点切分长文本为短句，基于字数权重动态分配显示时长
- 新增 `update-captions-standalone.js` 独立工具，可在草稿已生成后单独更新字幕

											
										
										
											2026-05-01 02:48:37 +08:00
+								node scripts/pipeline.js run --manifest <path> --phase videos --retry-failed
-												feat(video-from-script): 升级可灵视频生成使用官方 API 并添加失败重试机制

- 使用 AK/SK → JWT (HMAC-SHA256) 鉴权替代旧版 API Key
- 支持多种凭证来源：~/.config/kling/.credentials 或 config.json
- 更新 API 端点至官方规范 (v1/videos/image2video)
- 添加 `--retry-failed` 参数支持失败 item 状态重置和重试
- 更新 manifest 文档添加状态机和失败处理说明
- 调整模型名称和参数格式以匹配新 API

											
										
										
											2026-04-29 21:56:47 +08:00
 								# 提示词问题 → 先改 item.videoPrompt，再重试
 								# （改完后跑上面同一条命令）
 								# 视频模型不可用 → 改 manifest.videoModel 或 account.json，再重试
 								```
 								**全阶段重试**：
 								```bash
-												feat(video-pipeline): 将 narration 字段统一重命名为 script

字段重命名涉及所有文档、示例代码、提示词模板以及 slug 生成逻辑，确保管线各阶段（分镜、图生提示词、TTS、成片）一致使用 script 字段承载口播文案。

同时增强 `capcut_assemble.js` 的配音与字幕模块：
- 配音支持本地路径模式（不上传 OSS），新增 `--split-captions` 参数启用分句字幕
- 分句字幕按标点切分长文本为短句，基于字数权重动态分配显示时长
- 新增 `update-captions-standalone.js` 独立工具，可在草稿已生成后单独更新字幕

											
										
										
											2026-05-01 02:48:37 +08:00
+								node scripts/pipeline.js run --manifest <path> --retry-failed
-												feat(video-from-script): 升级可灵视频生成使用官方 API 并添加失败重试机制

- 使用 AK/SK → JWT (HMAC-SHA256) 鉴权替代旧版 API Key
- 支持多种凭证来源：~/.config/kling/.credentials 或 config.json
- 更新 API 端点至官方规范 (v1/videos/image2video)
- 添加 `--retry-failed` 参数支持失败 item 状态重置和重试
- 更新 manifest 文档添加状态机和失败处理说明
- 调整模型名称和参数格式以匹配新 API

											
										
										
											2026-04-29 21:56:47 +08:00
+								```
 								### `--retry-failed` 内部行为
 . 扫描所有 `status=failed` 或 `status=partial` 的 item
 . 根据已有字段自动判断应重置到哪个阶段：
 								   - 有 `url` + `videoPrompt` + 无 `video` → 重置为可生视频（`status=done`）
 								   - 无 `url` + 有 `imagePrompt` → 重置为可生图（`status=pending`）
 . 对应 `pipeline.phases` 重置为 `pending`
 . 清除 `error` 字段
 . 正常执行指定阶段
 								---
-												init: video-create project with skills and accounts

											
										
										
											2026-04-29 21:04:43 +08:00
+								## 首尾帧模式
 								`mode: "framePair"` 时，`imagePrompt` 作为起始帧，每个 item 额外字段：
 								| 字段 | 说明 | 谁填充 |
 								|------|------|--------|
 								| `imagePrompt` | 起始帧画面描述（与 single 模式复用同一字段） | AI |
 								| `lastFramePrompt` | 结束帧画面描述 | AI |
 								| `lastFrame` | 结束帧图片路径 | **pipeline images 回写** |
 								| `lastFrameUrl` | 结束帧 OSS URL | **pipeline upload 回写** |
 								**首尾帧规则**：同一场景、视角一致、状态对比。VEO 检测到 `lastFrameUrl` 自动启用双图模式。
 								---
 								## 目录结构
 								```
-												feat(video-pipeline): 重构视频流水线，优化成片时间线规则和状态管理

- 引入 manifest.json 作为唯一状态源，所有子 Agent 操作回写 manifest
- 重构 timebuilder 逻辑，支持四种视频适配策略（加速/裁剪/放缓/画面停顿）
- 统一 TTS 阶段输出结构，单句和多句均写入 segments[]
- 重写字幕和配音生成，基于 segments 精确时长实现音画同步
- 新增 confirm 命令支持按 id 范围确认，上传阶段分离图片和视频
- 添加中间产物写入 output/ 目录的约束，清理废弃配置参数

											
										
										
											2026-05-02 00:14:40 +08:00
+								output/{name}_{YYYYMMDD}_{NNN}/
-												init: video-create project with skills and accounts

											
										
										
											2026-04-29 21:04:43 +08:00
+								├── manifest.json       # 主清单
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								├── images/             # scene_{NN}_{slug}.jpeg（首尾帧加 _last，MJ 候选加 _cand{1-4}）
 								├── videos/             # scene_{NN}_{slug}.mp4
-												init: video-create project with skills and accounts

											
										
										
											2026-04-29 21:04:43 +08:00
+								└── audio/              # seg_001.mp3
 								```
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
 								slug 从 `shotDesc` 派生（slugify: 保留中文和字母数字，最多 20 字符）。
-												feat(video-pipeline): 实现 TTS 逐句分句生成与字幕精确对齐

TTS 阶段将长文本按标点切分为短句，逐句生成音频并记录每句时长到 `item.segments[]`。assemble 阶段优先使用 segments 的精确时长分配字幕时间线，无 segments 时回退到字数权重估算。同时优化音频上传流程，支持分段音频独立上传 OSS 并在配音时按段映射时间线。

											
										
										
											2026-05-01 14:41:28 +08:00
 								---
 								## segments[] 字段（TTS 分句）
-												feat(video-pipeline): 重构视频流水线，优化成片时间线规则和状态管理

- 引入 manifest.json 作为唯一状态源，所有子 Agent 操作回写 manifest
- 重构 timebuilder 逻辑，支持四种视频适配策略（加速/裁剪/放缓/画面停顿）
- 统一 TTS 阶段输出结构，单句和多句均写入 segments[]
- 重写字幕和配音生成，基于 segments 精确时长实现音画同步
- 新增 confirm 命令支持按 id 范围确认，上传阶段分离图片和视频
- 添加中间产物写入 output/ 目录的约束，清理废弃配置参数

											
										
										
											2026-05-02 00:14:40 +08:00
+								TTS 阶段统一生成，单句时数组仅 1 个元素，多句时 N 个元素。assemble 阶段直接使用各 segment 的实际音频时长对齐字幕。
-												feat(video-pipeline): 实现 TTS 逐句分句生成与字幕精确对齐

TTS 阶段将长文本按标点切分为短句，逐句生成音频并记录每句时长到 `item.segments[]`。assemble 阶段优先使用 segments 的精确时长分配字幕时间线，无 segments 时回退到字数权重估算。同时优化音频上传流程，支持分段音频独立上传 OSS 并在配音时按段映射时间线。

											
										
										
											2026-05-01 14:41:28 +08:00
 								| 字段 | 说明 |
 								|------|------|
 								| `text` | 分句文本（已去除标点） |
 								| `audio` | 该句音频路径（相对 manifest） |
 								| `duration` | 该句音频时长（秒） |
-												feat(video-pipeline): 重构视频流水线，优化成片时间线规则和状态管理

- 引入 manifest.json 作为唯一状态源，所有子 Agent 操作回写 manifest
- 重构 timebuilder 逻辑，支持四种视频适配策略（加速/裁剪/放缓/画面停顿）
- 统一 TTS 阶段输出结构，单句和多句均写入 segments[]
- 重写字幕和配音生成，基于 segments 精确时长实现音画同步
- 新增 confirm 命令支持按 id 范围确认，上传阶段分离图片和视频
- 添加中间产物写入 output/ 目录的约束，清理废弃配置参数

											
										
										
											2026-05-02 00:14:40 +08:00
+								`item.audio` 指向 `segments[0].audio`，`item.audioDuration` 为各段累计时长。assemble 阶段遍历 segments 逐一添加音频和字幕，使用实际文件时长（非比例分配），确保音频与字幕精确同步，消除留白。
 								---
 								## 成片时间线规则
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								> **核心原则**：
 								> - 文案是时间轴唯一锚点
 								> - TTS 语速固定 1.15x（写死在 qwen-tts.js），音频导入 CapCut 时不可调速
 								> - **音频时长是主时间线**：每个 shot 的 TTS 估算必须 ≤ 视频模型固定时长
 								> - **视频必须 ≥ 音频**：audioDur > videoDur 的 shot 在分镜阶段必须拆分，不允许慢放/冻结
 								### 时间线估算规则
 								| 字段 | 计算方式 | 来源 |
 								|------|---------|------|
 								| TTS 语速 | **固定 1.15x** | qwen-tts.js 参数 `rate: 1.15`，不可修改 |
 								| 单 shot TTS 估算 | `script.length ÷ 5`（字/秒） | AI 写入 duration 字段 |
 								| 视频模型固定时长 | Kling=6s, VEO=8s, Grok=6s | `pipeline.js init` 从 videoModel 推算 |
 								| ratio | `estimatedVideoDuration / estimatedAudioDuration` | 估算值，供分镜阶段检查 |
 								| ratio（实测） | `videoDuration / audioDuration` | assemble 阶段真实值 |
-												feat(video-pipeline): 重构视频流水线，优化成片时间线规则和状态管理

- 引入 manifest.json 作为唯一状态源，所有子 Agent 操作回写 manifest
- 重构 timebuilder 逻辑，支持四种视频适配策略（加速/裁剪/放缓/画面停顿）
- 统一 TTS 阶段输出结构，单句和多句均写入 segments[]
- 重写字幕和配音生成，基于 segments 精确时长实现音画同步
- 新增 confirm 命令支持按 id 范围确认，上传阶段分离图片和视频
- 添加中间产物写入 output/ 目录的约束，清理废弃配置参数

											
										
										
											2026-05-02 00:14:40 +08:00
+								### 图片模式（images）
 								图片没有独立时长。TTS 音频时长 = 画面时长。无 TTS 音频的 item 时长为 0（跳过，不显示）。
 								### 视频模式（videos）
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								**铁律：视频片段必须 ≥ 音频片段。**
 								TTS 音频为主轴，视频通过以下策略适配音频实测时长：
-												feat(video-pipeline): 重构视频流水线，优化成片时间线规则和状态管理

- 引入 manifest.json 作为唯一状态源，所有子 Agent 操作回写 manifest
- 重构 timebuilder 逻辑，支持四种视频适配策略（加速/裁剪/放缓/画面停顿）
- 统一 TTS 阶段输出结构，单句和多句均写入 segments[]
- 重写字幕和配音生成，基于 segments 精确时长实现音画同步
- 新增 confirm 命令支持按 id 范围确认，上传阶段分离图片和视频
- 添加中间产物写入 output/ 目录的约束，清理废弃配置参数

											
										
										
											2026-05-02 00:14:40 +08:00
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								| ratio = estimatedVideoDuration / estimatedAudioDuration | 策略 | 说明 |
 								|---------------------------------------------------|------|------|
-												feat(video-pipeline): 重构视频流水线，优化成片时间线规则和状态管理

- 引入 manifest.json 作为唯一状态源，所有子 Agent 操作回写 manifest
- 重构 timebuilder 逻辑，支持四种视频适配策略（加速/裁剪/放缓/画面停顿）
- 统一 TTS 阶段输出结构，单句和多句均写入 segments[]
- 重写字幕和配音生成，基于 segments 精确时长实现音画同步
- 新增 confirm 命令支持按 id 范围确认，上传阶段分离图片和视频
- 添加中间产物写入 output/ 目录的约束，清理废弃配置参数

											
										
										
											2026-05-02 00:14:40 +08:00
+								| 0.9 ~ 1.1 | none | 接近匹配，无需调整 |
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								| > 1.1, ≤ 2 | **speed_up**（最优） | 视频加速追上音频，音频速率不变 |
 								| > 2 | **trim**（次选） | 视频截断至音频时长，损失尾部 |
 								| < 0.9 | **禁止 / 打回分镜** | audioDur > videoDur 的 shot 在分镜阶段必须拆分，不允许慢放/冻结 |
 								**禁止的策略（已删除）：**
 								- `slow_down`：音频时长超过视频时不允许慢放
 								- `freeze`：不允许冻结帧补齐
 								- 音频调速：CapCut 导入音频时无 speed 字段，1.15x 速率固定
-												feat(video-pipeline): 重构视频流水线，优化成片时间线规则和状态管理

- 引入 manifest.json 作为唯一状态源，所有子 Agent 操作回写 manifest
- 重构 timebuilder 逻辑，支持四种视频适配策略（加速/裁剪/放缓/画面停顿）
- 统一 TTS 阶段输出结构，单句和多句均写入 segments[]
- 重写字幕和配音生成，基于 segments 精确时长实现音画同步
- 新增 confirm 命令支持按 id 范围确认，上传阶段分离图片和视频
- 添加中间产物写入 output/ 目录的约束，清理废弃配置参数

											
										
										
											2026-05-02 00:14:40 +08:00
 								所有策略失败后兜底：截断到目标时长。