feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑,添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力,支持更多元素类型
- capcut-timeline.js: 改进时间线生成,支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
lc
2026-05-06 22:53:37 +08:00
parent e6daf7a8d8
commit 6eec0e8889
28 changed files with 2199 additions and 253 deletions

View File

@@ -34,6 +34,7 @@ node scripts/pipeline.js validate --manifest <path>
| `imageModel` | `gemini` / `mj` | account.json | **init 自动** |
| `videoModel` | `veo3-fast-frames` / `grok-video-3` / `kling` 等 | account.json | **init 自动** |
| `format` | 画幅:`9:16` / `16:9` | account.json | **init 自动** |
| `estimatedVideoDuration` | 视频模型固定时长(秒),顶层冗余字段 | videoModel 查表 | **init 自动**assemble 直接读 |
| `mode` | `single` 单图 / `framePair` 首尾帧 | CLI 参数 | **init 自动** |
| `references` | 参考图数组,从 account.json styles.*.references 搬入 | account.json | **init 自动** |
| `items` | 素材数组AI 提供创意内容) | CLI --items | **AI → init** |
@@ -58,18 +59,29 @@ node scripts/pipeline.js validate --manifest <path>
|------|------|
| `status` | 固定写 `"pending"` |
| `shotDesc` | 英文分镜描述含隐性动势40-80词 |
| `script` | **该段的完整原文**不提炼,保留论证、例子、细节|
| `duration` | 计划视频时长(秒),来自分镜阶段 |
| `script` | **该 shot 的语义子句原文**完整句拆分后的子段,一字不差|
| `duration` | **TTS 估算秒数(= script字数÷5**,必须 ≤ 6s |
| `estimatedAudioDuration` | 同 duration备选别名 |
| `estimatedVideoDuration` | 视频模型固定时长Kling=6s, VEO=8s, Grok=6spipeline init 时自动填入 |
| `imagePrompt` | 英文画面描述(给 Gemini/MJStep 2-A 生成 |
| `directorRef` | 导演构图参考tarantino / kitano / fincher三层透传 |
| `keyword` | 关键字氛围词2-6 字assemble 时以花字效果叠加在画面中央。可选 |
| `confirmed` | 人工确认状态,默认 `false` |
**强制约束:**
- **每个 shot 的 `duration`TTS估算必须 ≤ 6s**,否则 pipeline 拒绝执行
- `script` 必须是语义子句,**完整句直接填入多个 shot 是严重错误**
- `estimatedVideoDuration` 在 manifest 初始化时由 `pipeline.js init` 从 videoModel 自动推算:
- `kling``6`
- `veo3-fast` / `veo3-fast-frames``8`
- `grok-video-3``6`
- assemble 阶段通过 `ratio = estimatedVideoDuration / realAudioDuration` 选择适配策略
### Agent 后续回写Step 3-A 视频提示词)
| 字段 | 说明 | 写入时机 |
|------|------|---------|
| `videoPrompt` | 英文运动描述(给 Grok/VEO描述镜头运动而非内容 | Step 3-A 由 Agent 回写 |
| `videoPrompt` | 英文运动描述(给 Grok/VEO/Kling),描述镜头运动而非内容 | Step 3-A 由 Agent 回写 |
### Pipeline 回写(执行后)
@@ -81,10 +93,10 @@ node scripts/pipeline.js validate --manifest <path>
| `url` | 图片 OSS 公网 URL | upload |
| `confirmed` | 人工确认后设为 `true` | confirm |
| `video` | 生成的视频路径 | videos |
| `videoDuration` | 视频时长(秒),Grok=6, VEO=8 | videos |
| `videoDuration` | 视频实测时长(秒),Kling=6, VEO=8, Grok=6 | videos |
| `videoUrl` | 视频 OSS 公网 URL | videos |
| `audio` | TTS 音频路径(多句时为合并后的完整音频) | tts |
| `audioDuration` | 音频时长(秒) | tts |
| `audio` | TTS 音频路径 | tts |
| `audioDuration` | 音频实测时长(秒) | tts |
| `segments` | 分句音频数组(仅多句时存在),见下方 | tts |
### Agent 审查时可操作
@@ -220,20 +232,42 @@ TTS 阶段统一生成,单句时数组仅 1 个元素,多句时 N 个元素
## 成片时间线规则
> **核心原则**
> - 文案是时间轴唯一锚点
> - TTS 语速固定 1.15x(写死在 qwen-tts.js音频导入 CapCut 时不可调速
> - **音频时长是主时间线**:每个 shot 的 TTS 估算必须 ≤ 视频模型固定时长
> - **视频必须 ≥ 音频**audioDur > videoDur 的 shot 在分镜阶段必须拆分,不允许慢放/冻结
### 时间线估算规则
| 字段 | 计算方式 | 来源 |
|------|---------|------|
| TTS 语速 | **固定 1.15x** | qwen-tts.js 参数 `rate: 1.15`,不可修改 |
| 单 shot TTS 估算 | `script.length ÷ 5`(字/秒) | AI 写入 duration 字段 |
| 视频模型固定时长 | Kling=6s, VEO=8s, Grok=6s | `pipeline.js init` 从 videoModel 推算 |
| ratio | `estimatedVideoDuration / estimatedAudioDuration` | 估算值,供分镜阶段检查 |
| ratio实测 | `videoDuration / audioDuration` | assemble 阶段真实值 |
### 图片模式images
图片没有独立时长。TTS 音频时长 = 画面时长。无 TTS 音频的 item 时长为 0跳过不显示
### 视频模式videos
TTS 音频为主轴,视频通过以下策略适配音频时长:
**铁律:视频片段必须 ≥ 音频片段。**
| ratio = videoDur/audioDur | 策略 | 说明 |
|---------------------------|------|------|
TTS 音频为主轴,视频通过以下策略适配音频实测时长:
| ratio = estimatedVideoDuration / estimatedAudioDuration | 策略 | 说明 |
|---------------------------------------------------|------|------|
| 0.9 ~ 1.1 | none | 接近匹配,无需调整 |
| > 1.1, ≤ 2 | speed_up | 加速setpts 压缩时间) |
| > 2 | trim | 裁剪(截断音频时长 |
| < 0.9, ≥ 0.5 | slow_down | 放缓setpts 拉长时间) |
| < 0.5 | freeze | 画面停顿(视频原速 + 最后一帧冻结补时长) |
| > 1.1, ≤ 2 | **speed_up**(最优) | 视频加速追上音频,音频速率不变 |
| > 2 | **trim**(次选) | 视频截断音频时长,损失尾部 |
| < 0.9 | **禁止 / 打回分镜** | audioDur > videoDur 的 shot 在分镜阶段必须拆分,不允许慢放/冻结 |
**禁止的策略(已删除):**
- `slow_down`:音频时长超过视频时不允许慢放
- `freeze`:不允许冻结帧补齐
- 音频调速CapCut 导入音频时无 speed 字段1.15x 速率固定
所有策略失败后兜底:截断到目标时长。