feat(capcut-pipeline): 将 TTS 配音切换为 CosyVoice 并重构动画系统

- 将 TTS 引擎从 Qwen-TTS 切换为阿里云 CosyVoice（DashScope WebSocket） - 输出格式从 WAV（24kHz）改为 MP3 - 重构图片动画分拆逻辑，支持组合动画（如"渐显+放大"） - 移除字幕关键词高亮相关字段 - 移除已删除的 `uploadAudioToOSS` 函数，统一使用 `uploadToOSS` - 更新文档和配置默认值以匹配新引擎
2026-05-01 14:50:50 +08:00
parent 9d19437a29
commit 3a641244a5
5 changed files with 46 additions and 82 deletions
--- a/.claude/skills/video-from-script/SKILL.md
+++ b/.claude/skills/video-from-script/SKILL.md
@@ -334,10 +334,9 @@ node kling-video-generator.js --image <url> --prompt <prompt> -o ./videos
 ```
 output/{name}_{YYYYMMDD}_{NNN}/
 ├── manifest.json                # 主清单（贯穿全流程）
-├── prompts.txt                  # 原始提示词存档
 ├── images/                      # scene_{NN}_{slug}.jpeg（slug 从 script/shotDesc 派生，首尾帧加 _last 后缀）
 ├── videos/                      # scene_{NN}_{slug}.mp4（与图片对应）
-└── urls.json                    # OSS 公网 URL 映射
+└── audio/                       # seg_001.mp3（TTS 分句音频，多句时 seg_{id}_{j}.mp3）
 ```

 **命名对应关系**：图片 `scene_01_觉醒.jpeg` → 视频 `scene_01_觉醒.mp4`；首尾帧尾帧 `scene_01_觉醒_last.jpeg`；MJ 候选 `scene_01_觉醒_cand1.jpeg`
@@ -396,7 +395,7 @@ output/{name}_{YYYYMMDD}_{NNN}/

 所有子技能共享以下资源（位于本目录）：

- `scripts/` — 共享脚本（gemini-image-generator.js, mj-image-generator.js, grok-video-generator.js, veo-video-generator.js, capcut_assemble.js, sync-to-jianying.js, oss-upload.js）
+- `scripts/` — 共享脚本（gemini-image-generator.js, mj-image-generator.js, grok-video-generator.js, veo-video-generator.js, kling-video-generator.js, qwen-tts.js, capcut_assemble.js, sync-to-jianying.js, oss-upload.js）
 - `accounts/` — 账号配置（项目根目录，详见 [account-system.md](references/account-system.md)）
 - `references/account-system.md` — 账号系统说明