feat(capcut-pipeline): 将 TTS 配音切换为 CosyVoice 并重构动画系统

- 将 TTS 引擎从 Qwen-TTS 切换为阿里云 CosyVoice(DashScope WebSocket)
- 输出格式从 WAV(24kHz)改为 MP3
- 重构图片动画分拆逻辑,支持组合动画(如"渐显+放大")
- 移除字幕关键词高亮相关字段
- 移除已删除的 `uploadAudioToOSS` 函数,统一使用 `uploadToOSS`
- 更新文档和配置默认值以匹配新引擎
This commit is contained in:
2026-05-01 14:50:50 +08:00
parent 9d19437a29
commit 3a641244a5
5 changed files with 46 additions and 82 deletions

View File

@@ -19,7 +19,7 @@ description: 剪映/CapCut 自动化。通过 CapCut Mate API 实现草稿创建
```
1. npm 依赖 → cd .claude/skills/video-from-script/scripts && npm install
2. TTS 配音 → 阿里云 Qwen-TTSconfig.json 中配置 ttsApiKey
2. TTS 配音 → 阿里云 CosyVoice TTSconfig.json 中配置 ttsApiKey
```
---
@@ -81,7 +81,7 @@ digraph capcut_assembly {
input [label="素材 + manifest.json", shape=folder, fillcolor="#e3f2fd"]
step1 [label="1. TTS 配音(可选)\nnode qwen-tts.js\n→ WAV + 时长"]
step1 [label="1. TTS 配音(可选)\ncosyvoice → MP3 + 时长"]
step2 [label="2. 上传图片到 OSS\n本地图片 → 公网 URL"]
step3 [label="3. 创建草稿\ncreate_draft\n→ draft_url"]
step4 [label="4. 导入素材+音频+字幕+特效\nadd_images / add_videos\nadd_audios / add_captions\nadd_effects"]
@@ -146,15 +146,12 @@ digraph capcut_assembly {
## TTS 配音(成片模式用)
使用阿里云 Qwen-TTSNode.js替代原 Edge-TTS
使用阿里云 CosyVoice TTS通过 DashScope WebSocketPipeline 自动调用
```bash
# 准备输入
echo '{"segments":[{"id":1,"text":"文案"}],"voice":"Cherry","output_dir":"./audio"}' > input.json
# 生成
node .claude/skills/video-from-script/scripts/qwen-tts.js input.json
# → stdout: {"segments":[{"id":1,"audio":"./audio/seg_001.wav","duration":3.456}]}
```js
// 作为模块调用
const { synthesize } = require('./qwen-tts')
const { filePath, duration } = await synthesize('你好世界', { voice: 'Cherry' })
```
配置在 `skills/config.json``ttsApiKey`(必填)、`ttsModel``ttsVoice``ttsLanguage`
@@ -195,19 +192,19 @@ node .claude/skills/video-from-script/scripts/qwen-tts.js input.json
## 图片动画预设
| 动画 | 说明 | 适用 |
| 动画名称 | 说明 | 适用 |
|------|------|------|
| Ken Burns (zoom-in) | 1.0→1.1 缓慢放大 | 默认 |
| Ken Burns (pan-left) | 右→左平移 | 风景 |
| Ken Burns (pan-right) | 左→右平移 | 风景 |
| 缩放弹出 | 0.8→1.0 | 强调 |
| 缩放 | 缓慢放大(默认) | 通用 |
| 渐显+放大 | 淡入+放大组合 | 强调 |
| 左平移 | 右→左平移 | 风景 |
| 右平移 | 左→右平移 | 风景 |
---
## 质量要求
- 字幕与文案对应正确,关键词高亮醒目
- 图片动画流畅Ken Burns 幅度 1.0→1.1
- 字幕与文案对应正确
- 图片动画流畅
- BGM 音量不盖过配音配音为主、BGM 为辅)
- 转场自然(无黑帧、无跳帧)
- 底部字幕区不被遮挡