.claude/skills/video-from-script/scripts/lib/phase-tts.js

/**
 * Phase: tts — 语音合成（逐句分句生成）
 *
 * 将每个 item 的 script 按标点切分为短句，每句单独生成 TTS 音频。
 * 统一写入 item.segments[]，单句时数组仅 1 个元素。
 * item.audio 指向第一段，item.audioDuration 为累计时长。
 */

const path = require('path')
const { saveManifest, ensureDir, log, getManifestDir, splitTextIntoSentences } = require('./pipeline-utils')

async function phaseTts(manifest, manifestPath, options = {}) {
  const dir = getManifestDir(manifestPath)
  const audioDir = path.join(dir, 'audio')
  ensureDir(audioDir)

  const { synthesize } = require('../qwen-tts')

  const items = manifest.items.filter(it =>
    it.status === 'done' && (it.script || it.text) && !it.audio
  )
  if (items.length === 0) { log('tts', '无待处理 item，跳过'); return }

  log('tts', `共 ${items.length} 段`)

  for (let i = 0; i < items.length; i++) {
    const item = items[i]
    const idx = i + 1
    const fullText = item.script || item.text

    try {
      const sentences = splitTextIntoSentences(fullText)
      const segments = []
      let totalDuration = 0

      for (let j = 0; j < sentences.length; j++) {
        const sentence = sentences[j]
        const segId = `${item.id || idx}_${j + 1}`
        const { filePath, duration } = await synthesize(sentence, {
          outputDir: audioDir,
          id: segId,
          voice: manifest.ttsVoice || undefined,
          instruction: manifest.ttsInstruction || undefined,
          rate: manifest.ttsRate || undefined,
        })
        segments.push({
          text: sentence,
          audio: path.relative(dir, filePath).replace(/\\/g, '/'),
          duration: Math.round(duration * 1000) / 1000,
        })
        totalDuration += duration
      }

      // 统一使用 segments 数组（单句 = 1 元素，多句 = N 元素）
      item.segments = segments
      item.audio = segments[0].audio
      item.audioDuration = Math.round(totalDuration * 1000) / 1000
      log('tts', `[${idx}/${items.length}] ${totalDuration.toFixed(1)}s (${segments.length}句): ${fullText.substring(0, 30)}...`)
    } catch (err) {
      item.status = 'failed'
      item.error = `TTS失败: ${err.message}`
      log('tts', `[${idx}/${items.length}] 失败: ${err.message}`)
    }
    saveManifest(manifestPath, manifest)
  }
}

module.exports = { phaseTts }
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								/**
-												feat(video-pipeline): 实现 TTS 逐句分句生成与字幕精确对齐

TTS 阶段将长文本按标点切分为短句，逐句生成音频并记录每句时长到 `item.segments[]`。assemble 阶段优先使用 segments 的精确时长分配字幕时间线，无 segments 时回退到字数权重估算。同时优化音频上传流程，支持分段音频独立上传 OSS 并在配音时按段映射时间线。

											
										
										
											2026-05-01 14:41:28 +08:00
+								 * Phase: tts — 语音合成（逐句分句生成）
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								 *
-												feat(video-pipeline): 实现 TTS 逐句分句生成与字幕精确对齐

TTS 阶段将长文本按标点切分为短句，逐句生成音频并记录每句时长到 `item.segments[]`。assemble 阶段优先使用 segments 的精确时长分配字幕时间线，无 segments 时回退到字数权重估算。同时优化音频上传流程，支持分段音频独立上传 OSS 并在配音时按段映射时间线。

											
										
										
											2026-05-01 14:41:28 +08:00
+								 * 将每个 item 的 script 按标点切分为短句，每句单独生成 TTS 音频。
-												feat(video-pipeline): 重构视频流水线，优化成片时间线规则和状态管理

- 引入 manifest.json 作为唯一状态源，所有子 Agent 操作回写 manifest
- 重构 timebuilder 逻辑，支持四种视频适配策略（加速/裁剪/放缓/画面停顿）
- 统一 TTS 阶段输出结构，单句和多句均写入 segments[]
- 重写字幕和配音生成，基于 segments 精确时长实现音画同步
- 新增 confirm 命令支持按 id 范围确认，上传阶段分离图片和视频
- 添加中间产物写入 output/ 目录的约束，清理废弃配置参数

											
										
										
											2026-05-02 00:14:40 +08:00
+								 * 统一写入 item.segments[]，单句时数组仅 1 个元素。
 								 * item.audio 指向第一段，item.audioDuration 为累计时长。
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								 */
 								const path = require('path')
-												feat(video-pipeline): 实现 TTS 逐句分句生成与字幕精确对齐

TTS 阶段将长文本按标点切分为短句，逐句生成音频并记录每句时长到 `item.segments[]`。assemble 阶段优先使用 segments 的精确时长分配字幕时间线，无 segments 时回退到字数权重估算。同时优化音频上传流程，支持分段音频独立上传 OSS 并在配音时按段映射时间线。

											
										
										
											2026-05-01 14:41:28 +08:00
+								const { saveManifest, ensureDir, log, getManifestDir, splitTextIntoSentences } = require('./pipeline-utils')
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
-												feat(video-pipeline): 重构多阶段生成管线并集成 CosyVoice TTS

- 重写 `phase-images`：改为并发 3 张并行生成，每个 item 完成立即写入 manifest，支持 MJ task ID 恢复
- 重写 `phase-videos`：先恢复已有 task ID 再提交新任务（并发 3），支持中断恢复
- 迁移 TTS 引擎：从 Qwen-TTS HTTP 接口切换为 CosyVoice WebSocket 接口，支持音色/语气参数透传
- 精简账号系统：移除 `styles/` 目录、`taskId` 过滤和 `--id` 正则校验，`references` 改为顶层字段
- 调整 `slugify`：限制中文字符 5 个、其他 10 个，避免文件名过长
- 更新文档：`manifest-schema.md` 中 `narration` 改为完整原文案，`account-creation.md` 新增 TTS 配置项
- 配置更新：默认 TTS 模型切换为 `cosyvoice-v3.5-plus`，新增 `localAudio` 参数

											
										
										
											2026-05-01 00:44:18 +08:00
+								async function phaseTts(manifest, manifestPath, options = {}) {
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								  const dir = getManifestDir(manifestPath)
 								  const audioDir = path.join(dir, 'audio')
 								  ensureDir(audioDir)
 								  const { synthesize } = require('../qwen-tts')
 								  const items = manifest.items.filter(it =>
-												feat(video-pipeline): 用 ffprobe 实际测量音视频时长并统一字段名为 script

将项目中的 `narration` 字段统一重命名为 `script`，并新增 `getAudioDurationSec` 函数通过 `ffprobe` 实际测量音频和视频文件的时长，替代 Manifest 中的估计值，提高时间线组装的准确性。同时优化字幕逻辑，仅在有 TTS 音频时调整视频速度。

											
										
										
											2026-05-01 01:52:02 +08:00
+								    it.status === 'done' && (it.script || it.text) && !it.audio
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								  )
 								  if (items.length === 0) { log('tts', '无待处理 item，跳过'); return }
 								  log('tts', `共 ${items.length} 段`)
 								  for (let i = 0; i < items.length; i++) {
 								    const item = items[i]
 								    const idx = i + 1
-												feat(video-pipeline): 实现 TTS 逐句分句生成与字幕精确对齐

TTS 阶段将长文本按标点切分为短句，逐句生成音频并记录每句时长到 `item.segments[]`。assemble 阶段优先使用 segments 的精确时长分配字幕时间线，无 segments 时回退到字数权重估算。同时优化音频上传流程，支持分段音频独立上传 OSS 并在配音时按段映射时间线。

											
										
										
											2026-05-01 14:41:28 +08:00
+								    const fullText = item.script || item.text
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								    try {
-												feat(video-pipeline): 实现 TTS 逐句分句生成与字幕精确对齐

TTS 阶段将长文本按标点切分为短句，逐句生成音频并记录每句时长到 `item.segments[]`。assemble 阶段优先使用 segments 的精确时长分配字幕时间线，无 segments 时回退到字数权重估算。同时优化音频上传流程，支持分段音频独立上传 OSS 并在配音时按段映射时间线。

											
										
										
											2026-05-01 14:41:28 +08:00
+								      const sentences = splitTextIntoSentences(fullText)
-												feat(video-pipeline): 重构视频流水线，优化成片时间线规则和状态管理

- 引入 manifest.json 作为唯一状态源，所有子 Agent 操作回写 manifest
- 重构 timebuilder 逻辑，支持四种视频适配策略（加速/裁剪/放缓/画面停顿）
- 统一 TTS 阶段输出结构，单句和多句均写入 segments[]
- 重写字幕和配音生成，基于 segments 精确时长实现音画同步
- 新增 confirm 命令支持按 id 范围确认，上传阶段分离图片和视频
- 添加中间产物写入 output/ 目录的约束，清理废弃配置参数

											
										
										
											2026-05-02 00:14:40 +08:00
+								      const segments = []
 								      let totalDuration = 0
-												feat(video-pipeline): 实现 TTS 逐句分句生成与字幕精确对齐

TTS 阶段将长文本按标点切分为短句，逐句生成音频并记录每句时长到 `item.segments[]`。assemble 阶段优先使用 segments 的精确时长分配字幕时间线，无 segments 时回退到字数权重估算。同时优化音频上传流程，支持分段音频独立上传 OSS 并在配音时按段映射时间线。

											
										
										
											2026-05-01 14:41:28 +08:00
-												feat(video-pipeline): 重构视频流水线，优化成片时间线规则和状态管理

- 引入 manifest.json 作为唯一状态源，所有子 Agent 操作回写 manifest
- 重构 timebuilder 逻辑，支持四种视频适配策略（加速/裁剪/放缓/画面停顿）
- 统一 TTS 阶段输出结构，单句和多句均写入 segments[]
- 重写字幕和配音生成，基于 segments 精确时长实现音画同步
- 新增 confirm 命令支持按 id 范围确认，上传阶段分离图片和视频
- 添加中间产物写入 output/ 目录的约束，清理废弃配置参数

											
										
										
											2026-05-02 00:14:40 +08:00
+								      for (let j = 0; j < sentences.length; j++) {
 								        const sentence = sentences[j]
 								        const segId = `${item.id || idx}_${j + 1}`
 								        const { filePath, duration } = await synthesize(sentence, {
-												feat(video-pipeline): 实现 TTS 逐句分句生成与字幕精确对齐

TTS 阶段将长文本按标点切分为短句，逐句生成音频并记录每句时长到 `item.segments[]`。assemble 阶段优先使用 segments 的精确时长分配字幕时间线，无 segments 时回退到字数权重估算。同时优化音频上传流程，支持分段音频独立上传 OSS 并在配音时按段映射时间线。

											
										
										
											2026-05-01 14:41:28 +08:00
+								          outputDir: audioDir,
-												feat(video-pipeline): 重构视频流水线，优化成片时间线规则和状态管理

- 引入 manifest.json 作为唯一状态源，所有子 Agent 操作回写 manifest
- 重构 timebuilder 逻辑，支持四种视频适配策略（加速/裁剪/放缓/画面停顿）
- 统一 TTS 阶段输出结构，单句和多句均写入 segments[]
- 重写字幕和配音生成，基于 segments 精确时长实现音画同步
- 新增 confirm 命令支持按 id 范围确认，上传阶段分离图片和视频
- 添加中间产物写入 output/ 目录的约束，清理废弃配置参数

											
										
										
											2026-05-02 00:14:40 +08:00
+								          id: segId,
-												feat(video-pipeline): 实现 TTS 逐句分句生成与字幕精确对齐

TTS 阶段将长文本按标点切分为短句，逐句生成音频并记录每句时长到 `item.segments[]`。assemble 阶段优先使用 segments 的精确时长分配字幕时间线，无 segments 时回退到字数权重估算。同时优化音频上传流程，支持分段音频独立上传 OSS 并在配音时按段映射时间线。

											
										
										
											2026-05-01 14:41:28 +08:00
+								          voice: manifest.ttsVoice || undefined,
 								          instruction: manifest.ttsInstruction || undefined,
 								          rate: manifest.ttsRate || undefined,
 								        })
-												feat(video-pipeline): 重构视频流水线，优化成片时间线规则和状态管理

- 引入 manifest.json 作为唯一状态源，所有子 Agent 操作回写 manifest
- 重构 timebuilder 逻辑，支持四种视频适配策略（加速/裁剪/放缓/画面停顿）
- 统一 TTS 阶段输出结构，单句和多句均写入 segments[]
- 重写字幕和配音生成，基于 segments 精确时长实现音画同步
- 新增 confirm 命令支持按 id 范围确认，上传阶段分离图片和视频
- 添加中间产物写入 output/ 目录的约束，清理废弃配置参数

											
										
										
											2026-05-02 00:14:40 +08:00
+								        segments.push({
 								          text: sentence,
 								          audio: path.relative(dir, filePath).replace(/\\/g, '/'),
 								          duration: Math.round(duration * 1000) / 1000,
 								        })
 								        totalDuration += duration
-												feat(video-pipeline): 实现 TTS 逐句分句生成与字幕精确对齐

TTS 阶段将长文本按标点切分为短句，逐句生成音频并记录每句时长到 `item.segments[]`。assemble 阶段优先使用 segments 的精确时长分配字幕时间线，无 segments 时回退到字数权重估算。同时优化音频上传流程，支持分段音频独立上传 OSS 并在配音时按段映射时间线。

											
										
										
											2026-05-01 14:41:28 +08:00
+								      }
-												feat(video-pipeline): 重构视频流水线，优化成片时间线规则和状态管理

- 引入 manifest.json 作为唯一状态源，所有子 Agent 操作回写 manifest
- 重构 timebuilder 逻辑，支持四种视频适配策略（加速/裁剪/放缓/画面停顿）
- 统一 TTS 阶段输出结构，单句和多句均写入 segments[]
- 重写字幕和配音生成，基于 segments 精确时长实现音画同步
- 新增 confirm 命令支持按 id 范围确认，上传阶段分离图片和视频
- 添加中间产物写入 output/ 目录的约束，清理废弃配置参数

											
										
										
											2026-05-02 00:14:40 +08:00
 								      // 统一使用 segments 数组（单句 = 1 元素，多句 = N 元素）
 								      item.segments = segments
 								      item.audio = segments[0].audio
 								      item.audioDuration = Math.round(totalDuration * 1000) / 1000
 								      log('tts', `[${idx}/${items.length}] ${totalDuration.toFixed(1)}s (${segments.length}句): ${fullText.substring(0, 30)}...`)
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								    } catch (err) {
 								      item.status = 'failed'
 								      item.error = `TTS失败: ${err.message}`
 								      log('tts', `[${idx}/${items.length}] 失败: ${err.message}`)
 								    }
 								    saveManifest(manifestPath, manifest)
 								  }
 								}
 								module.exports = { phaseTts }