.claude/skills/video-from-script/scripts/lib/phase-tts.js

/**
 * Phase: tts — 语音合成（先分段，后合成）
 *
 * 核心变化：音频分段优先于生图。
 *
 * 1. 在生成图片之前，先将文案按语义断点切分为多个音频片段
 * 2. 每个片段时长 < videoModel 固定时长（Kling=6s）
 * 3. 逐段合成，记录实测时长，写入 manifest.segments[]
 * 4. manifest.items[n].segments = [{text, audio, duration, startOffset}, ...]
 * 5. manifest.items[n].audioDuration = 片段总和（供 assemble 计算 ratio）
 *
 * 流程顺序变为：tts → images → upload → videos → assemble
 */

const path = require('path')
const { saveManifest, ensureDir, log, getManifestDir } = require('./pipeline-utils')

/**
 * 在语义断点处将文案切分为音频片段
 * 每段时长（估算）必须 < videoDuration，且尽量接近（最佳 ratio 接近1.0）
 *
 * @param {string} text - 完整文案
 * @param {number} videoDur - 视频模型固定时长（秒），如 6
 * @param {number} charsPerSec - 语速（字/秒），固定 5
 * @returns {Array<{text, estimatedDuration}>}
 */
function splitIntoAudioSegments(text, videoDur, charsPerSec = 5) {
  const estimatedTotal = text.length / charsPerSec
  if (estimatedTotal <= videoDur) {
    return [{ text, estimatedDuration: estimatedTotal }]
  }

  // 在原文标点处切分，保留原始标点（不剥离、不重加）
  const breakPattern = /[。！；，]/
  const rawParts = []
  let lastIdx = 0
  for (let i = 0; i < text.length; i++) {
    if (breakPattern.test(text[i])) {
      rawParts.push(text.slice(lastIdx, i + 1))
      lastIdx = i + 1
    }
  }
  if (lastIdx < text.length) {
    rawParts.push(text.slice(lastIdx))
  }

  // 无标点断点，强制对半切
  if (rawParts.length <= 1) {
    const half = Math.floor(text.length / 2)
    return [
      { text: text.slice(0, half), estimatedDuration: half / charsPerSec },
      { text: text.slice(half), estimatedDuration: (text.length - half) / charsPerSec },
    ]
  }

  // 合并短片段，确保每段 ≤ videoDur
  const result = []
  let curText = ''
  let curDur = 0

  for (const part of rawParts) {
    const partDur = part.length / charsPerSec
    if (curDur + partDur <= videoDur) {
      curText += part
      curDur += partDur
    } else {
      if (curText) result.push({ text: curText, estimatedDuration: curDur })
      // 单段超长，强制对半切
      if (partDur > videoDur) {
        const half = Math.floor(part.length / 2)
        result.push({ text: part.slice(0, half), estimatedDuration: half / charsPerSec })
        curText = part.slice(half)
        curDur = (part.length - half) / charsPerSec
      } else {
        curText = part
        curDur = partDur
      }
    }
  }
  if (curText) result.push({ text: curText, estimatedDuration: curDur })

  return result
}

async function phaseTts(manifest, manifestPath, options = {}) {
  const dir = getManifestDir(manifestPath)
  const audioDir = path.join(dir, 'audio')
  ensureDir(audioDir)

  const { synthesize } = require('../qwen-tts')

  const videoDur = manifest.estimatedVideoDuration || 6
  const ttsRate = manifest.ttsRate || 1.15

  const items = manifest.items.filter(it =>
    (it.script || it.text) && !it.audio
  )
  if (items.length === 0) { log('tts', '无待处理 item（已合成），跳过'); return }

  log('tts', `共 ${items.length} 段, 视频固定时长=${videoDur}s, TTS语速=${ttsRate}x`)

  for (let i = 0; i < items.length; i++) {
    const item = items[i]
    const idx = i + 1
    const fullText = (item.script || item.text).trim()

    // Step 1: 计算音频分段
    const rawSegments = splitIntoAudioSegments(fullText, videoDur)
    log('tts', `[${idx}/${items.length}] 原始分段: ${rawSegments.length} 段`)
    for (const seg of rawSegments) {
      log('tts', `        分段估算: ${seg.estimatedDuration.toFixed(2)}s / ${seg.text.slice(0, 20)}...`)
    }

    // Step 2: 逐段合成
    const segments = []
    let globalOffset = 0

    for (let j = 0; j < rawSegments.length; j++) {
      const segInput = rawSegments[j]
      const segId = `${item.id}_${j + 1}`

      try {
        const { filePath, duration: realDuration } = await synthesize(segInput.text, {
          outputDir: audioDir,
          id: segId,
          voice: manifest.ttsVoice || undefined,
          instruction: manifest.ttsInstruction || undefined,
          rate: ttsRate,
        })

        const segment = {
          id: segId,
          text: segInput.text,
          audio: path.relative(dir, filePath).replace(/\\/g, '/'),
          estimatedDuration: Math.round(segInput.estimatedDuration * 1000) / 1000,
          duration: Math.round(realDuration * 1000) / 1000,
          startOffset: Math.round(globalOffset * 1000) / 1000,
        }
        segments.push(segment)
        globalOffset += realDuration

        log('tts', `[${idx}/${items.length}] 段${j + 1}: 估算${segInput.estimatedDuration.toFixed(2)}s → 实测${realDuration.toFixed(2)}s | ${segInput.text.slice(0, 15)}...`)
      } catch (err) {
        log('tts', `[${idx}/${items.length}] 段${j + 1} 合成失败: ${err.message}`)
        segments.push({
          id: segId,
          text: segInput.text,
          audio: '',
          estimatedDuration: segInput.estimatedDuration,
          duration: 0,
          startOffset: globalOffset,
          error: err.message,
        })
        globalOffset += segInput.estimatedDuration
      }
    }

    // Step 3: 汇总到 item
    const totalAudioDuration = Math.round(globalOffset * 1000) / 1000
    item.segments = segments
    item.audio = segments[0]?.audio || ''
    item.audioDuration = totalAudioDuration
    item.segmentCount = segments.length

    // Step 4: 时长合规诊断
    const ratio = videoDur / totalAudioDuration
    if (ratio < 0.9) {
      item._timelineWarning = `⚠ audioDur(${totalAudioDuration.toFixed(1)}s) > videoDur(${videoDur}s)，ratio=${ratio.toFixed(2)}，assemble 将截断`
    }

    log('tts', `[${idx}/${items.length}] 完成: ${segments.length}段, 总音频${totalAudioDuration.toFixed(1)}s, ratio=${ratio.toFixed(2)}`)

    saveManifest(manifestPath, manifest)
  }
}

module.exports = { phaseTts, splitIntoAudioSegments }
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								/**
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								 * Phase: tts — 语音合成（先分段，后合成）
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								 *
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								 * 核心变化：音频分段优先于生图。
 								 *
 								 * 1. 在生成图片之前，先将文案按语义断点切分为多个音频片段
 								 * 2. 每个片段时长 < videoModel 固定时长（Kling=6s）
 								 * 3. 逐段合成，记录实测时长，写入 manifest.segments[]
 								 * 4. manifest.items[n].segments = [{text, audio, duration, startOffset}, ...]
 								 * 5. manifest.items[n].audioDuration = 片段总和（供 assemble 计算 ratio）
 								 *
 								 * 流程顺序变为：tts → images → upload → videos → assemble
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								 */
 								const path = require('path')
-												feat(capcut): 优化音频/字幕添加策略并重构语音切分逻辑

- 音频和字幕 API 调用改为先批量添加，批量失败时逐个兜底
- 重写 `splitIntoAudioSegments`，基于原始标点保留切分，合并短片段
- `qwen-tts.js` 补充中文逗号作为句末标点判断

											
										
										
											2026-05-06 23:21:40 +08:00
+								const { saveManifest, ensureDir, log, getManifestDir } = require('./pipeline-utils')
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
 								/**
 								 * 在语义断点处将文案切分为音频片段
 								 * 每段时长（估算）必须 < videoDuration，且尽量接近（最佳 ratio 接近1.0）
 								 *
 								 * @param {string} text - 完整文案
 								 * @param {number} videoDur - 视频模型固定时长（秒），如 6
 								 * @param {number} charsPerSec - 语速（字/秒），固定 5
 								 * @returns {Array<{text, estimatedDuration}>}
 								 */
 								function splitIntoAudioSegments(text, videoDur, charsPerSec = 5) {
-												feat(capcut): 优化音频/字幕添加策略并重构语音切分逻辑

- 音频和字幕 API 调用改为先批量添加，批量失败时逐个兜底
- 重写 `splitIntoAudioSegments`，基于原始标点保留切分，合并短片段
- `qwen-tts.js` 补充中文逗号作为句末标点判断

											
										
										
											2026-05-06 23:21:40 +08:00
+								  const estimatedTotal = text.length / charsPerSec
 								  if (estimatedTotal <= videoDur) {
 								    return [{ text, estimatedDuration: estimatedTotal }]
 								  }
 								  // 在原文标点处切分，保留原始标点（不剥离、不重加）
 								  const breakPattern = /[。！；，]/
 								  const rawParts = []
 								  let lastIdx = 0
 								  for (let i = 0; i < text.length; i++) {
 								    if (breakPattern.test(text[i])) {
 								      rawParts.push(text.slice(lastIdx, i + 1))
 								      lastIdx = i + 1
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								    }
-												feat(capcut): 优化音频/字幕添加策略并重构语音切分逻辑

- 音频和字幕 API 调用改为先批量添加，批量失败时逐个兜底
- 重写 `splitIntoAudioSegments`，基于原始标点保留切分，合并短片段
- `qwen-tts.js` 补充中文逗号作为句末标点判断

											
										
										
											2026-05-06 23:21:40 +08:00
+								  }
 								  if (lastIdx < text.length) {
 								    rawParts.push(text.slice(lastIdx))
 								  }
 								  // 无标点断点，强制对半切
 								  if (rawParts.length <= 1) {
 								    const half = Math.floor(text.length / 2)
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								    return [
-												feat(capcut): 优化音频/字幕添加策略并重构语音切分逻辑

- 音频和字幕 API 调用改为先批量添加，批量失败时逐个兜底
- 重写 `splitIntoAudioSegments`，基于原始标点保留切分，合并短片段
- `qwen-tts.js` 补充中文逗号作为句末标点判断

											
										
										
											2026-05-06 23:21:40 +08:00
+								      { text: text.slice(0, half), estimatedDuration: half / charsPerSec },
 								      { text: text.slice(half), estimatedDuration: (text.length - half) / charsPerSec },
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								    ]
 								  }
-												feat(capcut): 优化音频/字幕添加策略并重构语音切分逻辑

- 音频和字幕 API 调用改为先批量添加，批量失败时逐个兜底
- 重写 `splitIntoAudioSegments`，基于原始标点保留切分，合并短片段
- `qwen-tts.js` 补充中文逗号作为句末标点判断

											
										
										
											2026-05-06 23:21:40 +08:00
+								  // 合并短片段，确保每段 ≤ videoDur
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								  const result = []
-												feat(capcut): 优化音频/字幕添加策略并重构语音切分逻辑

- 音频和字幕 API 调用改为先批量添加，批量失败时逐个兜底
- 重写 `splitIntoAudioSegments`，基于原始标点保留切分，合并短片段
- `qwen-tts.js` 补充中文逗号作为句末标点判断

											
										
										
											2026-05-06 23:21:40 +08:00
+								  let curText = ''
 								  let curDur = 0
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
-												feat(capcut): 优化音频/字幕添加策略并重构语音切分逻辑

- 音频和字幕 API 调用改为先批量添加，批量失败时逐个兜底
- 重写 `splitIntoAudioSegments`，基于原始标点保留切分，合并短片段
- `qwen-tts.js` 补充中文逗号作为句末标点判断

											
										
										
											2026-05-06 23:21:40 +08:00
+								  for (const part of rawParts) {
 								    const partDur = part.length / charsPerSec
 								    if (curDur + partDur <= videoDur) {
 								      curText += part
 								      curDur += partDur
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								    } else {
-												feat(capcut): 优化音频/字幕添加策略并重构语音切分逻辑

- 音频和字幕 API 调用改为先批量添加，批量失败时逐个兜底
- 重写 `splitIntoAudioSegments`，基于原始标点保留切分，合并短片段
- `qwen-tts.js` 补充中文逗号作为句末标点判断

											
										
										
											2026-05-06 23:21:40 +08:00
+								      if (curText) result.push({ text: curText, estimatedDuration: curDur })
 								      // 单段超长，强制对半切
 								      if (partDur > videoDur) {
 								        const half = Math.floor(part.length / 2)
 								        result.push({ text: part.slice(0, half), estimatedDuration: half / charsPerSec })
 								        curText = part.slice(half)
 								        curDur = (part.length - half) / charsPerSec
 								      } else {
 								        curText = part
 								        curDur = partDur
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								      }
 								    }
 								  }
-												feat(capcut): 优化音频/字幕添加策略并重构语音切分逻辑

- 音频和字幕 API 调用改为先批量添加，批量失败时逐个兜底
- 重写 `splitIntoAudioSegments`，基于原始标点保留切分，合并短片段
- `qwen-tts.js` 补充中文逗号作为句末标点判断

											
										
										
											2026-05-06 23:21:40 +08:00
+								  if (curText) result.push({ text: curText, estimatedDuration: curDur })
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
 								  return result
 								}
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
-												feat(video-pipeline): 重构多阶段生成管线并集成 CosyVoice TTS

- 重写 `phase-images`：改为并发 3 张并行生成，每个 item 完成立即写入 manifest，支持 MJ task ID 恢复
- 重写 `phase-videos`：先恢复已有 task ID 再提交新任务（并发 3），支持中断恢复
- 迁移 TTS 引擎：从 Qwen-TTS HTTP 接口切换为 CosyVoice WebSocket 接口，支持音色/语气参数透传
- 精简账号系统：移除 `styles/` 目录、`taskId` 过滤和 `--id` 正则校验，`references` 改为顶层字段
- 调整 `slugify`：限制中文字符 5 个、其他 10 个，避免文件名过长
- 更新文档：`manifest-schema.md` 中 `narration` 改为完整原文案，`account-creation.md` 新增 TTS 配置项
- 配置更新：默认 TTS 模型切换为 `cosyvoice-v3.5-plus`，新增 `localAudio` 参数

											
										
										
											2026-05-01 00:44:18 +08:00
+								async function phaseTts(manifest, manifestPath, options = {}) {
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								  const dir = getManifestDir(manifestPath)
 								  const audioDir = path.join(dir, 'audio')
 								  ensureDir(audioDir)
 								  const { synthesize } = require('../qwen-tts')
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								  const videoDur = manifest.estimatedVideoDuration || 6
 								  const ttsRate = manifest.ttsRate || 1.15
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								  const items = manifest.items.filter(it =>
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								    (it.script || it.text) && !it.audio
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								  )
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								  if (items.length === 0) { log('tts', '无待处理 item（已合成），跳过'); return }
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								  log('tts', `共 ${items.length} 段, 视频固定时长=${videoDur}s, TTS语速=${ttsRate}x`)
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
 								  for (let i = 0; i < items.length; i++) {
 								    const item = items[i]
 								    const idx = i + 1
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								    const fullText = (item.script || item.text).trim()
 								    // Step 1: 计算音频分段
 								    const rawSegments = splitIntoAudioSegments(fullText, videoDur)
 								    log('tts', `[${idx}/${items.length}] 原始分段: ${rawSegments.length} 段`)
 								    for (const seg of rawSegments) {
 								      log('tts', `        分段估算: ${seg.estimatedDuration.toFixed(2)}s / ${seg.text.slice(0, 20)}...`)
 								    }
 								    // Step 2: 逐段合成
 								    const segments = []
 								    let globalOffset = 0
 								    for (let j = 0; j < rawSegments.length; j++) {
 								      const segInput = rawSegments[j]
 								      const segId = `${item.id}_${j + 1}`
 								      try {
 								        const { filePath, duration: realDuration } = await synthesize(segInput.text, {
 								          outputDir: audioDir,
 								          id: segId,
 								          voice: manifest.ttsVoice || undefined,
 								          instruction: manifest.ttsInstruction || undefined,
 								          rate: ttsRate,
 								        })
 								        const segment = {
 								          id: segId,
 								          text: segInput.text,
 								          audio: path.relative(dir, filePath).replace(/\\/g, '/'),
 								          estimatedDuration: Math.round(segInput.estimatedDuration * 1000) / 1000,
 								          duration: Math.round(realDuration * 1000) / 1000,
 								          startOffset: Math.round(globalOffset * 1000) / 1000,
 								        }
 								        segments.push(segment)
 								        globalOffset += realDuration
 								        log('tts', `[${idx}/${items.length}] 段${j + 1}: 估算${segInput.estimatedDuration.toFixed(2)}s → 实测${realDuration.toFixed(2)}s | ${segInput.text.slice(0, 15)}...`)
 								      } catch (err) {
 								        log('tts', `[${idx}/${items.length}] 段${j + 1} 合成失败: ${err.message}`)
 								        segments.push({
 								          id: segId,
 								          text: segInput.text,
 								          audio: '',
 								          estimatedDuration: segInput.estimatedDuration,
 								          duration: 0,
 								          startOffset: globalOffset,
 								          error: err.message,
 								        })
 								        globalOffset += segInput.estimatedDuration
 								      }
 								    }
 								    // Step 3: 汇总到 item
 								    const totalAudioDuration = Math.round(globalOffset * 1000) / 1000
 								    item.segments = segments
 								    item.audio = segments[0]?.audio || ''
 								    item.audioDuration = totalAudioDuration
 								    item.segmentCount = segments.length
 								    // Step 4: 时长合规诊断
 								    const ratio = videoDur / totalAudioDuration
 								    if (ratio < 0.9) {
 								      item._timelineWarning = `⚠ audioDur(${totalAudioDuration.toFixed(1)}s) > videoDur(${videoDur}s)，ratio=${ratio.toFixed(2)}，assemble 将截断`
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								    }
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
 								    log('tts', `[${idx}/${items.length}] 完成: ${segments.length}段, 总音频${totalAudioDuration.toFixed(1)}s, ratio=${ratio.toFixed(2)}`)
-												feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

											
										
										
											2026-04-30 21:18:31 +08:00
+								    saveManifest(manifestPath, manifest)
 								  }
 								}
-												feat(skills): 完善视频生产 pipeline 及新增健身跟练账号

- SKILL.md: 新增工作流阶段定义、质量卡点、分镜规则
- manifest-schema.md: 补充完整字段规范及类型定义
- phase-tts.js: 优化 TTS 合成长逻辑，添加进度追踪
- capcut-tracks.js: 扩展轨道构建能力，支持更多元素类型
- capcut-timeline.js: 改进时间线生成，支持淡入淡出
- capcut_assemble.js: 新增 assemble 阶段完整实现
- cmd-init.js: 完善 init 命令逻辑
- qwen-tts.js: 调整超时配置
- accounts/禁忌帝王学: 更新拆分/图像/台词提示词
- accounts/健身跟练: 新增账号含 account.json 及全套提示词模板
- 新增 workflow-issues-20260501.md 参考文档

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

											
										
										
											2026-05-06 22:53:37 +08:00
+								module.exports = { phaseTts, splitIntoAudioSegments }