refactor(video-pipeline): 移除 segments 机制，改为整段音频合成

移除 TTS 阶段逐句切分及 segments 数组逻辑，统一为整段音频合成。 CapCut 字幕切分由组装阶段按字符比例分配，简化音频上传、时间线构建和字幕生成流程，减少冗余处理分支。
2026-05-02 02:31:55 +08:00
parent ac753ef367
commit 6097a809bf
9 changed files with 95 additions and 244 deletions
--- a/.claude/skills/video-from-script/references/account-creation.md
+++ b/.claude/skills/video-from-script/references/account-creation.md
@@ -49,18 +49,11 @@ digraph creation_flow {
 | 3 | 核心内容方向？如：历史权谋、科技解说、情感故事、美食文化 | ✅ | 分镜.md → 角色定义 + 账号内容理解.核心方向 |
 | 4 | 目标受众？如：30岁男性、18-25岁女性 | ✅ | 分镜.md → 账号内容理解.目标受众 |
 | 5 | 内容气质？用 2-3 个关键词描述，如：冷峻洞察、温暖治愈、犀利反讽 | ✅ | 分镜.md → 账号内容理解.内容气质 |
-| 5.5 | Hook 策略偏好？（选填） | ❌ | 分镜.md → 3秒钩子规则增强 |
-| | A. 结论前置（默认）：直接亮核心观点 | | |
-| | B. 认知冲突：一句话打破常识，制造"凭什么" | | |
-| | C. 身份挑衅：点中受众身份焦虑 | | |
-| | D. 数据震惊：用震撼数字开场 | | |
-| | E. 反转悬念：设一个反直觉的悬念 | | |
 | 5.6 | 目标情绪回路？（选填）如：好奇→震惊→领悟，或平静→压迫→释放 | ❌ | 分镜.md → 账号内容理解.情绪回路 |

 **注入规则**：
 - 角色定义改为"专精{Q3}类口播文案转化为{Q6}画面的分镜导演"
 - 新增「账号内容理解」节（Q3+Q4+Q5+Q5.6，仅供子 Agent 理解上下文，不输出到分镜表）
- 如有 Q5.5，在「3秒钩子规则」中标注账号默认 Hook 策略

 ---

@@ -220,7 +213,6 @@ Agent 在汇总确认前，先做以下快速自检。任何一项为 ❌ 时建
 |--------|---------|
 | 差异化定位 | Q2 描述能让用户说清"为什么看这个号而不是别的" |
 | 情绪价值 | Q5.6 有明确的情绪回路，不是"好看"而是"看完有感觉" |
-| 前3秒策略 | Q5.5 选了明确的 Hook 模式，不是"先铺垫再讲" |
 | 视觉记忆点 | Q7+Q8 色彩/画风能在信息流中一眼认出 |

 自检结果展示给用户：全部 ✅ → 进入汇总确认；有 ❌ → 建议补充后再继续（用户可强制跳过）。
@@ -243,7 +235,6 @@ Agent 在汇总确认前，先做以下快速自检。任何一项为 ❌ 时建
 ### 维度 3：内容气质
 - 核心方向：{Q3}
 - 内容气质：{Q5}
- Hook 策略：{Q5.5 或"未指定，使用通用钩子规则"}
 - 情绪回路：{Q5.6 或"未指定"}

 ### 维度 4-6：视觉基调 + 画风 + 色彩
@@ -353,7 +344,6 @@ digraph injection {
   - 读取 `_template/prompts/通用分镜.md`
   - 在角色定义中注入 Q3 内容方向
   - 新增「账号内容理解」节（Q3+Q4+Q5+Q5.6 情绪回路）
-   - 增强「3秒钩子规则」节：如有 Q5.5，标注账号默认 Hook 策略
   - 新增「宏观视觉风格方向」节（Q6+Q7+推导）
   - 保留通用骨架：切割规则、导演构图词库、shotDesc 写法规范、输入输出格式、质量自检