refactor(video-pipeline): 移除 segments 机制,改为整段音频合成

移除 TTS 阶段逐句切分及 segments 数组逻辑,统一为整段音频合成。
CapCut 字幕切分由组装阶段按字符比例分配,简化音频上传、
时间线构建和字幕生成流程,减少冗余处理分支。
This commit is contained in:
2026-05-02 02:31:55 +08:00
parent ac753ef367
commit 6097a809bf
9 changed files with 95 additions and 244 deletions

View File

@@ -49,18 +49,11 @@ digraph creation_flow {
| 3 | 核心内容方向?如:历史权谋、科技解说、情感故事、美食文化 | ✅ | 分镜.md → 角色定义 + 账号内容理解.核心方向 |
| 4 | 目标受众30岁男性、18-25岁女性 | ✅ | 分镜.md → 账号内容理解.目标受众 |
| 5 | 内容气质?用 2-3 个关键词描述,如:冷峻洞察、温暖治愈、犀利反讽 | ✅ | 分镜.md → 账号内容理解.内容气质 |
| 5.5 | Hook 策略偏好?(选填) | ❌ | 分镜.md → 3秒钩子规则增强 |
| | A. 结论前置(默认):直接亮核心观点 | | |
| | B. 认知冲突:一句话打破常识,制造"凭什么" | | |
| | C. 身份挑衅:点中受众身份焦虑 | | |
| | D. 数据震惊:用震撼数字开场 | | |
| | E. 反转悬念:设一个反直觉的悬念 | | |
| 5.6 | 目标情绪回路?(选填)如:好奇→震惊→领悟,或平静→压迫→释放 | ❌ | 分镜.md → 账号内容理解.情绪回路 |
**注入规则**
- 角色定义改为"专精{Q3}类口播文案转化为{Q6}画面的分镜导演"
- 新增「账号内容理解」节Q3+Q4+Q5+Q5.6,仅供子 Agent 理解上下文,不输出到分镜表)
- 如有 Q5.5在「3秒钩子规则」中标注账号默认 Hook 策略
---
@@ -220,7 +213,6 @@ Agent 在汇总确认前,先做以下快速自检。任何一项为 ❌ 时建
|--------|---------|
| 差异化定位 | Q2 描述能让用户说清"为什么看这个号而不是别的" |
| 情绪价值 | Q5.6 有明确的情绪回路,不是"好看"而是"看完有感觉" |
| 前3秒策略 | Q5.5 选了明确的 Hook 模式,不是"先铺垫再讲" |
| 视觉记忆点 | Q7+Q8 色彩/画风能在信息流中一眼认出 |
自检结果展示给用户:全部 ✅ → 进入汇总确认;有 ❌ → 建议补充后再继续(用户可强制跳过)。
@@ -243,7 +235,6 @@ Agent 在汇总确认前,先做以下快速自检。任何一项为 ❌ 时建
### 维度 3内容气质
- 核心方向:{Q3}
- 内容气质:{Q5}
- Hook 策略:{Q5.5 或"未指定,使用通用钩子规则"}
- 情绪回路:{Q5.6 或"未指定"}
### 维度 4-6视觉基调 + 画风 + 色彩
@@ -353,7 +344,6 @@ digraph injection {
- 读取 `_template/prompts/通用分镜.md`
- 在角色定义中注入 Q3 内容方向
- 新增「账号内容理解」节Q3+Q4+Q5+Q5.6 情绪回路)
- 增强「3秒钩子规则」节如有 Q5.5,标注账号默认 Hook 策略
- 新增「宏观视觉风格方向」节Q6+Q7+推导)
- 保留通用骨架切割规则、导演构图词库、shotDesc 写法规范、输入输出格式、质量自检