refactor(video-pipeline): 移除 segments 机制,改为整段音频合成
移除 TTS 阶段逐句切分及 segments 数组逻辑,统一为整段音频合成。 CapCut 字幕切分由组装阶段按字符比例分配,简化音频上传、 时间线构建和字幕生成流程,减少冗余处理分支。
This commit is contained in:
@@ -49,18 +49,11 @@ digraph creation_flow {
|
||||
| 3 | 核心内容方向?如:历史权谋、科技解说、情感故事、美食文化 | ✅ | 分镜.md → 角色定义 + 账号内容理解.核心方向 |
|
||||
| 4 | 目标受众?如:30岁男性、18-25岁女性 | ✅ | 分镜.md → 账号内容理解.目标受众 |
|
||||
| 5 | 内容气质?用 2-3 个关键词描述,如:冷峻洞察、温暖治愈、犀利反讽 | ✅ | 分镜.md → 账号内容理解.内容气质 |
|
||||
| 5.5 | Hook 策略偏好?(选填) | ❌ | 分镜.md → 3秒钩子规则增强 |
|
||||
| | A. 结论前置(默认):直接亮核心观点 | | |
|
||||
| | B. 认知冲突:一句话打破常识,制造"凭什么" | | |
|
||||
| | C. 身份挑衅:点中受众身份焦虑 | | |
|
||||
| | D. 数据震惊:用震撼数字开场 | | |
|
||||
| | E. 反转悬念:设一个反直觉的悬念 | | |
|
||||
| 5.6 | 目标情绪回路?(选填)如:好奇→震惊→领悟,或平静→压迫→释放 | ❌ | 分镜.md → 账号内容理解.情绪回路 |
|
||||
|
||||
**注入规则**:
|
||||
- 角色定义改为"专精{Q3}类口播文案转化为{Q6}画面的分镜导演"
|
||||
- 新增「账号内容理解」节(Q3+Q4+Q5+Q5.6,仅供子 Agent 理解上下文,不输出到分镜表)
|
||||
- 如有 Q5.5,在「3秒钩子规则」中标注账号默认 Hook 策略
|
||||
|
||||
---
|
||||
|
||||
@@ -220,7 +213,6 @@ Agent 在汇总确认前,先做以下快速自检。任何一项为 ❌ 时建
|
||||
|--------|---------|
|
||||
| 差异化定位 | Q2 描述能让用户说清"为什么看这个号而不是别的" |
|
||||
| 情绪价值 | Q5.6 有明确的情绪回路,不是"好看"而是"看完有感觉" |
|
||||
| 前3秒策略 | Q5.5 选了明确的 Hook 模式,不是"先铺垫再讲" |
|
||||
| 视觉记忆点 | Q7+Q8 色彩/画风能在信息流中一眼认出 |
|
||||
|
||||
自检结果展示给用户:全部 ✅ → 进入汇总确认;有 ❌ → 建议补充后再继续(用户可强制跳过)。
|
||||
@@ -243,7 +235,6 @@ Agent 在汇总确认前,先做以下快速自检。任何一项为 ❌ 时建
|
||||
### 维度 3:内容气质
|
||||
- 核心方向:{Q3}
|
||||
- 内容气质:{Q5}
|
||||
- Hook 策略:{Q5.5 或"未指定,使用通用钩子规则"}
|
||||
- 情绪回路:{Q5.6 或"未指定"}
|
||||
|
||||
### 维度 4-6:视觉基调 + 画风 + 色彩
|
||||
@@ -353,7 +344,6 @@ digraph injection {
|
||||
- 读取 `_template/prompts/通用分镜.md`
|
||||
- 在角色定义中注入 Q3 内容方向
|
||||
- 新增「账号内容理解」节(Q3+Q4+Q5+Q5.6 情绪回路)
|
||||
- 增强「3秒钩子规则」节:如有 Q5.5,标注账号默认 Hook 策略
|
||||
- 新增「宏观视觉风格方向」节(Q6+Q7+推导)
|
||||
- 保留通用骨架:切割规则、导演构图词库、shotDesc 写法规范、输入输出格式、质量自检
|
||||
|
||||
|
||||
Reference in New Issue
Block a user