refactor(video-pipeline): 移除 segments 机制,改为整段音频合成
移除 TTS 阶段逐句切分及 segments 数组逻辑,统一为整段音频合成。 CapCut 字幕切分由组装阶段按字符比例分配,简化音频上传、 时间线构建和字幕生成流程,减少冗余处理分支。
This commit is contained in:
@@ -154,41 +154,11 @@ geometry. The balance of power broke the same moment
|
||||
the geometry did.
|
||||
```
|
||||
|
||||
## 六、3秒钩子规则(Shot 1 强制)
|
||||
|
||||
短视频前 3 秒决定用户是否留下。**Shot 1 必须是钩子,不是铺垫。**
|
||||
|
||||
### 钩子策略
|
||||
|
||||
| 策略 | 说明 | 示例 |
|
||||
|------|------|------|
|
||||
| **结论前置** | 从原文结尾或核心金句中提取最具冲击力的结论,直接放在开头 | "你混得不好,不是因为你太善良。" |
|
||||
| **认知冲突** | 一句话打破用户常识,制造"凭什么这么说"的好奇心 | "这个世界不奖励好人,也不惩罚坏人。" |
|
||||
| **身份挑衅** | 直接点中目标受众的身份焦虑 | "你把80%的认知带宽,花在了管理别人对你的评价上。" |
|
||||
|
||||
### 钩子 shotDesc 规范
|
||||
|
||||
- **画面必须有视觉冲击力**:不用背影、走廊等铺垫画面;用裂开的盾牌、燃烧的铁器、破碎的对称等"破坏感"画面
|
||||
- **构图禁止大面积留白**:留白是铺垫用的,钩子要"满"或"炸"
|
||||
- **文案 ≤ 20 字**:一句话讲完,不留悬念尾巴
|
||||
- **时长 4-5 秒**:钩子要短、狠、快
|
||||
|
||||
### 禁止的钩子写法
|
||||
|
||||
- "大多数人..."、"你有没有想过..." — 设问式开头太慢
|
||||
- 纯铺垫画面(空走廊、远背影)— 3 秒内没有视觉锚点
|
||||
- 超过 20 字的钩子文案 — 用户来不及看完就划走了
|
||||
|
||||
### 钩子之后的 Shot 2
|
||||
|
||||
钩子说完冲击性结论后,Shot 2 负责"收回来"引入正文:
|
||||
> Shot 1(钩子):"你混得不好,不是因为太善良。" → Shot 2(引入):"为什么?让我拆给你看。" → Shot 3 起按原文顺序展开
|
||||
|
||||
## 七、切割规则
|
||||
## 六、切割规则
|
||||
|
||||
切割分两层:第一层按语义场景做宏观切分(两种模式通用),第二层按气口做微观切分(视频成片专用)。
|
||||
|
||||
### 7.1 第一层:语义场景切割(两种模式通用)
|
||||
### 6.1 第一层:语义场景切割(两种模式通用)
|
||||
|
||||
以语义场景转折为切割依据,不按句号机械切割。
|
||||
|
||||
@@ -200,7 +170,7 @@ the geometry did.
|
||||
| 节奏重音 | 强调句、停顿感强、关键意象出现 |
|
||||
| 语义完整(仅图文) | 该段表达一个完整观点或例子 |
|
||||
|
||||
### 7.2 第二层:气口切割(视频成片专用)
|
||||
### 6.2 第二层:气口切割(视频成片专用)
|
||||
|
||||
**视频成片在完成语义场景切割后,必须在每个语义场景内部进行第二轮气口切割。**
|
||||
|
||||
@@ -241,14 +211,14 @@ the geometry did.
|
||||
- ❌ 丢弃原文的论证、例子、细节来"节省字数"
|
||||
- ❌ 跨语义场景合并——气口切割只在同一个语义场景内部进行
|
||||
|
||||
### 7.3 字数上限速查
|
||||
### 6.3 字数上限速查
|
||||
|
||||
| 模式 | 每段字数 | 说明 |
|
||||
|------|---------|------|
|
||||
| 图文成片 | 50 字左右 | 一帧讲透一个观点 |
|
||||
| 视频成片 | 8–22 字 | 气口自然长度,长句必须拆为连续 Shot |
|
||||
|
||||
### 7.4 时长控制
|
||||
### 6.4 时长控制
|
||||
|
||||
- **图文成片:** 每条 Shot 4-10 秒,跟随旁白节奏,完整表达一个观点
|
||||
- **视频成片:** 每条 Shot 3-7 秒,目标 5 秒,匹配视频片段长度
|
||||
@@ -402,18 +372,18 @@ an unseen object — darkness conceals what passes between the two figures"
|
||||
|
||||
## 八、directorRef 选择规则
|
||||
|
||||
每个 Shot 根据旁白语义和画面特征选定一位导演:
|
||||
**每个分镜方案统一使用一位导演**,所有 Shot 的 directorRef 保持一致。在生成分镜前,根据文案整体气质选定一位导演,贯穿始终。
|
||||
|
||||
| 选 Tarantino | 选 Kitano | 选 Fincher |
|
||||
|-------------|-----------|------------|
|
||||
| 需要身体局部特写 | 需要大面积留白和静止感 | 需要精确控制感和对称破坏 |
|
||||
| 对话权力博弈场景 | 孤独、边缘化、等待场景 | 规律揭示、人性解剖视角 |
|
||||
| 日常物件暗藏张力 | 空镜、余韵、收尾 | 审讯感、不可逃脱的压迫 |
|
||||
| 旁白有「潜台词解码」结构 | 旁白有「沉默」「位置」「等待」 | 旁白有「逐帧拆」「拆解者视角」 |
|
||||
| 导演 | 适合的文案气质 |
|
||||
|------|-------------|
|
||||
| Tarantino | 微行为解码、潜台词密集、身体局部叙事、张力积压 |
|
||||
| Kitano | 孤独、等待、沉默中的对峙、留白冲击、收尾余韵 |
|
||||
| Fincher | 规律揭示、拆解者视角、对称破坏、审讯感、不可逃脱的压迫 |
|
||||
|
||||
**模式倾向:**
|
||||
- **视频成片**优先 Tarantino(微行为动势强)、Fincher(细节暗示运动)
|
||||
- **图文成片**优先 Kitano(留白冲击力强)、Fincher(构图控制精确)
|
||||
**选择依据:**
|
||||
- 通读全文后,判断文案整体最贴近哪种气质,选定一位导演
|
||||
- 如文案气质混合,选占比最高的那位
|
||||
- 选定后所有 Shot 统一使用,不中途切换
|
||||
|
||||
## 九、输入规范
|
||||
|
||||
|
||||
Reference in New Issue
Block a user