refactor(video-pipeline): 移除 segments 机制,改为整段音频合成

移除 TTS 阶段逐句切分及 segments 数组逻辑,统一为整段音频合成。
CapCut 字幕切分由组装阶段按字符比例分配,简化音频上传、
时间线构建和字幕生成流程,减少冗余处理分支。
This commit is contained in:
2026-05-02 02:31:55 +08:00
parent ac753ef367
commit 6097a809bf
9 changed files with 95 additions and 244 deletions

View File

@@ -62,29 +62,11 @@ source outside the frame begins its slow rotation
→ 有明确运动趋势:头正在转向、影子正在拉长——视频模型能推断运动方向。
## 三、3秒钩子规则Shot 1 强制)
短视频前 3 秒决定用户是否留下。**Shot 1 必须是钩子,不是铺垫。**
| 策略 | 说明 |
|------|------|
| **结论前置** | 从文案核心金句提取最冲击的结论,直接放在开头 |
| **认知冲突** | 一句话打破常识,制造"凭什么"的好奇心 |
| **身份挑衅** | 直接点中受众身份焦虑 |
钩子规范:
- 画面有视觉冲击力,不用背影/空走廊等铺垫
- 文案 ≤ 20 字,一句话讲完
- 时长 4-5 秒,短狠快
- 禁止设问式开头("大多数人...")、禁止超 20 字、禁止纯铺垫画面
钩子后 Shot 2 负责引入正文Shot 3 起按原文顺序展开。
## 四、切割规则
## 三、切割规则
切割分两层:第一层按语义场景做宏观切分(两种模式通用),第二层按气口做微观切分(视频成片专用)。
### 4.1 第一层:语义场景切割(两种模式通用)
### 3.1 第一层:语义场景切割(两种模式通用)
以语义场景转折为切割依据,不按句号机械切割。
@@ -96,7 +78,7 @@ source outside the frame begins its slow rotation
| 节奏重音 | 强调句、停顿感强、关键意象出现 |
| 语义完整(仅图文) | 该段表达一个完整观点或例子 |
### 4.2 第二层:气口切割(视频成片专用)
### 3.2 第二层:气口切割(视频成片专用)
**视频成片在完成语义场景切割后,必须在每个语义场景内部进行第二轮气口切割。**
@@ -137,27 +119,27 @@ source outside the frame begins its slow rotation
- ❌ 丢弃原文的论证、例子、细节来"节省字数"
- ❌ 跨语义场景合并——气口切割只在同一个语义场景内部进行
### 4.3 字数上限速查
### 3.3 字数上限速查
| 模式 | 每段字数 | 说明 |
|------|---------|------|
| 图文成片 | 50 字左右 | 一帧讲透一个观点 |
| 视频成片 | 822 字 | 气口自然长度,长句必须拆为连续 Shot |
### 4.4 时长控制
### 3.4 时长控制
- **图文成片:** 每条 Shot 4-10 秒,跟随旁白节奏,完整表达一个观点
- **视频成片:** 每条 Shot 3-7 秒,目标 5 秒,匹配视频片段长度
- **总时长校验:** 所有 duration 之和 = 文案朗读总时长
## 、导演构图语言词库(分镜层专用)
## 、导演构图语言词库(分镜层专用)
> 本层只负责:构图逻辑 + 画面内容设计 + 视角选择
> 光影渲染由图片提示词处理,运动节奏由视频提示词处理
每个 Shot 选定一位导演作为构图参考,写入 `directorRef` 字段向下游透传。下游图片和视频提示词根据此字段执行各自层的风格,不重新选导演。
### 5.1 昆汀·塔伦蒂诺Tarantino
### 4.1 昆汀·塔伦蒂诺Tarantino
**构图核心:** 身体局部主导叙事;对话即权力博弈;平静表面下的极度张力
@@ -181,7 +163,7 @@ room has not yet realized is coming
**适合选用场景:** 微行为解码 / 潜台词型文案 / 局部细节承载叙事
### 5.2 北野武Kitano
### 4.2 北野武Kitano
**构图核心:** 静止即叙事;留白承载重量;人物与空间的关系即情绪
@@ -206,7 +188,7 @@ His body has not moved. Neither has his decision.
**适合选用场景:** 孤独/等待/沉默型文案 / 收尾 Shot / 留白叙事
### 5.3 大卫·芬奇Fincher
### 4.3 大卫·芬奇Fincher
**构图核心:** 精确的控制感;对称中的破坏;冷静凝视是最深的压迫
@@ -231,13 +213,13 @@ The balance of power broke the same moment the geometry did.
**适合选用场景:** 规律揭示型文案 / 解剖者视角 / 关系结构拆解
## 、shotDesc 写法规范
## 、shotDesc 写法规范
### 6.1 语言
### 5.1 语言
统一英文输出。shotDesc 是下游图片模型的内容底稿,英文输入更稳定。视频提示词的语言由下游模块根据目标模型自动适配。
### 6.2 必须包含的内容维度
### 5.2 必须包含的内容维度
**图文成片模式:**
@@ -259,7 +241,7 @@ The balance of power broke the same moment the geometry did.
| 隐性动势 | 画面中隐含的运动趋势(**必填** |
| 情绪张力 | 用视觉词而非情绪词传递张力 |
### 6.3 隐性动势Implied Motion
### 5.3 隐性动势Implied Motion
**视频成片模式:每条 shotDesc 必须包含至少一个隐性动势词组。**
**图文成片模式:不强制,可选用以增加画面叙事感。**
@@ -287,7 +269,7 @@ the symmetry of the empty table stretching to both edges
a man holding a cup and looking down
```
### 6.4 隐性动势词库
### 5.4 隐性动势词库
**人物动势:**
@@ -315,12 +297,12 @@ breaks / silence stretching thin / the moment before something that cannot be
undone
```
### 6.5 字数控制
### 5.5 字数控制
- **图文成片:** 每条 shotDesc **5080 词**——图片即成品,需要充分描述构图、氛围和视觉隐喻
- **视频成片:** 每条 shotDesc **3060 词**——视频模型需要精炼聚焦的运动指令,过长会稀释动势信号
### 6.6 禁止事项
### 5.6 禁止事项
- 禁止写镜头运动参数(`zoom-in` / `pan`)——留给视频提示词
- 禁止写色调参数(`cold blue` / `warm orange`)——留给图片提示词
@@ -329,7 +311,7 @@ undone
- **图文成片:** 禁止连续两张同景别/同构图的 shot
- **禁止剧透**:不能提前使用文案后续才出现的具体意象、物件、动作
### 6.7 语义-画面对齐规则(剧透、铺垫与承接)
### 5.7 语义-画面对齐规则(剧透、铺垫与承接)
**三定律**
- **禁止剧透**:不能提前使用文案后续才出现的具体意象、物件、动作
@@ -366,19 +348,22 @@ between the two figures" ✅ 承接
**检查方法**:每条 shotDesc 写完后,只看当前 script + shotDesc——画面内容是否只来自当前这段文案如果不是重写。
## 、directorRef 选择规则
## 、directorRef 选择规则
| 选 Tarantino | 选 Kitano | 选 Fincher |
|-------------|-----------|-----------|
| 需要身体局部特写 | 需要大面积留白和静止感 | 需要精确控制感和对称破坏 |
| 对话/博弈场景 | 孤独/等待/收尾场景 | 规律揭示/解剖者视角场景 |
| 日常物件暗藏张力 | 空镜、余韵 | 审讯感、不可逃脱 |
**每个分镜方案统一使用一位导演**,所有 Shot 的 directorRef 保持一致。在生成分镜前,根据文案整体气质选定一位导演,贯穿始终。
**模式倾向:**
- **视频成片**优先 Tarantino微行为动势强、Fincher细节暗示运动
- **图文成片**优先 Kitano留白冲击力强、Fincher构图控制精确
| 导演 | 适合的文案气质 |
|------|-------------|
| Tarantino | 微行为解码、潜台词密集、身体局部叙事、张力积压 |
| Kitano | 孤独、等待、沉默中的对峙、留白冲击、收尾余韵 |
| Fincher | 规律揭示、拆解者视角、对称破坏、审讯感、不可逃脱的压迫 |
## 八、输入规范
**选择依据:**
- 通读全文后,判断文案整体最贴近哪种气质,选定一位导演
- 如文案气质混合,选占比最高的那位
- 选定后所有 Shot 统一使用,不中途切换
## 七、输入规范
```
【完整口播文案】
@@ -388,7 +373,7 @@ between the two figures" ✅ 承接
图文成片 / 视频成片
```
## 、输出格式
## 、输出格式
输出前附加总览行: