video-create

sion/video-create

Fork 0

Commit Graph

Author	SHA1	Message	Date
sion123	9d19437a29	feat(video-pipeline): 实现 TTS 逐句分句生成与字幕精确对齐 TTS 阶段将长文本按标点切分为短句，逐句生成音频并记录每句时长到 `item.segments[]`。assemble 阶段优先使用 segments 的精确时长分配字幕时间线，无 segments 时回退到字数权重估算。同时优化音频上传流程，支持分段音频独立上传 OSS 并在配音时按段映射时间线。	2026-05-01 14:41:28 +08:00
sion123	7d526d2b60	feat(video-pipeline): 重构多阶段生成管线并集成 CosyVoice TTS - 重写 `phase-images`：改为并发 3 张并行生成，每个 item 完成立即写入 manifest，支持 MJ task ID 恢复 - 重写 `phase-videos`：先恢复已有 task ID 再提交新任务（并发 3），支持中断恢复 - 迁移 TTS 引擎：从 Qwen-TTS HTTP 接口切换为 CosyVoice WebSocket 接口，支持音色/语气参数透传 - 精简账号系统：移除 `styles/` 目录、`taskId` 过滤和 `--id` 正则校验，`references` 改为顶层字段 - 调整 `slugify`：限制中文字符 5 个、其他 10 个，避免文件名过长 - 更新文档：`manifest-schema.md` 中 `narration` 改为完整原文案，`account-creation.md` 新增 TTS 配置项 - 配置更新：默认 TTS 模型切换为 `cosyvoice-v3.5-plus`，新增 `localAudio` 参数	2026-05-01 00:44:18 +08:00
sion123	86b9b7948d	feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。变更内容： - 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续 - manifest schema改用shotDesc/narration/duration/directorRef替代旧字段 - 文件命名规则从keyword改为slug（从shotDesc/narration派生） - 删除旧的storyboard-rules.md和prompt-rules.md - pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*） - 新增cmd-create-account支持一键创建带prompts目录的账号 - capcut_assemble支持narration字段替代text作为字幕源 - 新增.gitclaude/settings.json权限配置	2026-04-30 21:18:31 +08:00

Author

SHA1

Message

Date

sion123

9d19437a29

feat(video-pipeline): 实现 TTS 逐句分句生成与字幕精确对齐

TTS 阶段将长文本按标点切分为短句，逐句生成音频并记录每句时长到 `item.segments[]`。assemble 阶段优先使用 segments 的精确时长分配字幕时间线，无 segments 时回退到字数权重估算。同时优化音频上传流程，支持分段音频独立上传 OSS 并在配音时按段映射时间线。

2026-05-01 14:41:28 +08:00

sion123

7d526d2b60

feat(video-pipeline): 重构多阶段生成管线并集成 CosyVoice TTS

- 重写 `phase-images`：改为并发 3 张并行生成，每个 item 完成立即写入 manifest，支持 MJ task ID 恢复
- 重写 `phase-videos`：先恢复已有 task ID 再提交新任务（并发 3），支持中断恢复
- 迁移 TTS 引擎：从 Qwen-TTS HTTP 接口切换为 CosyVoice WebSocket 接口，支持音色/语气参数透传
- 精简账号系统：移除 `styles/` 目录、`taskId` 过滤和 `--id` 正则校验，`references` 改为顶层字段
- 调整 `slugify`：限制中文字符 5 个、其他 10 个，避免文件名过长
- 更新文档：`manifest-schema.md` 中 `narration` 改为完整原文案，`account-creation.md` 新增 TTS 配置项
- 配置更新：默认 TTS 模型切换为 `cosyvoice-v3.5-plus`，新增 `localAudio` 参数

2026-05-01 00:44:18 +08:00

sion123

86b9b7948d

feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统

将视频制作工作流拆分为独立子步骤：分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片，每步由子Agent独立执行。引入prompts/目录统一管理提示词模板（分镜.md、图片提示词.md、视频提示词.md），通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容：
- 新增confirmed机制和pipeline.js confirm命令，生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug（从shotDesc/narration派生）
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块（cmd-init/cmd-confirm/cmd-validate/phase-*）
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置

2026-04-30 21:18:31 +08:00

3 Commits