Commit Graph

24 Commits

Author SHA1 Message Date
9d19437a29 feat(video-pipeline): 实现 TTS 逐句分句生成与字幕精确对齐
TTS 阶段将长文本按标点切分为短句,逐句生成音频并记录每句时长到 `item.segments[]`。assemble 阶段优先使用 segments 的精确时长分配字幕时间线,无 segments 时回退到字数权重估算。同时优化音频上传流程,支持分段音频独立上传 OSS 并在配音时按段映射时间线。
2026-05-01 14:41:28 +08:00
f5d47ec5db feat(video-pipeline): 添加可配置的转场策略引擎和TTS语速支持
- 引入转场策略系统(`getTransition`),支持 `fixed`、`director`、`rhythm` 三种模式
- 根据账号配置文件动态读取转场配置(`loadTransitions`)
- 图片和视频轨道分别调用转场策略,替代原有的固定“闪白”转场
- 支持 `byPosition`(hook/body/keypoint/closing)和 `byDirector` 两种高级选择策略
- 图片动画支持 `loop_animation` 与 `in_animation` 解析(“缩放”、“弹入”等组合)
- TTS 合成新增 `rate` 字段(源自账号配置 `ttsRate`),默认语速调整为 1.1
- 默认动画类型从 `kenburns-zoom` 改为 `缩放`,适配中文 CapCut
2026-05-01 14:16:08 +08:00
21ff5311c1 feat(video-pipeline): 将素材过渡动画切换为闪白并缩短时长
将图片和视频素材的默认过渡效果从溶解改为闪白,并将过渡时长从300ms缩短至150ms,以提升视频拼接的视觉流畅度。
2026-05-01 02:52:37 +08:00
96f00ce7fd feat(video-pipeline): 将 narration 字段统一重命名为 script
字段重命名涉及所有文档、示例代码、提示词模板以及 slug 生成逻辑,确保管线各阶段(分镜、图生提示词、TTS、成片)一致使用 script 字段承载口播文案。

同时增强 `capcut_assemble.js` 的配音与字幕模块:
- 配音支持本地路径模式(不上传 OSS),新增 `--split-captions` 参数启用分句字幕
- 分句字幕按标点切分长文本为短句,基于字数权重动态分配显示时长
- 新增 `update-captions-standalone.js` 独立工具,可在草稿已生成后单独更新字幕
2026-05-01 02:48:37 +08:00
c878abc39b feat(video-pipeline): 用 ffprobe 实际测量音视频时长并统一字段名为 script
将项目中的 `narration` 字段统一重命名为 `script`,并新增 `getAudioDurationSec` 函数通过 `ffprobe` 实际测量音频和视频文件的时长,替代 Manifest 中的估计值,提高时间线组装的准确性。同时优化字幕逻辑,仅在有 TTS 音频时调整视频速度。
2026-05-01 01:52:02 +08:00
7d526d2b60 feat(video-pipeline): 重构多阶段生成管线并集成 CosyVoice TTS
- 重写 `phase-images`:改为并发 3 张并行生成,每个 item 完成立即写入 manifest,支持 MJ task ID 恢复
- 重写 `phase-videos`:先恢复已有 task ID 再提交新任务(并发 3),支持中断恢复
- 迁移 TTS 引擎:从 Qwen-TTS HTTP 接口切换为 CosyVoice WebSocket 接口,支持音色/语气参数透传
- 精简账号系统:移除 `styles/` 目录、`taskId` 过滤和 `--id` 正则校验,`references` 改为顶层字段
- 调整 `slugify`:限制中文字符 5 个、其他 10 个,避免文件名过长
- 更新文档:`manifest-schema.md` 中 `narration` 改为完整原文案,`account-creation.md` 新增 TTS 配置项
- 配置更新:默认 TTS 模型切换为 `cosyvoice-v3.5-plus`,新增 `localAudio` 参数
2026-05-01 00:44:18 +08:00
3326f6cb37 feat(video-from-script): 新增账号创建Q&A流程并移除独立风格文件系统
- 新增 `account-creation.md` 参考文档,定义结构化问答创建账号流程
- 将视觉风格信息内嵌到 `prompts/*.md` 中,移除独立的 `styles/` 目录
- 更新 SKILL.md 和 account-system.md 以反映新架构
- 更新账号校验逻辑适配新参考图管理方式
- 更新模板 `account.json` 添加 `references` 字段和默认视频模型
2026-04-30 21:27:49 +08:00
86b9b7948d feat(video-from-script): 重构工作流为子Agent分步执行并新增提示词模板系统
将视频制作工作流拆分为独立子步骤:分镜 → 图片提示词 → 生图 → 视频提示词 → 生视频 → 成片,每步由子Agent独立执行。引入prompts/目录统一管理提示词模板(分镜.md、图片提示词.md、视频提示词.md),通过account.json的storyboardPrompt/imageStylePrompt/videoStylePrompt字段引用。

变更内容:
- 新增confirmed机制和pipeline.js confirm命令,生图后必须人工确认才能继续
- manifest schema改用shotDesc/narration/duration/directorRef替代旧字段
- 文件命名规则从keyword改为slug(从shotDesc/narration派生)
- 删除旧的storyboard-rules.md和prompt-rules.md
- pipeline.js脚本拆分为lib/目录下的独立模块(cmd-init/cmd-confirm/cmd-validate/phase-*)
- 新增cmd-create-account支持一键创建带prompts目录的账号
- capcut_assemble支持narration字段替代text作为字幕源
- 新增.gitclaude/settings.json权限配置
2026-04-30 21:18:31 +08:00
7f955647fe chore: 移除旧的 .claude/settings.json 权限配置并将账号目录迁移到项目根目录
- 删除 `.claude/settings.json` 中的大量 `Bash` 和 `Edit` 权限许可
- 将 `accounts/` 目录从技能脚本子目录迁移到项目根目录
- 更新所有技能文档和脚本中引用 `accounts/` 的路径为项目根目录
- 移除 `forbidden-emperor` 账号中多余的中文提示词配置文件
2026-04-30 01:31:13 +08:00
d1d2fe6733 feat: 更新多个风格参考图和账号配置
- 更新 popart、manga、grunge 四种风格参考图
- 调整 account.json 配置文件内容
- 移除东方神话和暗黑军事文档
2026-04-30 01:21:40 +08:00
c0b05c85c3 feat(image-generator, video-from-script): 优化质量检查项,移除不适用条件
- 移除图片水印、字幕覆盖等视频素材级质量检查,改为 Agent 可自动化验证的检查项
- 将输出目录命名从 `{account}` 改为 `{name}`,与账号体系文档对齐
- 废弃 account.json 中已不再使用的 `pipeline` 字段
- 风格文件命名从英文改为中文,更直观易识别
2026-04-30 01:17:52 +08:00
6f338a8539 feat(video-from-script): 简化质量卡点流程为Agent自动校验
移除需要人工视觉判断的检查项(画质、动画、BGM等),将质量卡点改为Agent自动执行模式。减少不必要的校验脚本和检查标准,聚焦于文件数量匹配和基础格式校验。
2026-04-30 01:12:21 +08:00
0dc17a8b9d feat(capcut): 移除云渲染和账号配置文档并调整字幕字体大小
- 删除 assembly-guide.md 中云渲染和账号配置的冗余文档
- 将 account.json 模板中的默认字体大小从 36 调整为 12
2026-04-30 01:08:47 +08:00
dd7a1ad6a6 feat(video-from-script): 更新 imagePrompt 模型适配规则
在单图模式提示词中增加 imagePrompt 对不同模型的约束说明,明确 MJ 禁止写实人像描述,并补充 Kling 的适配规则。
2026-04-30 01:05:38 +08:00
8656f3a58c feat(video-from-script): 将可灵生图切换为多图参考风格接口
将 Kling 图像生成器从单图生图 API 升级为多图参考生图端点,支持风格参考图片功能,并更新降级链顺序
2026-04-30 00:59:02 +08:00
8301c7b780 feat(video-from-script): 集成可灵图像生成器并优化审查流程
- 新增 kling-image-generator.js 作为可灵 API 图像生成模块,支持文生图和图生图
- 在 pipeline.js 中集成可灵生图,支持在 images 阶段使用 kling 模型
- 更新 SKILL.md 文档:简化用户审查流程,支持"自行选图"模式
- 实现模型降级链(gemini → kling → mj → gemini),增强生图容错性
- 扩展 `--image-model` 参数支持,允许在重试时切换模型
2026-04-30 00:49:33 +08:00
5dd83fdb45 feat(video-from-script): 更新军事账户主题的样式引用图片地址`
将 `dark-noir-military` 样式引用的背景图片从 `grunge_br.png` 更换为 `popart_bl.png`,并更新为阿里云 OSS 的新存储地址
2026-04-29 23:45:23 +08:00
001d28f4c6 feat(video-from-script): 将分镜规划与提示词生成规则抽取为独立引用文件
将 SKILL.md 中内联的分镜规划规则和提示词生成规则分别抽取为独立的 `storyboard-rules.md` 和 `prompt-rules.md` 引用文件,减少主文档体积并支持子 Agent 独立读取执行。同时修复 manifest 前缀生成使用 account name 而非 ID。
2026-04-29 23:38:56 +08:00
357b8e7bcf 优化 2026-04-29 22:47:59 +08:00
803da39b85 fix: 问题 2026-04-29 21:58:28 +08:00
5619d753cc feat(video-from-script): 升级可灵视频生成使用官方 API 并添加失败重试机制
- 使用 AK/SK → JWT (HMAC-SHA256) 鉴权替代旧版 API Key
- 支持多种凭证来源:~/.config/kling/.credentials 或 config.json
- 更新 API 端点至官方规范 (v1/videos/image2video)
- 添加 `--retry-failed` 参数支持失败 item 状态重置和重试
- 更新 manifest 文档添加状态机和失败处理说明
- 调整模型名称和参数格式以匹配新 API
2026-04-29 21:56:47 +08:00
0b3ab3a2aa 优化 2026-04-29 21:26:42 +08:00
1333a2c751 功能 2026-04-29 21:05:44 +08:00
dadddc7aec init: video-create project with skills and accounts 2026-04-29 21:04:43 +08:00