TGTGInsighttelegram intelligenceLIVE / telegram public index
← V2EX
V2EX avatar

TGINSIGHT POST

Post #201379

@pushv2ex

V2EX

Views2帖子阅读量
发布4月15日2026/04/15 03:12
Post content

帖子内容

[分享创造] 分享一下自用的播客翻译工具 TL;DR 去年通勤时想听一些国外的播客,vibe search 了一圈好像没啥特别钟意的播客翻译工具,后来本地跑了个简陋的 ASR + 翻译 + TTS 的流水线应付了下。 年初 qwen3-tts 发布后便有心让 AI 搓一个方便复用的工具,最近抽空薅 OpenAI Codex 羊毛做了个 CLI 自己用着感觉还可以。为了快速跑通和效果稳定,TTS 直接用的阿里云服务,后续有空或者需求的话再支持本地模型部署或者其他渠道。 快速开始 首先需要准备一个阿里云的 API Key:https://www.alibabacloud.com/help/zh/model-studio/get-api-key。 环境中还需要安装 ffmpeg。 # 使用 uv 安装 CLI uv tool install git+https://github.com/R0sin/podtran # 初始化配置,默认路径为 ~/.podtran/podtran.toml podtran init 初始化时需要填写 HF_TOKEN,主要为了使用 WhisperX 的人声分离模型,引导中有跳转链接。 初始化完成后可以在配置文件中修改 ASR 模型配置,默认是 cpu 跑的参数。 安装完依赖就能用了: # 截取前五分钟跑流水线 podtran <audio_path> --preview # 跑完整音频翻译流水线 podtran <audio_path> 套壳所以原生支持 mp4 等媒体格式输入。 其他 CLI 用法可以参考 README 和 help 信息。 其他补充 ● 默认配置是音色克隆的方式和模型,因为试了预置的音色都情感拉满,不适合播客。 ● 翻译模式按照个人偏好默认设置为穿插播放,15s 或者说话人变更后会插入翻译,主要是为了锻炼下口语听力。 ● 博客链接中有段简短片段可以试听效果。 欢迎使用和提建议,有用的话麻烦点个 star ,谢谢! 也欢迎分享一些有意思的播客频道。 可能的迭代方向 ● 支持多渠道(翻译/音色克隆/TTS ) ● 支持音乐人声分离(如效果明显) ● 支持其他交互(前端/GUI/Skills ) ● 支持广告过滤 相关链接 博客原文:https://r0sin.pages.dev/podcast-translator-cli(需代理访问) GitHub:https://github.com/R0sin/podtran