# 实时字幕程序 **Repository Path**: sklink/real-time-subtitle ## Basic Information - **Project Name**: 实时字幕程序 - **Description**: 实时字幕系统是一款基于语音识别技术的桌面应用,能够实时将系统音频转换为文字字幕。支持中英日等8种语言识别,采用Vosk语音识别引擎实现低延迟高精度的识别效果。程序通过捕获系统音频流进行分析,自动生成可置顶显示的字幕窗口,用户可随时切换识别语言。具备智能模型管理功能,首次使用自动引导下载所需语言模型,支持断点续传和代理设置。提供直观的GUI界面,包含语言选择、模型管理、代理设置等实用功能。 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2025-02-09 - **Last Updated**: 2025-02-09 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 实时字幕系统 ## 功能特性 - 实时系统音频字幕生成(支持立体声混音) - 支持8种语言识别(中英日德法俄西葡) - 置顶显示的可定制字幕窗口 - 动态语言切换(无需重启) - 智能模型管理(自动下载/更新) - 代理服务器支持(带身份验证) - 音频输入设备选择 - 下载进度显示与取消功能 ## 安装步骤 ### 快速启动 ```bash git clone https://github.com/Snake-Konginchrist/real-time-subtitle.git cd real-time-subtitle pip install -r requirements.txt python run.py ``` ### 模型管理 + 首次运行自动弹出模型下载界面 + 通过界面操作: 1. 点击"管理模型"按钮 2. 勾选需要下载的语言 3. 点击"下载选中模型" + 支持断点续传和取消下载 ## 高级配置 通过菜单栏进行设置: - 代理设置:支持HTTP/HTTPS代理及身份认证 - 音频设备:选择系统声音输入源 - 字幕样式:修改字体/颜色/大小(需重启生效) ## 系统要求 - Python 3.8+ - Windows需启用立体声混音 - 推荐配置: - 4核CPU / 8GB内存 - 500MB可用存储空间(每个语言模型约200MB) ## 技术栈 - 语音识别:Vosk - 音频处理:SoundDevice - GUI框架:Tkinter - 异步处理:Threading ## 常见问题 Q: 无法捕获系统声音? A: 请通过"设置→音频设备"选择正确的环回设备 Q: 下载模型速度慢? A: 在代理设置中配置加速通道 Q: 如何更新已安装模型? A: 删除models目录下对应文件夹后重新下载 ## 安装步骤 ### 依赖安装 1. 安装依赖库 ```bash pip install -r requirements.txt ``` Linux系统需要额外安装tkinter ```bash sudo apt-get install python3-tk ``` 安装时添加新依赖: ```bash pip install requests tqdm ``` ### 模型下载 1. 访问 [Vosk模型仓库](https://alphacephei.com/vosk/models) 2. 下载对应语言的模型(推荐使用小尺寸模型) 3. 解压到项目目录的 `models` 文件夹,结构示例: models/ ├── vosk-model-en-us-0.22 ├── vosk-model-ja-0.22 └── ...其他语言模型 程序首次运行时会自动下载缺失模型 如需手动下载特定语言: ```bash python -c "from utils import download_model; download_model('en')" # 替换en为其他语言代码 ``` ## 使用说明 ```bash:README.md python main.py ``` - 通过下拉菜单切换识别语言 - 字幕窗口自动置顶显示 - 支持系统音频输入捕获 ## 配置调整 修改 `config.py`: - 调整 `AUDIO_SETTINGS` 优化音频输入 - 修改 `MODEL_PATHS` 适配自定义模型路径 ## 注意事项 - Windows系统需要启用立体声混音 - Windows录音设备设置: 1. 右键任务栏音量图标 → 声音设置 2. 右侧"声音控制面板" 3. 右键空白处 → 显示禁用的设备 4. 启用"立体声混音" 5. 设置为默认设备 - 如果无法捕获系统声音,请通过"设置 → 音频设备设置"选择正确的环回设备 - 首次使用需要下载对应语言模型 - 建议使用外接麦克风获得更好效果 ## 许可证 MIT License