# 实时字幕程序

**Repository Path**: sklink/real-time-subtitle

## Basic Information

- **Project Name**: 实时字幕程序
- **Description**: 实时字幕系统是一款基于语音识别技术的桌面应用，能够实时将系统音频转换为文字字幕。支持中英日等8种语言识别，采用Vosk语音识别引擎实现低延迟高精度的识别效果。程序通过捕获系统音频流进行分析，自动生成可置顶显示的字幕窗口，用户可随时切换识别语言。具备智能模型管理功能，首次使用自动引导下载所需语言模型，支持断点续传和代理设置。提供直观的GUI界面，包含语言选择、模型管理、代理设置等实用功能。
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 2
- **Created**: 2025-02-09
- **Last Updated**: 2025-02-09

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 实时字幕系统

## 功能特性
- 实时系统音频字幕生成（支持立体声混音）
- 支持8种语言识别（中英日德法俄西葡）
- 置顶显示的可定制字幕窗口
- 动态语言切换（无需重启）
- 智能模型管理（自动下载/更新）
- 代理服务器支持（带身份验证）
- 音频输入设备选择
- 下载进度显示与取消功能

## 安装步骤

### 快速启动
```bash
git clone https://github.com/Snake-Konginchrist/real-time-subtitle.git
cd real-time-subtitle
pip install -r requirements.txt
python run.py
```

### 模型管理
+ 首次运行自动弹出模型下载界面
+ 通过界面操作：
  1. 点击"管理模型"按钮
  2. 勾选需要下载的语言
  3. 点击"下载选中模型"
+ 支持断点续传和取消下载

## 高级配置
通过菜单栏进行设置：
- 代理设置：支持HTTP/HTTPS代理及身份认证
- 音频设备：选择系统声音输入源
- 字幕样式：修改字体/颜色/大小（需重启生效）

## 系统要求
- Python 3.8+
- Windows需启用立体声混音
- 推荐配置：
  - 4核CPU / 8GB内存
  - 500MB可用存储空间（每个语言模型约200MB）

## 技术栈
- 语音识别：Vosk
- 音频处理：SoundDevice
- GUI框架：Tkinter
- 异步处理：Threading

## 常见问题
Q: 无法捕获系统声音？
A: 请通过"设置→音频设备"选择正确的环回设备

Q: 下载模型速度慢？
A: 在代理设置中配置加速通道

Q: 如何更新已安装模型？
A: 删除models目录下对应文件夹后重新下载

## 安装步骤

### 依赖安装
1. 安装依赖库
```bash
pip install -r requirements.txt
```

Linux系统需要额外安装tkinter
```bash
sudo apt-get install python3-tk
```

安装时添加新依赖：
```bash
pip install requests tqdm
```

### 模型下载
1. 访问 [Vosk模型仓库](https://alphacephei.com/vosk/models)
2. 下载对应语言的模型（推荐使用小尺寸模型）
3. 解压到项目目录的 `models` 文件夹，结构示例：

models/
├── vosk-model-en-us-0.22
├── vosk-model-ja-0.22
└── ...其他语言模型

程序首次运行时会自动下载缺失模型
如需手动下载特定语言：
```bash
python -c "from utils import download_model; download_model('en')"  # 替换en为其他语言代码
```

## 使用说明

```bash:README.md
python main.py
```
- 通过下拉菜单切换识别语言
- 字幕窗口自动置顶显示
- 支持系统音频输入捕获

## 配置调整
修改 `config.py`：
- 调整 `AUDIO_SETTINGS` 优化音频输入
- 修改 `MODEL_PATHS` 适配自定义模型路径

## 注意事项
- Windows系统需要启用立体声混音
- Windows录音设备设置：
 1. 右键任务栏音量图标 → 声音设置
 2. 右侧"声音控制面板"
 3. 右键空白处 → 显示禁用的设备
 4. 启用"立体声混音"
 5. 设置为默认设备
- 如果无法捕获系统声音，请通过"设置 → 音频设备设置"选择正确的环回设备
- 首次使用需要下载对应语言模型
- 建议使用外接麦克风获得更好效果

## 许可证
MIT License