# Flask voiceprint processor

**Repository Path**: ica520/flask-voiceprint-processor

## Basic Information

- **Project Name**: Flask voiceprint processor
- **Description**: Flask 声纹处理器
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-01-06
- **Last Updated**: 2025-01-28

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Flask 声纹识别服务器

这是一个基于 Flask 的声纹识别服务器，允许用户注册声纹并识别已注册的声纹。
本服务用于给 Windows AI Assistant 提供声纹识别功能。

## 功能

- **声纹注册**：用户可以通过上传音频文件和提供用户名来注册声纹。
- **声纹识别**：用户可以上传音频文件，服务器将识别该声纹是否与已注册的声纹匹配。
- **获取所有用户**：用户可以获取所有已注册用户的列表。
- **删除用户**：用户可以通过提供用户ID来删除已注册的用户。
- **音频转录**：用户可以上传音频文件，服务器将转录该音频文件为文本。

## 安装

1. **克隆仓库**：
   ```bash
   git clone <仓库地址>
   cd <仓库目录>
   ```

2. **安装依赖**：
    ```bash
    pip install -r requirements.txt
    ```
    如果有CUDA的GPU，需要则可安装torch加速推理：
    ```bash
    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
    ```
    下载模型：
    ```bash
    git lfs install
    git clone https://www.modelscope.cn/openai-mirror/whisper-large-v3-turbo.git
    ```
    将openai-mirror文件夹重命名为openai，并放置于仓库根目录下。

## 使用方法

1. **启动服务器**：

    ```bash
    python flask_server.py
    ```

2. **注册声纹**：

    - 发送 POST 请求到 /enroll 端点。
    - 请求体中包含 audio 文件和 name 字段。

3. **识别声纹**：

    - 发送 POST 请求到 /identify 端点。
    - 请求体中包含 audio 文件。

4. **获取所有用户**：

    - 发送 GET 请求到 /get_users 端点。
    - 可选参数：
        - page：页码，默认为1。
        - per_page：每页显示数量，默认为5。

5. **删除用户**：

    - 发送 DELETE 请求到 /delete_user 端点。
    - 请求参数：
        - user_id：要删除的用户ID。
        
6. **音频转录**：

    - 发送 POST 请求到 /transcribe 端点。
    - 请求体中包含 audio 文件。

## 依赖

- Flask
- resemblyzer
- scipy
- uuid
- transformers

## 贡献

欢迎贡献代码！请提交 Pull Request 或创建 Issue 来讨论您的想法。

## 许可证

MIT License