# Chinese-FastSpeech2

**Repository Path**: ppandaer/Chinese-FastSpeech2

## Basic Information

- **Project Name**: Chinese-FastSpeech2
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-10-16
- **Last Updated**: 2024-10-16

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Chinese-FastSpeech2
基于[标贝中文标准女声数据](https://www.data-baker.com/data/index/TNtts)继续训练，同时对原论文的[FastSpeech2](https://github.com/ming024/FastSpeech2)模型做了改进，引入了韵律表征以及韵律预测模块，使中文发音更生动且富有节奏 

## 20230402 更新
- 1、加入韵律模型训练代码， 在**BertProsody**目录下
- 2、加入韵律模型训练的数据预处理代码（针对标贝数据，代码未整理，先放出来），在**preprocessor/biaobei.py**里

## 样例
参考samples中生成的音频

## 模型文件
本项目主体架构为FastSpeech2+HifiGAN结构，另外在输入阶段引入了中文文本的韵律向量，因此共有三个模型：fastspeech_model、hifigan_model、prosody_model（[网盘链接](https://pan.baidu.com/s/1aizIt1Hg9Xhb1ttCrbzOvQ)，提取码：qgpi），下载后将模型文件放入指定的目录下：
- 8000.pth.tar  --->  output/ckpt/biaobei/
- generator_universal.pth.tar  --->  hifigan/
- best_model.pt  --->  transformer/prosody_model/

## 预测
提供了两种预测方式：1）python synthesize_all.py；2）http接口调用
- 第一种方式是**交互式**，命令行运行python synthesize_all.py后，输入需要转换的文本，运行后会在代码会在当前工作目录下生成tmp.wav文件；
- 第二种方式是**api调用**，运行tts_server.py，会启动语音转文本的接口，调用该接口可参考TestServer.py，同样生成的音频文件(tmp.wav)会保存在当前工作目录下

## 训练
- 由于本项目参考[FastSpeech2](https://github.com/ming024/FastSpeech2)项目，如果想自定义训练，该项目提供了较为详细的训练方法可供参考；
- 本项目对原方法作了一些优化，优化部分可参考博客: [基于FastSpeech2优化的中文语音合成](https://zhuanlan.zhihu.com/p/585086910)

-----
本项目是出于个人兴趣在语音合成方面做的一些尝试，欢迎大家批评指正，多多交流！