# speech_processing_lab2

**Repository Path**: blindness/speech_processing_lab2

## Basic Information

- **Project Name**: speech_processing_lab2
- **Description**: No description available
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-04-18
- **Last Updated**: 2024-04-30

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 文件阅读

1. figure.ipynb是包含了对训练过程的绘图，包含了训练过程中的loss和accuracy的变化
2. output2.txt是用来保存模型训练过程输出结果的文本
3. train_RNN.ipynb是主要加载数据和训练模型的文件，包含了所有的训练代码和模型定义，包括优化器和损失函数等等
4. model_mfccs_adam_100.pth是保存训练100个epoch后的模型参数

# 训练过程中遇到的问题（用来水报告）

1. 尝试使用过CNN卷积模型，将20x350的特征作为一个图，做卷积处理进行分类，但是效果不好，可能是CNN模型过于简单。最后选择了RNN模型，也是尝试了比较简单的RNN架构，只使用了lstm和attention模块，准确率能达到35%左右。可以和wyh那个更复杂的RNN作对比说明
2. 初期训练的过程中，mfcc特征处理得到的是20 * 350的特征矩阵(特征数量，时间帧)，每次输入数据是将单个特征的全部时间帧作为一个样本输入，这样训练的效果不好，准确率只有5%左右。后来发现了问题所在，将20*350的特征矩阵进行转置，变为(时间帧，特征数量)，这样单次输入的数据样本就是，当前时间帧下的20个特征，准确率提升到了35%左右（对gy那边GMM模型提升更大）
3. 没有尝试lpcc特征，因为lpcc特征的维度比mfcc特征高，训练更加耗时，做出来这些就已经汗流浃背了。