# speech_processing_lab2 **Repository Path**: blindness/speech_processing_lab2 ## Basic Information - **Project Name**: speech_processing_lab2 - **Description**: No description available - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-04-18 - **Last Updated**: 2024-04-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 文件阅读 1. figure.ipynb是包含了对训练过程的绘图,包含了训练过程中的loss和accuracy的变化 2. output2.txt是用来保存模型训练过程输出结果的文本 3. train_RNN.ipynb是主要加载数据和训练模型的文件,包含了所有的训练代码和模型定义,包括优化器和损失函数等等 4. model_mfccs_adam_100.pth是保存训练100个epoch后的模型参数 # 训练过程中遇到的问题(用来水报告) 1. 尝试使用过CNN卷积模型,将20x350的特征作为一个图,做卷积处理进行分类,但是效果不好,可能是CNN模型过于简单。最后选择了RNN模型,也是尝试了比较简单的RNN架构,只使用了lstm和attention模块,准确率能达到35%左右。可以和wyh那个更复杂的RNN作对比说明 2. 初期训练的过程中,mfcc特征处理得到的是20 * 350的特征矩阵(特征数量,时间帧),每次输入数据是将单个特征的全部时间帧作为一个样本输入,这样训练的效果不好,准确率只有5%左右。后来发现了问题所在,将20*350的特征矩阵进行转置,变为(时间帧,特征数量),这样单次输入的数据样本就是,当前时间帧下的20个特征,准确率提升到了35%左右(对gy那边GMM模型提升更大) 3. 没有尝试lpcc特征,因为lpcc特征的维度比mfcc特征高,训练更加耗时,做出来这些就已经汗流浃背了。