# text_classification_with_CNN **Repository Path**: eshijia/text_classification_with_CNN ## Basic Information - **Project Name**: text_classification_with_CNN - **Description**: No description available - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 1 - **Created**: 2016-08-05 - **Last Updated**: 2020-12-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## text_classification_with_CNN - mr_cnn.py: 最早的混合卷积核长度的CNN实现,针对固定的MR数据集(`data/*.pkl`) - mr_word2vec_300_dim.embeddings: 通过`mr_embedding.py`,仅适用MR数据集,生成的词向量文件 - load_from_google_w2v.py: 从google所提供的词向量(`data/GoogleNews-vectors-negative300.bin`)中生成MR数据集中所包含的词的词向量。 - mr_word2vec_300_dim_google.embeddings: 从google所提供的词向量中,直接产生的MR数据集中所包含的词的词向量文件 以上文件仅作为备份,最新的实现直接在训练前预加载google所提供的词向量,不再基于数据集进行单独训练。 - mr_single_cnn_eval.py: 针对MR数据集(`data/MR/`)所实现的单卷积核长度CNN - mr_multiple_cnn_eval.py: 混合卷积核长度CNN实现 - results.txt: 测试过的实验结果 最新的实现直接基于原始数据集,采用Keras进行预处理,通用性更强。当前论文中对MR数据集都是采用的十折交叉验证的方式,因此最新实现中的测试集(即代码中的验证集)为原始数据的十分之一,可进行多次训练验证试验结果。 无论是单卷积核长度还是多卷积核长度的CNN实现,都是以预先训练好的词向量作为初始权值。在训练过程中,词向量会动态发生改变。若想使词向量固定,可以在`Embedding`层配置参数,设置`trainable=False`即可。