# csdn_ai_project **Repository Path**: Steven-Song/text_classfication ## Basic Information - **Project Name**: csdn_ai_project - **Description**: 文本分类,根据企业描述,对企业进行分类 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2018-05-03 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # csdn_ai_project #### 项目介绍 文本分类,根据企业描述,对企业进行分类 ## 文本分类 ### 第一周结束目标 - 数据探索文档 - 数据预处理 - 训练数据、测试数据分词,去除特殊符号 - 数据分布与分析 - lable分布与分析 - 生成词字典、词倒排字典 - tf-idf提取每个样本的关键词 - 编码尝试与结果评估 - tf-idf,lsi - embeding - word2vec - word2vec关键词可视化 - doc2vec ### 第二周结束目标 - 基本模型训练效果及论证 - svm - 结果 - 可视化 - 讨论 - xgboost - 结果 - 可视化 - 讨论 - 全连接神经网络 - 结果 - 可视化 - 讨论 - LSTM - 结果 - 可视化 - 讨论 - 高级方案的尝试计划 - 模型融合计划,选取表现最好的模型进行模型融合 - 深度学习多种网络结构融合尝试 ### 第三周结束目标 - 分类最终结果 - 分数 - 可视化 - 模型结果解析 - 高级方案尝试及结果 - 模型融合 - Stacking融合方案尝试 - Blending融合方案尝试 - 关键词训练一个模型,描述训练一个模型,将两个模型融合 - CNN + LSTM方案尝试 - CNN + LSTM + attention方案尝试 ### 第四周结束目标 - 形成最终文档 - 项目各个阶段中的坑 - 心得体会 - 项目不足与改进设想