# TextFeatureExtraction

**Repository Path**: lavenderlizi/TextFeatureExtraction

## Basic Information

- **Project Name**: TextFeatureExtraction
- **Description**: Self complemented text feature extraction using algorithms including CHI, DF, IG, MI for the experiment of text classification based on sogou online news， 基于卡方检验CHI，文档频率DF, 信息增益IG，互信息MI的文本特征提取与实现
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2019-03-27
- **Last Updated**: 2021-11-02

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# TextFeatureExtraction
Self complement of text feature extraction using algorithms including CHI, DF, IG, MI for the experiment of text classification based on sougou online news
基于卡方检验CHI，文档频率DF, 信息增益IG，互信息MI的文本特征提取与实现

# 引入
from feature_extract import *  
dataer = FeatureExtract()  
# 设定提取特征数目，设置为5000  
features_num = 5000  
# 基于词语文档频率的特征词提取  
features = dataer.DF(features_num)  
# 基于词语卡方信息的特征词提取  
features = dataer.CHI(features_num)  
# 基于词语互信息的特征词提取  
features = dataer.MI(features_num)  
# 基于词语信息增益频率的特征词提取   
features = dataer.IG(features_num)  
# 输入：
data/data.txt: 搜狗文本分类语料库，共10个类别：  
'0': '汽车',  
'1': '财经',  
'2': 'IT',  
'3': '健康',  
'4': '体育',  
 '5': '旅游',  
'6': '教育',  
'7': '招聘',  
'9': '军事',  
 data.txt格式: category_id, word1 word2 word3 ...... wordn    
 # 输出:
 相应特征提取算法输出的文本特征，详细见：  
 data/features/chi.txt --> 卡方信息算法得到的文本特征TOP5000  
 data/features/df.txt --> 文档频率算法得到的文本特征TOP5000  
 data/features/mi.txt --> 互信息算法得到的文本特征TOP5000  
 data/features/ig.txt --> 信息增益算法得到的文本特征TOP5000  
 # 举例top20：
CHI: 训练，gt，一汽大众，都被，cnnic，中层，痛经，java，海岛，疲乏，区间，传送，领导能力，胜任，总社，尿液，诸侯，轻度，死亡，出汗  
DF：中国，公司，记者，到了，市场，时间，发展，这是，包括，工作，提供，都是，汽车，一种，国家，选择，情况，这一，北京，出了  
MI：中旅，蒙牛，总后勤部，60架，起飞时间，夏代，臣子，铬铁，末年，amd，卧槽，首回合，普吉，定位球，经济困难，忙忙碌碌，德智体，湖人，就业网，高血压  
IG：汽车，车型，轿车，找到，比赛，一页，发动机，消费者，品牌，www.sogou.com， 搜狗，下一，上市，市场，旅游，销售，考生，公司，编辑，搜索