/TextFeatureExtraction

Self complemented text feature extraction using algorithms including CHI, DF, IG, MI for the experiment of text classification based on sogou online news, 基于卡方检验CHI,文档频率DF, 信息增益IG,互信息MI的文本特征提取与实现

Primary LanguagePython

TextFeatureExtraction

Self complement of text feature extraction using algorithms including CHI, DF, IG, MI for the experiment of text classification based on sougou online news 基于卡方检验CHI,文档频率DF, 信息增益IG,互信息MI的文本特征提取与实现

引入

from feature_extract import *
dataer = FeatureExtract()

设定提取特征数目,设置为5000

features_num = 5000

基于词语文档频率的特征词提取

features = dataer.DF(features_num)

基于词语卡方信息的特征词提取

features = dataer.CHI(features_num)

基于词语互信息的特征词提取

features = dataer.MI(features_num)

基于词语信息增益频率的特征词提取

features = dataer.IG(features_num)

输入:

data/data.txt: 搜狗文本分类语料库,共10个类别:
'0': '汽车',
'1': '财经',
'2': 'IT',
'3': '健康',
'4': '体育',
'5': '旅游',
'6': '教育',
'7': '招聘',
'9': '军事',
data.txt格式: category_id, word1 word2 word3 ...... wordn

输出:

相应特征提取算法输出的文本特征,详细见:
data/features/chi.txt --> 卡方信息算法得到的文本特征TOP5000
data/features/df.txt --> 文档频率算法得到的文本特征TOP5000
data/features/mi.txt --> 互信息算法得到的文本特征TOP5000
data/features/ig.txt --> 信息增益算法得到的文本特征TOP5000

举例top20:

CHI: 训练,gt,一汽大众,都被,cnnic,中层,痛经,java,海岛,疲乏,区间,传送,领导能力,胜任,总社,尿液,诸侯,轻度,死亡,出汗
DF:**,公司,记者,到了,市场,时间,发展,这是,包括,工作,提供,都是,汽车,一种,国家,选择,情况,这一,北京,出了
MI:中旅,蒙牛,总后勤部,60架,起飞时间,夏代,臣子,铬铁,末年,amd,卧槽,首回合,普吉,定位球,经济困难,忙忙碌碌,德智体,湖人,就业网,高血压
IG:汽车,车型,轿车,找到,比赛,一页,发动机,消费者,品牌,www.sogou.com, 搜狗,下一,上市,市场,旅游,销售,考生,公司,编辑,搜索