Word_frequency_analysis

1.统计词频信息并通过引入凝固度和自由度的概念对词进行筛选，最终对筛选结果绘制出词云图；2.输入一组词绘制其在每一章的词频变化折现图

count_times.py

分块统计该篇文章的词频信息并存储到文件

input：

待处理的文章

output:

处理后的结果文件集

c_stopwords.py

根据统计词频后的文件生成停用词(将)然后存储到文件

input:

统计词频后的文件（用来生成停用词的）的存储位置

output:

生成的停用词的文件位置

ResultFile.py

class ResultFile 的定义文件，该类用来管理有多个子文件的文件目录（主要是一些结果文件）

WordList.py

class WordList 的定义文件，用来管理一个pd.DataFrame()的读写

c_stopwords.py

生成停用词

input:

output：

生成的停用词

del_stopwords.py

input:

统计词频后的要删除停用词的目标文件
停用词文件

output:

去除停用词后的文件

select_word.py

根据已经计算得到的凝固度和自由度(分左自由度fr_left和右自由度fr_right) 计算score(=co*fr_left*fr_right)然后过滤掉score<100的词，并将计算结果pd.DataFrame(columns=['times','co','fr_left','fr_right'],index='word_segment')存储到文件

input:

凝固度计算结果的存储位置
自由度计算结果的存储位置

output：

score的计算结果

draw_wordcloud.py

绘制经过筛选的词的词云

input:

经过选择的词列表的存储位置

output:

词云图

chapters.py

绘制某些词的章回变化折线图

input：

要统计词频的词语列表
要统计的词的源文件位置

output:

折线图

Krystalct/Word_frequency_analysis

Word_frequency_analysis

count_times.py

input：

output:

c_stopwords.py

input:

output:

ResultFile.py

WordList.py

c_stopwords.py

input:

output：

del_stopwords.py

input:

output:

select_word.py

input:

output：

draw_wordcloud.py

input:

output:

chapters.py

input：

output: