/Bible-Word-Statistics

Analyze the importance of Bible words with TF-IDF algorithm and collect statical data of length for each Bible book

Primary LanguagePython

主要功能介绍及分析

功能介绍

  1. 统计各书卷中出现词语的词频
  2. 统计各书卷中出现词语的TF-IDF值
  3. 统计占篇幅前80%的词语在圣经中首次出现的书卷名称
  4. 统计各书卷的篇幅占比分布

功能分析

  1. 由书卷中出现词语的词频,大致可看出该词语的重要性
  2. 由书卷中出现词语的TF-IDF值,大致可看出该词语在该卷数的独特重要性
  3. 由书卷的篇幅占比分布,可以大致看出该卷书在整本圣经中的重要性

具体代码功能介绍

  1. book2filename.py
  • Function: 抽取各书卷英文名称缩写
  • Input:
  • Output:
  1. stat_tf_by_book.py
  1. stat_tf_by_testament.py
  1. stat_tfidf.py
  • Function: 统计各书卷中出现词语的TF-IDF值
  • Input:
  • Output:
  1. appear_1st_time.py
  • Function: 统计占篇幅前80%的词语在圣经中首次出现的书卷名称
  • Input:
  • Output:
  1. stat_word_by_book.py

书卷篇幅占排序列表,详见文件proportion_rank.csv

序号 书卷 字数 占比
1 诗篇 55535 5.96%
2 耶利米书 51181 5.49%
3 创世记 45191 4.85%
4 以赛亚书 44306 4.76%
5 以西结书 43385 4.66%
... ... ... ...

注意事项

  1. UTF-8格式编码中行首可能会有一个不可见字符,可以转化为UTF-8无BOM格式编码再进行处理
  2. 为使jieba分词能将圣经的人名、地名分出来,特别将它们定义为自定义的词典文件user.dict
  3. 由于圣经书卷不完全按时间顺序排列,因此词语在圣经中首次出现的书卷名称并不代表是最早出现的时间
  4. 本项目的功能分析,仅供参考

参考资料

书卷篇幅占比图


欢迎并感谢您提出宝贵的问题或建议: 点击【我要提问】