/cosSim

基于TF-IDF和余弦定理计算文本相似度

Primary LanguagePython

cosSim

基于TF-IDF和余弦定理计算文本相似度

使用

python3 main.py

计算过程

  1. 对输入的两个文本分词,使用CountVectorizer计算词频矩阵
  2. 计算TF-IDF得到weight矩阵(归一化)
  3. 根据余弦定理计算两个向量的相似度

结果越接近1.0表示文本越相似(不考虑文本的词的顺序)