/PR_project_plag_detect

模式识别大作业简单查重实现

Primary LanguagePython

PR_project_plag_detect

模式识别大作业简单查重实现,对一系列中文文本,查询其与语料库[LCMC]的相似度情况。 运行较慢,可以使用稀疏矩阵优化。

Requirments

python 3.6

numpy

gensim

jieba (if use Chinese corpus)

nltk (if use English corpus)

Usage

python run_and_test.py -h

Reminder

Print language

The language for screen output is Chinese.

Recommended threshold

--pre_train: --thre 0.7

--no-pre_train: --thre 0.9