docs_similarity

Przykładowa implementacja algorytmu sprawdzający podobieństwo dokumentów.

Uruchom skrypty z opcją '--help', by zobaczyć instrukcje.

Najpierw należy zrobić preprocess dokumentów (preprocess.py).

Następnie obliczyć idf i tf tokenów w dokumentach (idf_tf.py).

Obliczamy wagi do wektorów dokumentów (weights.py).

Następnie porównywamy dokumenty (compare.py).

fiqas/docs_similarity