Pràctica Algorísmia - FIB

HitCount GitHub stars GitHub repo size in bytes

ForTheBadge built-with-love

L'objectiu d'aquesta pràctica ha estat, per una part, analitzar l'efectivitat de la detecció de documents de text similars, mitjançant algoritmes de Locality-Sensitive-Hashing (LSH); i validar experimentalment l'efectivitat de diferents algorismes de hash. A més, també hem hagut d'estudiar com poder reduir la gran quantitat de dades que teníem per a poder optimitzar els nostres algorismes, preservant sempre la similitud entre els documents. És a dir, si dos documents D1 i D2 són similars, quan reduim la quantitat de dades d'aquests dos documents, aquests han de seguir sent similars, i viceversa. Per comparar la similitud entre dos documents hem utilitzat la similitud de Jaccard, representats per conjunts de k-shingles.

Nota: Per realitzar aquesta pràctica ens hem basat en el capítol 3 del llibre Mining of Massive Datasets.

Autors