/similaridad

A partir de un listado de URLs de un sitio web, calculamos la similaridad de cada una contra el resto de URLs. Para ello utilizamos el índice de Jaccard.

Primary LanguageR

Similaridad web

A partir de un listado de URLs de un sitio web, extraemos el contenido de cada URL, lo limpiamos y calculamos la similaridad de cada una contra el resto de URLs mediante el índice de Jaccard.

Con el resultado preparamos un dataframe con las URLs con un porcentaje de similaridad alto