Estes datasets correspondem àqueles utilizados no trabalho "Classificação de URLs no domínio da Segurança da Informação através de técnicas de Machine Learning: Uma abordagem prática". Neste repositório, os datasets são disponibilizados para uso.
Os mesmos se encontram em formato .csv, complacente com a RFC 4180. Os arquivos estão distribuídos conforme a quantidade de itens que os compõe, para 200, 1000, 2000 e 3000 URLs. Cada item é composto pelas features extraídas, bem como, a classificação atribuída ao mesmo.
A classificação "0" diz respeito à URLs maliciosas enquanto que a classificação "1", URLs legítimas.
Um detalhamento completo sobre o dataset, a aplicação que o utiliza e os estudos conduzidos sobre a temática de classificação de URLs encontra-se no trabalho desenvolvido, disponível no diretório /Docs deste repositório.