Datasets para uso em tarefas de classificação de URLs

Estes datasets correspondem àqueles utilizados no trabalho "Classificação de URLs no domínio da Segurança da Informação através de técnicas de Machine Learning: Uma abordagem prática". Neste repositório, os datasets são disponibilizados para uso.

Os mesmos se encontram em formato .csv, complacente com a RFC 4180. Os arquivos estão distribuídos conforme a quantidade de itens que os compõe, para 200, 1000, 2000 e 3000 URLs. Cada item é composto pelas features extraídas, bem como, a classificação atribuída ao mesmo.

A classificação "0" diz respeito à URLs maliciosas enquanto que a classificação "1", URLs legítimas.

Um detalhamento completo sobre o dataset, a aplicação que o utiliza e os estudos conduzidos sobre a temática de classificação de URLs encontra-se no trabalho desenvolvido, disponível no diretório /Docs deste repositório.

lowizdev/URL_Classification_Dataset

Datasets para uso em tarefas de classificação de URLs