(CÓDIGO NAO TA FUNCIONANDO AINDA BLZ TA SÓ EM TESTE)
AI-Powered web scrapping, blacklisting...
- Os dados de exemplo contendo URLs e suas classificações são definidos na lista training_data.
- O conteúdo das páginas de exemplo é extraído usando a biblioteca requests.
- Os dados de treinamento são vetorializados usando TF-IDF.
- Um modelo de classificação SVM é treinado com os dados de treinamento.
- O modelo treinado é salvo no arquivo 'model.joblib'.
- Um spider do Scrapy é definido para fazer o web crawling dos sites.
- Durante o crawling, cada página é classificada como segura ou maliciosa usando o modelo treinado.
- Os URLs maliciosos são adicionados à blacklist no arquivo 'blacklist.txt'.