Mr Scrapper

(CÓDIGO NAO TA FUNCIONANDO AINDA BLZ TA SÓ EM TESTE)
AI-Powered web scrapping, blacklisting...

Os dados de exemplo contendo URLs e suas classificações são definidos na lista training_data.
O conteúdo das páginas de exemplo é extraído usando a biblioteca requests.
Os dados de treinamento são vetorializados usando TF-IDF.
Um modelo de classificação SVM é treinado com os dados de treinamento.
O modelo treinado é salvo no arquivo 'model.joblib'.
Um spider do Scrapy é definido para fazer o web crawling dos sites.
Durante o crawling, cada página é classificada como segura ou maliciosa usando o modelo treinado.
Os URLs maliciosos são adicionados à blacklist no arquivo 'blacklist.txt'.

frtvi/scrawler