/scrawler

AI-Powered web scrapping, blacklisting...

Primary LanguagePython

Mr Scrapper

(CÓDIGO NAO TA FUNCIONANDO AINDA BLZ TA SÓ EM TESTE)
AI-Powered web scrapping, blacklisting...

  1. Os dados de exemplo contendo URLs e suas classificações são definidos na lista training_data.
  2. O conteúdo das páginas de exemplo é extraído usando a biblioteca requests.
  3. Os dados de treinamento são vetorializados usando TF-IDF.
  4. Um modelo de classificação SVM é treinado com os dados de treinamento.
  5. O modelo treinado é salvo no arquivo 'model.joblib'.
  6. Um spider do Scrapy é definido para fazer o web crawling dos sites.
  7. Durante o crawling, cada página é classificada como segura ou maliciosa usando o modelo treinado.
  8. Os URLs maliciosos são adicionados à blacklist no arquivo 'blacklist.txt'.