A ideia desse repositório é criar um web scrapy que varre uma categoria (ou todas) de exercicios do URI utilizando Scrapy para gerar um arquivo JSON com o número do exercício seguido da dificuldade do mesmo.
Também nesse repositório existe scripts em python para filtrar e ordenar os exercícios.
Percorrer uma página coletando informações: Done
Percorrer uma categoria coletando informações: Done
Seletor de categorias: Done
Conseguir Listar: Done
Fazer filtros: Done
- Scrapy
- Python
- Precisa de um pouco de conhecimento de HTML + CSS
Instalação do scrapy: Scrapy Download
pip install scrapy
Para utilizar o crawl em apenas uma categoria:
cd scrapy_uri/spiders
scrapy crawl exercicios -o ../../nome.json
Para utilizar o script de organização, substituir "nome.json" pelo número da categoria que está acontecendo o scrapy, por exemplo, se há interesse em crawlar o Iniciante o arquivo deve ser nomeado como "1.json", lembrando que é necessário o ../../ para armazená-los na raiz do projeto.
Para pegar todas as categorias de uma vez e deixa-los na forma ideal para o script de organização, rode o shell script:
chmod +x crawl.sh
./crawl.sh
Isso irá criar arquivos ".json" na base do projeto, numerados de 1 a 9. Para organizá-los há outros 2 scripts: organizar.py
e sem_menus.py
organizar.py: Alguns menus interativos para selecionar categoria, forma de ordenação, etc.
python3 organizar.py
sem_menus.py: Requer alterações no código para utilizar redirecionamento de saída.
python3 sem_menus.py > saida.txt