Crawler em formato de utilitário de linha de comando para extrair dados de forma mais rápida e simples.
Antes de tudo, de uma olhada no help:
python spider.py -h
Se você tiver o link de download de um CSV por exemplo, dentro do repositório Baby_Spider
, faça:
python spider.py --url "https://exemplo.com/arquivo.csv" -e csv
Se o arquivo for um JSON ou qualquer outro formato, substitua o valor do parametro -e
python spider.py --url "https://exemplo.com/arquivo.json" -e json
e se quiser criar um script importando esse arquivo, adicione o --r-script
para gerar automaticamente:
python spider.py --url "https://exemplo.com/arquivo.csv" -e csv --r-script
Caso você tem o link de um ZIP, faça o seguinte comando:
python spider.py --url "https://exemplo.com/pacote.zip" -z
Se quiser extrair todo o conteúdo desse pacote zip, adicione o parametro --zip-all
python spider.py --url "https://exemplo.com/pacote.zip" -z --zip-all
- Clone o projeto
git clone https://github.com/FelipeSantos-cco/Baby_Spider.git
- Entre no repositório que foi clonado
cd Baby_Spider
- Instale as dependencias do projeto
pip install -r requirements.txt