Desenvolvimento de ferramentas para construção e manutenção de coletores de páginas da Web. O sistema é capaz de coletar:
- Páginas estáticas
- Páginas dinâmicas ou onde é necessário interagir com formulários.
- Arquivos
- Conjunto de arquivos
Os coletores são desenvolvidos em Scrapy em conjunto com Playwright para o caso de páginas dinâmicas. Dentre as funcionalidades disponíveis para os coletores, pode-se se citar, por exemplo:
- Mecanismos para camuflagem dos coletores, como rotação de endereço de IP e gerenciamento de cookies.
- Ferramentas para gerar endereços automaticamente através de templates
- Os coletores também podem ser gerenciados através de uma API RESTful.
Para que seja possível utilizar o sistema, e consequentemente configurar e executar coletores, é necessário inicialmente instalar a aplicação. Essa página se refere a essa etapa inicial. Preferencialmente, a instalação deve ser feita nativamente em sistemas baseados em Linux, contudo, através do Docker, é possível instalar o sistema em outros SO, como Windows.
Antes de tudo, assegure-se de que o Docker está devidamente instalado no seu computador. Caso precise de instruções de como fazer isso, o seguinte link pode auxiliar nesse processo: https://docs.docker.com/get-docker/
A primeira etapa para poder instalar o sistema é realizar o donwload de seu código-fonte. Para isso, utilize as ferramentas do GitHub para baixar o repositório localmente.
Para instalar pela primeira vez todos os programas e suas dependências execute o script clean_install.py.
python clean_install.py
Esse script deve ser executado a partir da raiz do repositório.
Após o primeiro clone e instalação, se deseja instalar as modificações no sistema (incluidas em novos commits), deve realizar uma atualização do branch local, através de comandos git, e em seguida, executar:
python install.py
Para execução da interface basta executar o seguinte comando:
python run.py
E em seguida acessar http://localhost:8000/
Ao final da execução, deve-se desligar o sistema através do comando:
python stop.py
Por fim, para acessar os documentos coletados, ao configurar coletores com o seguinte caminho "nome_coletor", os dados estarão sendo salvos na verdade no seguinte diretório da máquina: "caminho_da_raiz_repositório>/data/nome_coletor".