Este é um projeto de web scraping do site www.telelistas.net. A pasta "tabelas" contém os resultados gerados a partir do código. A tabela 'mercados' é somente uma demonstração contendo algumas linhas para um único setor escolhido como exemplo.
O projeto se divide em duas partes a serem explicadas a seguir:
- O arquivo 'por_setor' coleta os as palavras-chave expostas em https://www.telelistas.net/rj/rio+de+janeiro. Para cada instância o código coleta também o numero de páginas a serem raspadas, e uma estimativa de lojas do setor.
- O arquivo 'bd--mongo' coleta diversas informações de cada loja. As palavras-chave são incialmente coletadas do arquivo 'setores.xlsx' gerado por 'por_setor', contudo os termos podem ser alterados conforme necessidade. Ajustes também podem ser feitos nolooping principal para se coletar menos linhas. Os dados também são salvos em um banco Mongo com a senha omitida.
This is a web scraping project from the website www.telelistas.net. You can find the results obtained in the folder "tabelas". The excel file 'mercados' is incomplete, having just some lines for one sector working as an example.
This project can be divided in two parts:
- The 'por_setor' file collects the keywords displayed on https://www.telelistas.net/rj/rio+de+janeiro. For each line is also collected the number of pages to be scraped and the estimate number of stores per sector.
- The 'bd--mongo' file collects different data for each store. First, the keywors are collected from the 'setores.xlsx' file which is generated by 'por_setor'. However, the terms can be changed if needed. Adjustments can also be done in the main loop in order to collect fewer lines. The data is also saved in a Mongo database with its password being omitted here.