Esse é um repositório em Julia com análise exploratória (EDA) em cima da base pública de CNPJs (QSA - que inclui além dos dados de empresa, também os CNAEs e o quadro societário delas) que a RFB disponibiliza. Para entender o layout da base disponibilizada, consulte a documentação disponível no site da RFB.
A análise é vagamente inspirada em outras análises disponíveis em R, como esta.
Para baixar a base completa do QSA, você pode utilizar o excelente Brasil.io, um portal de dados públicos ("libertos") brasileiros. A base do QSA em CSV neste site está aqui.
Atenção: a base QSA em CSV é muito grande (cerca de 2.4 GB para a parte de empresas, 0,4 GB para a parte de sócios, 0,7 GB para a parte de CNAE) - tenha certeza que possui espaço disponível em seu HD e memória RAM suficiente para processá-la. Caso não tenha, é possível gerar uma base trimmada (enxugada, recortada com algum critério específico) usando pacotes como o qsacnpj
no R. Neste repositório o autor gentilmente disponibiliza também os arquivos estáticos base em formato SQLite - que na minha experiência é muito melhor para fazer consultas e agregações com menor necessidade de memória RAM, motivo pelo qual será esta a base que utilizaremos.
Como dito acima, a base que será utilizada nessa EDA é a base QSA em formato SQLite obtida a partir do repositório qsacnpj
. A base utilizada foi a de 04/07/2020, com tamanho aproximado de 5,3 GB comprimidos (19,1 GB descomprimidos) e 43,9 milhões de CNPJs. Para não deixar pesado o repositório, o arquivo estático não será incluído. O esquema relacional se encontra aqui
- DataFrames: para criar e manipular estruturas de data frames
- CSV: para importar arquivos CSV
- StatsBase: para realizar análises estatísticas básicas
- Queryverse: para manipulação de data frames usando um estilo
dplyr/tidyverse
- Gadfly: para plotar gráficos usando um estilo
ggplot
- Cairo: para salvar os plots gerados em formato PNG