/DadosProuni

Projeto com conjunto de datasets referente as bolsas concedidas e perfil dos beneficiários do Programa Universidade para Todos

Primary LanguageJupyter Notebook

Navageção

  1. Sobre o projeto
  2. Sobre o tema
  3. Tecnologias utilizadas
    3.1 Bibliotecas
  4. Conhecendo os dados
    3.1 Esquema original
    3.2 Modelagem de dados
  5. Data Visualization
    4.1 Relatório de Análise de Dados em PDF
    4.2 Relatório de Análise de Dados no Power BI
  6. Publlicações

Sobre o projeto

Os datasets tratados e analisados neste projeto são referentes às bolsas concedidas e o perfil dos beneficiários do Programa Universidade para Todos entre os anos de 2005 e 2020. Os dezesseis arquivos em formato .csv podem ser encontrados no Portal de Dados Abertos do governo federal.

Neste repositório é possível encontrar o código utilizado no processo de ETL e na construção de um cubo tabular OLAP utilizando o SSAS (SQL Server Analysis Services); um relatório em formato PDF com gráficos das informações obtidas do Data Warehouse, e algumas imagens de um relatório desenvolvido no PowerBI utilizando como fonte o cubo OLAP.  

Sobre o tema

O Programa Universidade para Todos - Prouni tem como finalidade a concessão de bolsas de estudo integrais e parciais em cursos de graduação e sequenciais de formação específica, em instituições de ensino superior privadas que oferece, em contrapartida, isenção de tributos àquelas instituições que aderem ao Programa.

Dirigido aos estudantes egressos do ensino médio da rede pública ou da rede particular na condição de bolsistas integrais, com renda familiar per capita máxima de três salários mínimos, o Prouni conta com um sistema de seleção informatizado e impessoal, que confere transparência e segurança ao processo. Os candidatos são selecionados pelas notas obtidas no Exame Nacional do Ensino Médio - Enem conjugando-se, desse modo, inclusão à qualidade e mérito dos estudantes com melhores desempenhos acadêmicos.

Tecnologias utilizadas

Jupyter Notebook Python MicrosoftSQLServer Power Bi

Bibliotecas

Pandas NumPy SqlAlchemy

Glob Unidecode Datetime

Conhecendo os dados

Esquema original

Nome Campo Tipo Descrição
Ano da concessão da bolsa ANO_CONCESSAO_BOLSA Numérico Ano da concessão da bolsa ProUni (início da vigência).
Código do e-MEC da IES que concedeu a bolsa CODIGO_EMEC_IES_BOLSA Numérico Código do e-MEC referente a IES que concedeu a bolsa ProUni.
Nome da IES NOME_IES_BOLSA Alfanumérico Nome/Razão Social da Instituição de Ensino Superior que concedeu a bolsa ProUni.
Tipo da Bolsa TIPO_BOLSA Alfanumérico Descrição do tipo da bolsa concedida ao beneficiário do ProUni (integral – 100% ou parcial – 50%).
Modalidade de ensino MODALIDADE_ENSINO_BOLSA Alfanumérico Descrição da modalidade de ensino da bolsa concedida ao beneficiário do ProUni (presencial ou ensino à distância – EAD).
Nome do Curso NOME_CURSO_BOLSA Alfanumérico Nome do curso do beneficiário da bolsa ProUni.
Turno do Curso NOME_TURNO_CURSO_BOLSA Alfanumérico Descrição do turno do curso do beneficiário da bolsa ProUni.
CPF do beneficiário CPF_BENEFICIARIO_BOLSA Alfanumérico CPF do beneficiário da bolsa ProUni*
Sexo do beneficiário SEXO_BENEFICIARIO_BOLSA Alfanumérico Sexo informado pelo beneficiário da bolsa ProUni.
Raça/Cor RACA_BENEFICIARIO_BOLSA Alfanumérico Raça/Cor informado pelo beneficiário da bolsa ProUni.
Data de nascimento do beneficiário DT_NASCIMENTO_BENEFICIARIO Data Data de nascimento do beneficiário da bolsa ProUni.
Indicação se o beneficiário é portador de deficiência BENEFICIARIO_DEFICIENTE_FISICO Alfanumérico Indicação se o beneficiário da bolsa ProUni é portador de algum tipo de deficiência (sim ou não).
Região REGIAO_BENEFICIARIO_BOLSA Alfanumérico Nome da região de residência do beneficiário da bolsa ProUni.
UF SIGLA_UF_BENEFICIARIO_BOLSA Alfanumérico Sigla da UF de residência do beneficiário da bolsa ProUni.
Município MUNICIPIO_BENEFICIARIO_BOLSA Alfanumérico Nome do Município de residência do beneficiário da bolsa ProUni.

(*) Casos permissivos de sobreposição de bolsas:

  • bolsas suspensas com posterior renovação em período/ano diferentes;
  • bolsas canceladas com nova concessão posterior em período/ano diferentes.

Modelagem de dados

Os dados tratados foram formatados para um banco de dados SQL com a seguinte modelagem:

Data Visualization

Relatório de Análise de Dados em PDF

 

Esse relatório completo está disponível no arquivo Relatório de Análise de Dados.

Relatório de Análise de Dados no Power BI

 

O arquivo desse relatório não está disponível online, bem como sua base de dados.

Publicações

Um artigo discorrendo um pouco do processo de ETL foi escrito e publicado no Linkedin: Projeto Dados Prouni: processo de ETL para o SQL Server utilizando Python.

As demais postagens referentes ao projeto podem ser encontradas no meu perfil no Linkedin.