/Projects

Notebooks com estudos e projetos

Primary LanguageJupyter Notebook

1 - Análise de dados - Venda de Jogos 🎮

Este repositório contém uma análise exploratória de dados do dataset presente no kaggle chamado 'videogamesales'.

Foi usado em sua maioria a biblioteca pandas para fazer a manipulação dos dados e responder algumas perguntas relacionadas à localização, tipo e quantidade de jogos vendidos.

Foram plotados alguns gráficos básicos com a biblioteca Matplotlib. Projeto: https://github.com/silasmaverick/Projects/blob/master/1_games_dataset.ipynb

2 - Criação de Banco de Dados na nuvem + Query - billboard 🎧

Análise de dados simples e execução de queries SQL com carregamento de tabelas para Nuvem Heroku usando script Python, Dbeaver e banco de dado Postgres. O arquivo inclui prints e descrição detalhada do que foi trabalhado. Uma pequena View foi carregada para um dashboard na ferramenta de BI Metabase com um link público para demonstração.

Projeto: https://github.com/silasmaverick/Projects/blob/master/2_billboard.ipynb

3 - Scripts CRUD - Create, Read, Update, Delete com script Python + Banco de dados em Localhost e nuvem

Criação de scripts para manipulação de banco de dados SQL (MariaDB) e NoSQL (MongoDB). Foi simulado uma pequena aplicação de cadastro de produtos onde é possivel Listar, Inserir, Deletar e Atualizar determinado item sem a necessidade de abrir um gerenciador gráfico de BD. Para execução é necessário ter instalado um banco de dados SQL ou MariaDb para executar o script para SQL. Já o de Mongo, é necessário uma instalação local do MongoDB ou o uso da MongoCloud. No meu caso, realizei a criação de um ambiente no MongoCloud.

Projeto: https://github.com/silasmaverick/Projects/tree/master/3_crud_projects

4 - Engenharia de dados no hadoop com dados da covid-19

A partir de um csv público disponível em https://covid.saude.gov.br/, tentei recriar algumas tabelas e fazer operações em um cluster hadoop local. O projeto ainda prevê outros pepilines dos dados e automação do fluxo(em construção). Acesse o projeto: https://github.com/silasmaverick/Projects/tree/master/Covid_Engenharia

5 - Pipeline de dados com carga ELT utilizando uma arquitetura AWS (Kinesis, S3, Redshift, Glue) com modelagem básica no DBT

Projeto consiste em usar um script python para gerar eventos de navegação web. Esses eventos foram consumidos pelo kinesis para um bucket no S3, em seguida carregados para o Redshift onde passaram por um tratamento de limpeza e modelagem básica de regra de negócio para enfim serem disponibilizados para eventuais ferramentas de BI ou analistas.

Projeto: https://github.com/silasmaverick/Projects/tree/master/5_events_site