/time-series-forecasting

Data Science challenge for Cesar Labs

Primary LanguageJupyter Notebook

Cesar Labs Data Science Challenge

Este trabalho foi desenvolvido por Marcos Wenneton Araújo como parte do processo seletivo para integrar o time do Cesar Labs como Cientista de Dados.

Os notebooks aqui apresentados foram desenvolvidos utilizando o Python 3.9.5 e as seguintes bibliotecas:

  • pandas
  • sklearn
  • lightgbm
  • matplotlib
  • seaborn
  • numpy
  • plotly

O conteúdo de cada notebook é apresentado a seguir:

  • dataset_exploration.ipynb: gráficos e informações relacionados à exploração do dataset. Distribuição de variáveis. Matriz de correlação. Quantidadade de dados faltantes.
  • model_creation.ipynb: Pré-processamento do conjunto de dados. Feature engineering. Feature selection. Partição dos dados. Pipeline para tratamento dos dados dispostos aos modelos. Técnicas de cross validation para busca de melhores hiperparâmetros. Treinamento e teste de modelos. Apresentação dos resultados obtidos. Próximos passos.

Fonte dos dados: Bias correction of numerical prediction model temperature forecast Data Set