/cognitivo-airbnb

Repositório para entrega do teste técnico - Cognitivo.ai

Primary LanguageJupyter Notebook

cognitivo-airbnb

Repositório para entrega do teste técnico - Cognitivo.ai

Respostas

a. Como foi a definição da sua estratégia de modelagem?

Segui as seguintes etapas:

  1. Análise Exploratória de Dados

    • Valores Ausentes
    • Distribuição/Tipo das Variáveis
    • Análise de outliers
    • Correlações
  2. Pré-processamento

    • Remoção de Outliers
    • Seleção de Atributos
    • Transformação de Atributos
  3. Divisão Treino/Teste

  4. Ajuste de Hiperparâmetros

    • Validação Cruzada
  5. Treinamento e Validação do Modelo de Regressão

Comparei a performance de 3 modelos distintos:

  • Regressão linear com expansão de base polinomial e regularização ridge
  • Árvore de Decisão
  • Multilayer Perceptron

b. Como foi definida a função de custo utilizada?

A função de custo da regressão linear é a função de mínimos quadrados lineares (LLS).

Para a árvore de decisão, foi utilizado a função do Erro Quadrático Médio (MSE).

Para a MLP, foi experimentado a função de custo MSLE. A MSLE não penaliza tanto a presença de outliers quanto a MSE.

c. Qual foi o critério utilizado na seleção do modelo final?

Dentre os 3 modelos testados, quis englobar modelos que:

  • Fossem capazes de capturar efeitos não-lineares
  • Tivessem princípios de funcionamento não-correlacionados
  • Fossem robustos a atributos irrelevantes

d. Qual foi o critério utilizado para validação do modelo? Por que escolheu utilizar este método?

O modelo foi avaliado em termos do MSE e também pelo MAE calculado no conjunto de testes.

Escolhi o MAE por apresentar as mesmas unidades da variável alvo (Reais). Desta maneira, o resultado do erro é mais facilmente interpretável.

No caso da MLP, o modelo também foi avaliado com base no histórico de treinamento: Training loss vs Validation loss, para avaliar under/overfitting.

e. Quais evidências você possui de que seu modelo é suficientemente bom?

O MAE nos dá uma boa indicação da performance do modelo. Os 3 modelos se equipararam, indicando que não há um erro de modelagem muito grande em qualquer um deles. No caso da MLP, foi avaliado o histórico de treinamento para verificação de overfitting. O erro apresentado muito provavelmente se dá a efeitos não capturados pelas variáveis de entrada.

Como expansão desta análise, poderíamos voltar à etapa de exploração para tentarmos extrair mais informação dos dados extraídos, e procurar mais fontes de dados para possivelmente enriquecer nossas variáveis de entrada.