Análise de dados - Airbnb
Os dados são referentes ao Estado do Rio de Janeiro e foram extraídos da página inside Airbnb. Essa análise terá o objetivo de realizar uma regressão para realizar a previsão do preço de uma noite da estadia.
-
Estratégia de Modelagem
Pela análise exploratória foram encontradas algumas inconsistências:
1. Alugueis com valor zerados que navegando pela página da Airbnb não foram encontrados esse valor, 2. Alugueis com valores muito altos e sem nenhum review.
Para contornar estes problemas foram realizados alguns filtros, então nesta análise, serão considerados estadias com pelo menos um review e que possua o valor de aluguel diário.
-
Função de Custo
O modelo Random Forest do pacote sklearn utiliza Mean Squared Error como função do erro padrão a ser minimizada. O interessante do MSE é que os grandes erros possuem pesos maiores por conta da elevação ao quadrado.
-
Seleção do Modelo Final
Para a seleção do modelo foi utilizado a Otimização Bayesiana para definição do melhor conjunto de hiperparâmetros.
-
Validação do Modelo
Para a validação modelo foi utilizada a validação cruazada com a base separada em 5 folds, foi observado o MSE médio para compreender a média dos erros(mesmo que fora de escala) e o desvião padrão para avaliar a estabilidade do modelo.
-
Evidências de um bom modelo
O modelo parece razoavel visto que mostra uma boa estabilidade nos erros.