Airbnb - Segmentação dos principais assuntos das reviews utilizando Latent Dirichlet Allocation (LDA)
-
Análise exploratória dos dados
-
Tratamento dos dados para uso na modelo LDA
-
Utilização de GridSearchCV para encontrar melhor modelo LDA
-
Avaliação do modelo utilizando Probabilidade logarítmica e Perplexidade
-
WordCloud
O dataset é composto por reviews do site Airbnb, para apartamentos localizados no Rio de Janeiro.
Inside Airbnb: http://insideairbnb.com/get-the-data.html
Neste estudo, a foi utilizada a técnica não supervisionada de modelagem de tópicos Latent Dirichlet Allocation (LDA), para a segmentação dos principais assuntos das reviews.
Notebook 1 - Limpeza e pré processamento do texto das reviews
- Utilização de 30% do dataset para a construção do modelo
- Remoção de missing values e caracteres especiais
- Remoção de caracteres de quebra de linha
- Todas as reviews foram padronizadas (traduzidas) na língua inglesa
- Tokenização
- Remoção de stop words
- Lemetização
- Stemming
Notebook 2 - Latent Dirichlet Allocation (LDA) e WordCloud
- Vetorização das palavras das reviews
- Utilização de GridSearchCV para encontrar melhor modelo LDA
- Utilização do modelo LDA com maior probabilidade logarítmica e menor perplexidade
- Visualização dos tópicos (assuntos) via pyLDAvis
- WordCloud
O modelo gerou 3 tópicos:
Tópico 1 - Impressões gerais sobre a acomodação, como localização, limpeza, conforto, espaço.
Tópico 2 - Impressões gerais sobre a estadia, como hospitalidade e ajuda do anfitrião.
Tópico 3 - Instalações da acomodação, como quarto, sala, banheiro, cama, etc.
O modelo precisa ser melhorado ou substituído por outra abordagem, pois analisando a WordCloud, encontramos muitas palavras que aparecem em mais de um dos tópicos.
Melhorias e testes podem ser feitos nesse modelo, tais como:
- Utilização de todo o dataset
- Utilização de ngrams
- Utilização de TF-IDF
- Utilização da biblioteca Gensim para o modelo LDA
Próximos passos:
- Rotular o dataset utilizando os tópicos para entrada em um modelo de classificação (supervisionado).
- Utilizar similaridade para a identificação dos tópicos de novas reviews.