/intro-eda

[Mentoria] Code and instructions for EDA studies

Introdução a EDA - Análise Exploratória de Dados

Esse repositório contém um estudo de caso para prática de Análise Exploratória de Dados (EDA). Abaixo estará a descrição do estudo, bem como instruções de como desenvolvê-lo.

Myhome.com chega a São Paulo

Você trabalha como Data Scientist para uma empresa estrangeira do ramo imobiliário chamada myhome.com. O produto principal da empresa é uma plataforma de compra e venda de imóveis com curadoria automatizada por Machine Learning que se adapta ao que tanto os vendedores quanto compradores procuram. A empresa é focada em imóveis para fins residenciais e o público em outros países gira em torno de pessoas que estão adquirindo o primeiro imóvel próprio.

A empresa está se preparando para entrar no mercado brasileiro, a começar pela cidade de São Paulo. A myhome.com ainda está entendendo o ambiente do mercado brasileiro e não tem especialistas no assunto quando se trata do Brasil ou da cidade de São Paulo.

O CEO da empresa mandou um e-mail ao time de Produto e Marketing local sobre as expectativas deste novo projeto:

"I would like to see a suggestion next on how to approach the supply acquisition in São Paulo. I know São Paulo is the largest city in Brazil, but we should approach this in a smart way."

Os times de Produto e Marketing estão trabalhando em conjunto para desenvolver a estratégia relacionada com a expansão da empresa para a cidade de São Paulo. Para isso, solicitaram ao time de Data Science informações sobre o mercado de compra e venda de imóveis em São Paulo.

"Olá time de DS. Em virtude da nova estratégia de aquisição de supply em São Paulo, gostaríamos de entender melhor o cenário do mercado na cidade. Qual o perfil dos imóveis disponíveis para venda? Onde seria o lugar ideal para começar a prospectar clientes? Poderiam nos ajudar com essas questões?"

O time de Engenharia de Dados disponibilizou um conjunto de dados no Data Lake da empresa que contém um dump de listings do mercado imobiliário de São Paulo proveniente de várias fontes. Esse dataset pode ser baixado neste link.

Você vai atuar nessas questões para ajudar o times em questão a tomarem decisões coerentes para essa fase da myhome.com.

Abaixo seguem algumas dicas e instruções de como abordar esse problema.

Instruções

  1. Antes de começar o projeto, tente entender os detalhes necessários para seguir com ele com o time de negócio. É importante clarificar quaisquer hipóteses a serem validadas que já existam ou termos e objetivos que não ficaram claros;
  2. Pesquise sobre o contexto em que o projeto está inserido, bem como o jargão envolvido. Acredite, vai poupar muito tempo;
  3. Utilize métodos de processamento de dados apropriados para o contexto do projeto e o cenário descrito. Qual é a melhor forma de salvar os dados pré-processados? Onde ele poderia ser armazenado? Como lidar com o dataset raw?
  4. Se oriente pela estrutura do projeto do repositório mas não se limite a ela, existem várias formas de abordar o mesmo problema;
  5. Pense em quais seriam os entregáveis do projeto. Você não vai mandar um Jupyter Notebook para a equipe de negócio, certo? Escolha um método apropriado para entregar seus resultados;
  6. Trabalhe a documentação do projeto. Jupyter Notebooks devem ter texto explicativo além de comentários no código. Também é importante organizar o conteúdo para que fique fácil de entender e acompanhar. Você não trabalha no vácuo, pense que seus colegas de trabalho também precisam entender seu código;
  7. Faça sempre "checkpoints" no seu repositório a medida que avança ou melhora o entendimento do assunto. Isso facilita a correção de possíveis erros no futuro e facilita o entendimento do contexto;

Observações

  • As pessoas, empresas e outras entidades mencionadas nesse estudo de caso são inteiramente fictícias. Qualquer referência ou menção a realidade é apenas uma coincidência.
  • Agradeço ao Grupo Zap por providenciar o dataset utilizado durante este estudo.