O projeto faz parte do curso Engenheiro de Machine Learning
Neste projeto, irei analisar o conjunto de dados de montantes de despesas anuais de vários clientes (reportados em unidades monetárias), coletados de clientes de uma distribuidora atacadista em Lisboa, para identificar segmentos de clientes ocultos nos dados. Primeiro, irei explorar os dados selecionando um pequeno subconjunto como amostra e determinar se alguma das categorias de produtos está altamente correlacionada com outra. Depois, pré-processarei os dados, dimensionando cada categoria de produto e identificando (e removendo) valores aberrantes. De posse dos dados "limpos", aplicarei PCA a eles e implementarei os algoritmos de clustering para criar os segmentos. Por último, irei comparar a segmentação encontrada com uma marcação adicional, afim de dar ao distribuidor discernimento sobre como melhor estruturar seu serviço de entrega de acordo com as necessidades de cada cliente.
O conjunto de dados deste projeto pode ser encontrado no Repositório de Machine Learning da UCI. Para efeitos de projeto, os atributos 'Channel' e 'Region' serão excluídos da análise – que focará então nas seis categorias de produtos registrados para clientes.
Atributos
Fresh
: annual spending (m.u.) on fresh products (Continuous);Milk
: annual spending (m.u.) on milk products (Continuous);Grocery
: annual spending (m.u.) on grocery products (Continuous);Frozen
: annual spending (m.u.) on frozen products (Continuous);Detergents_Paper
: annual spending (m.u.) on detergents and paper products (Continuous);Delicatessen
: annual spending (m.u.) on and delicatessen products (Continuous);Channel
: {Hotel/Restaurant/Cafe - 1, Retail - 2} (Nominal)Region
: {Lisbon - 1, Oporto - 2, or Other - 3} (Nominal)
Este projeto requer Python 3.6 e as seguintes bibliotecas Python instaladas: