Projeto de Machine Learning para identificação de futuros players que cancelarão sua assinatua na Gamers Club.
Todo desenvolvimento deste projeto será realizado durante as lives (twitch.tv/teomewhy), utilizando o Databricks, plataforma Big Data amplamente utilizada no mercado de trabalho.
Uma das fontes de receita da GC são as assinaturas de seus players. Com isso, quando há crescimento de churn (cancelamento), é um sinal de que a receita terá queda. Assim, ao identificar os possíveis players que deixarão de assinar, temos oportunidade de retê-los, podendo realizar promoções e adição de benefícios, bem como comunicação de quais funcionalidades ele pode passar a utilizar.
Utilizaremos os dados fornecidos pela própria Gamers Club. Você pode baixar estes dados no Kaggle: Brazilian CS:GO Platform Dataset by Gamers Club.
Para os assinantes do canal da Twitch, os dados estarão disponíveis no Datalake.
Nossas lives acontecem todas Terças e Quintas as 9:00AM, seguindo o seguinte calendário:
Encontro | Data | Tema | Link |
---|---|---|---|
1 | 12-07-22 | Introdução e definição do problema | 🔗 |
2 | 14-07-22 | Definição das Features Store | 🔗 |
3 | 19-07-22 | Variável resposta e ABT | 🔗 |
4 | 21-07-22 | SEMMA | 🔗 |
5 | 26-07-22 | Modelo final | 🔗 |
6 | 28-07-22 | Deploy | 🔗 |
Aqui vamos definir qual é a problemática que vamos atuar. Dando um boa introdução de como funciona a Gamers Club e seus assinaturas. Desta forma o pessoal consegue entender melhor quais serão as oportunidades envolvidas.
Ideias de características para explicar o Churn de Assinaturas:
-
Frequência
- Quantidade de dias
- Quantidade de partidas
- Dia da semana que joga
-
Recencia
-
Performance durante o jobo
-
Winrate
-
HSrate
-
ADR
-
KDR
-
etc
-
Level
-
Medalhas na lojinha
-
Histórico de assinaturas
- Quantidade
- Tipo de planos
- Plano atual
- Tempo de plano
-
Idade
-
Tempo de casa
-
Amigos
A partir dos dados, podemos identificar quais variáveis (atributos) podem fazer mais sentido para este estudo. A ideia é ao final deste encontro tenhamos as principais features preditoras do churn, em formato de Feature Store.
Uma das etapas mais complicadas no processo de modelagem é a definição e construção da variável resposta, i.e., a variável (evento) que desejamos prever. Neste encontro teremos não só esta definição, mas sua construção e a tabela para o treinamento do nosso algoritmo.
Ao organizarmos nosso mapa mental sobre o ciclo analítico, as coisas ficam mais fáceis de serem codificadas, isto é, tendo claro quais são os passos necessários a serem seguidos, podemos escrever um código mais limpo e claro. Para ajudar neste entendimento, vamos apresentar o conceito do SEMMA, desenvolvido pelo SAS Institute.
Após ter treinado diversos algoritmos e testado diferentes métricas de performance, vamos decidir qual é o melhor algoritmo para explicar o evento de Churn de assinaturas na GC.
Para gerr valor a partir dos dados, é necessário que outros usuários e sistemas possam consumir as informações geradas pelo modelo. Então buscamos realizar o deploy deste algoritmo em forma de Batch e/ou Real Time, seja usando agendadores ou APIs.
Todas lives são abertas ao público em formato gratuito. Ao apoiar nossa iniciativa de ensino, você ganha alguns benefícios:
- Acesso às gravações das lives
- Acesso ao Databricks e aos dados
- Dobro de pontos para resgate de prêmios ao assistir lives