/desafio-ASA

Minha resolução do desafio entregue ao final do treinamento "Analytics Skills Accelerator", conferido pela empresa ArcelorMittal

Primary LanguageJupyter NotebookApache License 2.0Apache-2.0

Desafio ASA

Fui reconhecida com uma bolsa de estudos para pós-graduação em Data Science e Analytics na USP/Esalq por meu desempenho na resolução deste desafio entregue ao final do treinamento "Analytics Skills Accelerator", conferido pela empresa ArcelorMittal.

Cenário

A ArcelorMittal está procurando formas de melhorar sua identificação de defeitos nas placas de aço. As placas são produzidas no linbgotamento contínuo, após um processo de várias etapas que começa nos altos-fornos. Por causa da complexidade do processo, diversos defeitos podem ocorrer nas placas produzidas. O especialista gerou um conjunto de dados contendo dois defeitos que ele gostaria de saber com maior exatidão. Todos os dados foram obtidos a partir de sensores automatizados ou imagens de câmeras que identificam dimensões e características da placa e do defeito.

Tarefa

Encontrar insights a partir dos dados e auxiliar o time de qualidade da ArcelorMittal a identificar se o defeito encontrado na placa é do tipo 0 ou do tipo 1. Além disso, deve apresentar suas descobertas para o responsável técnico da área.

Sugestão de passos:

  • Realizar a carga dos dados e analisar os tipos e características das colunas;

  • Realizar a análise exploratória para comunicar as informações relevantes encontradas sobre os dados (utilize textos e gráficos);

  • Aplicar métodos de detecção de outliers;

  • Caso seja necessário para o tipo de modelo escolhido, realizar o pré-processamento, contendo tratamento de nulos, encoding e normalização;

  • Realizar o treino do modelo utilizando validação cruzada (cross validation), justificando a escolha do modelo utilizado;

  • Calcular todas métricas de desempenho estudadas. Utilizar o F1 como métrica principal.

  • Responder às perguntas propostas;

  • Anotar todas as suas descobertas e análises que podem contribuir para melhorar o desempenho do modelo e do processo de tomada de decisão.

Observações

  • Os dados são fictícios por questões de confidencilidade, mas refletem perfeitamente no dia-a-dia da empresa.
  • Foi disponibilizado o período de uma semana para realização desse desafio.
  • O código desenvolvido por mim está inteiramente contido no arquivo "desafio_luiza.ipynb"
  • Apresentei a minha solução presencialmente para o time do Centro de Ciência de Dados (CCD) no dia 23 de novembro de 2023, onde fui reconhecida com a bolsa.