Ao trabalhar com Inteligência Artificial, devemos nos preocupar não apenas com a arquitetura e algoritmo inteligente que será usado, mas também com os dados que irão alimentar o modelo.
Usualmente, os dados contém problemas que devem ser tratados, sejam eles tabulares ou não. A etapa de Pré-Processamento dos dados é onde realizamos algumas ações muito importantes, como:
- Limpeza de dados - dados inconsistentes ou faltantes são tratados;
- Transformação dos dados - normalização, codificação e formatação dos dados para o formato necessário;
- Feature selection - seleção dos atributos mais relevantes.
O notebook intro_preprocessing.ipynb apresenta de forma prática uma introdução dessas etapas de pré-processamento de dados.