Normalizar e Escalar os valores de um novo dataset
SteffanoP opened this issue · 2 comments
Descrição
Ao gerar novos datasets, tomamos como base a criação de valores randomizados que seguem diversos padrões que já foram aderidos pelo framework, até o momento padrões de geração do sci-kit learn, todavia esses valores por muitas vezes não condizem exatamente com os valores de datasets reais.
Tome de fato o dataset iris
, para este dataset temos 4 informações válidas para a classicação, que são o Sepal.Length
, Sepal.Width
, Petal.Length
e Petal.Width
. Para tal, faremos um sumário de cada atributo, vejamos:
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
Observe que os valores obedecem o seguinte padrão de normalização do dataset e para tal, se queremos gerar um dataset sintético semelhante ao real, devemos observar a normalização dos valores de cada instância.
Objetivos
- Gerar instâncias que obedeçam o valores de mínimo e máximo do dataset original;
- Continuar Garantindo o RandomState para cada atributo;
- Observar a eficiência da normalização;
- Garantir a normalização e concordância do dataset sintético.
Referências
Referência importante: https://stackoverflow.com/questions/26414913/normalize-columns-of-pandas-data-frame