SteffanoP/cbdgen

Normalizar e Escalar os valores de um novo dataset

SteffanoP opened this issue · 2 comments

Descrição

Ao gerar novos datasets, tomamos como base a criação de valores randomizados que seguem diversos padrões que já foram aderidos pelo framework, até o momento padrões de geração do sci-kit learn, todavia esses valores por muitas vezes não condizem exatamente com os valores de datasets reais.

Tome de fato o dataset iris, para este dataset temos 4 informações válidas para a classicação, que são o Sepal.Length, Sepal.Width, Petal.Length e Petal.Width. Para tal, faremos um sumário de cada atributo, vejamos:

##   Sepal.Length     Sepal.Width    Petal.Length     Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  

Observe que os valores obedecem o seguinte padrão de normalização do dataset e para tal, se queremos gerar um dataset sintético semelhante ao real, devemos observar a normalização dos valores de cada instância.

Objetivos

  • Gerar instâncias que obedeçam o valores de mínimo e máximo do dataset original;
  • Continuar Garantindo o RandomState para cada atributo;
  • Observar a eficiência da normalização;
  • Garantir a normalização e concordância do dataset sintético.

Referências