DiegoKoz/presentes

Estandarizar edades

Closed this issue · 5 comments

Estoy viendo que el campo de edad_al_momento_del_hecho es un texto que tiene diversas unidades.

library(data.table)
library(magrittr)
presentes::victimas_accionar_represivo_ilegal %>% 
  as.data.table() %>% 
  .[, unidad := gsub("\\d", "", edad_al_momento_del_hecho)] %>% 
  .[, .N, by = unidad]
#>          unidad    N
#> 1:         años 8570
#> 2:    sin datos   77
#> 3:          año   17
#> 4:        meses   35
#> 5:      (caut.)   47
#> 6:          mes    2
#> 7:         días    3
#> 8:          día    1
#> 9:  días aprox.    1

Creo que estaría bueno estandarizar todo a una unidad común y que sea una columna numérica para facilitar análisis por edad. Propondría poner todo en años y que los casos que son meses o días queden como fracciones. Los que no tienen datos, que sean NAs. No estoy seguro qué habría que hacer con los que nacieron en cautiverio.

Se puede crear una columna edad_al_momento_del_hecho_años con esa información procesada para no perder el original.

Si, estaría genial estandarizarlo. No pondría años, con ñ en el nombre de la columna lo único. Tal vez un edad_al_momento_del_hecho_numerico

Tal vez se puede poner como una variable de lubridate, como un span de tiempo, aunque quizás números con decimales es más fácil de usar

¿Y los nacimientos cómo hacemos?
A mí me tienta separarlos de alguna manera. Secuestros por un lado y nacimientos por otro, pero creo que es un cambio demasiado drástico, ¿no?

Mmm. Se podría agegar una columna nacimiento_en_cautiverio que sea booleana y en edad poner 0? o sólamente poner 0 en edad y documentar que eso significa que es un nacimiento

Sí, creo que esa última opción podría servir.

gracias @eliocamp
mergeamos el PR #2