Estandarizar edades
Closed this issue · 5 comments
Estoy viendo que el campo de edad_al_momento_del_hecho
es un texto que tiene diversas unidades.
library(data.table)
library(magrittr)
presentes::victimas_accionar_represivo_ilegal %>%
as.data.table() %>%
.[, unidad := gsub("\\d", "", edad_al_momento_del_hecho)] %>%
.[, .N, by = unidad]
#> unidad N
#> 1: años 8570
#> 2: sin datos 77
#> 3: año 17
#> 4: meses 35
#> 5: (caut.) 47
#> 6: mes 2
#> 7: días 3
#> 8: día 1
#> 9: días aprox. 1
Creo que estaría bueno estandarizar todo a una unidad común y que sea una columna numérica para facilitar análisis por edad. Propondría poner todo en años y que los casos que son meses o días queden como fracciones. Los que no tienen datos, que sean NA
s. No estoy seguro qué habría que hacer con los que nacieron en cautiverio.
Se puede crear una columna edad_al_momento_del_hecho_años
con esa información procesada para no perder el original.
Si, estaría genial estandarizarlo. No pondría años, con ñ en el nombre de la columna lo único. Tal vez un edad_al_momento_del_hecho_numerico
Tal vez se puede poner como una variable de lubridate, como un span de tiempo, aunque quizás números con decimales es más fácil de usar
¿Y los nacimientos cómo hacemos?
A mí me tienta separarlos de alguna manera. Secuestros por un lado y nacimientos por otro, pero creo que es un cambio demasiado drástico, ¿no?
Mmm. Se podría agegar una columna nacimiento_en_cautiverio que sea booleana y en edad poner 0? o sólamente poner 0 en edad y documentar que eso significa que es un nacimiento
Sí, creo que esa última opción podría servir.