[Data Quality] Doublon dans dynamic clean
Closed this issue · 1 comments
armgilles commented
On a des doublons dans le fichier dynamic clean (même ligne présente plusieurs fois pour un même id_patient
/ time
)
How to :
import pandas as pd
from transplant.data.dataset import Dataset
from transplant.config import *
dyna = pd.read_csv(PATH_DYNAMIC_CLEAN, parse_dates=['time'])
grp = dyna.groupby(['id_patient', 'time'], as_index=False)['B.I.S'].count()
grp[grp['B.I.S']>1].shape # (9669, 3)
dyna[(dyna.id_patient == 36) & (dyna.time == "2012-07-18 10:40:00")].head()
# screen
Il faut sans doute faire un drop_duplicates
dans les ajouts qu'on a fait samedi @martindaniel4
martindaniel4 commented
Good catch. Apres check ca arrive des les données sources 😫. Je vais ajouter un check dans le script build_clean
.