dataforgoodfr/batch_5_transplant

[Data Quality] Doublon dans dynamic clean

Closed this issue · 1 comments

On a des doublons dans le fichier dynamic clean (même ligne présente plusieurs fois pour un même id_patient / time)

How to :

import pandas as pd
from transplant.data.dataset import Dataset
from transplant.config import *

dyna = pd.read_csv(PATH_DYNAMIC_CLEAN, parse_dates=['time'])

grp = dyna.groupby(['id_patient', 'time'], as_index=False)['B.I.S'].count()
grp[grp['B.I.S']>1].shape # (9669, 3)

dyna[(dyna.id_patient == 36) & (dyna.time == "2012-07-18 10:40:00")].head() 
# screen

image

Il faut sans doute faire un drop_duplicates dans les ajouts qu'on a fait samedi @martindaniel4

Good catch. Apres check ca arrive des les données sources 😫. Je vais ajouter un check dans le script build_clean.