pcm-dpc/COVID-19

Nuovo dataset in anteprima

umbros opened this issue · 27 comments

Ciao,
abbiamo pubblicato le anteprime dei dataset che cambiano:
https://github.com/pcm-dpc/COVID-19/tree/master/anteprima-nuovi-dataset

Dataset allineati:
https://github.com/pcm-dpc/COVID-19/tree/master/anteprima-nuovi-dataset/dataset-allineati

dati province (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-province-sample.csv): le note non sono più identificate da codici (come avviene attualmente) ma saranno testuali (campo "note"). L'ordinamento è per "denominazione_regione" e "codice_provincia" (asc).
Oltre ai dati delle province, sono presenti due province placeholder per ogni regione: "Fuori Regione / Provincia Autonoma" (da codice_provincie 879 a 899) che indica i soggetti fuori Regione o Provincia Autonoma e "In fase di definizione" (da codice_provincie 979 a 999) che indica i soggetti ancora non allocati su una Provincia.

dati regioni (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-regioni-sample.csv): aggiunta dei campi "casi_da_sospetto_diagnostico" (casi positivi identificati dal sospetto diagnostico) e "casi_da_screening" (casi positivi che sono stati identificati attraverso attività di screening), le note non sono più identificate da codici (come avviene attualmente) ma saranno testuali (campo "note"). L'ordinamento è per "denominazione_regione" (asc).

dati andamento nazionale (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-andamento-nazionale-sample.csv): le note non sono più identificate da codici (come avviene attualmente) ma saranno testuali (campo "note"). L'ordinamento è per "data" (asc).

note (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-note-sample.csv): viene riportata la data e il testo delle note riguardanti i dati rilasciati da tutte le Regioni (nome file: dpc-covid19-ita-note). L'ordinamento è per "data" (asc).

Tutti i file prodotti saranno allineati al dataset e ordinamenti definiti.

I nuovi dataset saranno pubblicati da lunedì 29/06, verrà creata una cartella con i dataset vecchi (legacy) fino a venerdì 31/07 (directory "legacy").

Per suggerimenti e indicazioni dateci pure i vostri feedback.

Grazie


Hello,
we published the previews of the datasets that will change:
https://github.com/pcm-dpc/COVID-19/tree/master/anteprima-nuovi-dataset

Aligned datasets:
https://github.com/pcm-dpc/COVID-19/tree/master/anteprima-nuovi-dataset/dataset-allineati

** provinces data ** (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-province-sample.csv): the notes are not more identified by codes (as is currently the case) but they will be textual ("note" field). The sorting is by "denominazione_regione" and "codice_provincia" (asc). In addition to the data of the provinces, there are two placeholder provinces for each region: "Fuori Regione / Provincia Autonoma" (from provincial_code 879 to 899) which indicates subjects outside the Region or Autonomous Province and "In fase di definizione" (from provincial_code 979 to 999) which indicates the subjects not yet allocated to a province.

** region data ** (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-regioni-sample.csv): addition of the fields "casi_da_sospetto_diagnostico" (positive cases identified by the diagnostic suspect) and "casi_da_screening" (positive cases that have been identified through screening activities), the notes are no longer identified by codes (as is currently the case) but will be textual ("note" field). The sorting is by "denominazione_regione" (asc).

** national trend data ** (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita- Trend-national-national-sample.csv): notes are no longer identified by codes (as is currently the case) but will be textual ("note" field). The sorting is by "data" (asc).

** note ** (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-note-sample.csv): the date is reported and the text of the notes concerning the data issued by all the Regions (file name: dpc-covid19-ita-note). The sorting is by "data" (asc).

All files produced will be aligned to the defined dataset and sorts.

The new datasets will be published from Monday 29/06, a folder will be created with the old datasets (legacy) until Friday 31/07 ("legacy" directory).

For suggestions and indications, please give us your feedback.

Thank you

Grazie! Attendo qualcuno che sappia chiarire meglio il quesito posto in #746, ossia se casi_da_screening conteggi unicamente i casi asintomatici oppure anche altro

Grazie! Attendo qualcuno che sappia chiarire meglio il quesito posto in #746, ossia se casi_da_screening conteggi unicamente i casi asintomatici oppure anche altro

@Rabelaiss anche per dettagliare meglio il campo chiederò maggiori info a Ministero della Salute.

Grazie! Attendo qualcuno che sappia chiarire meglio il quesito posto in #746, ossia se casi_da_screening conteggi unicamente i casi asintomatici oppure anche altro

Non ricominciamo con l'equivoco del termine "asintomatici", che può riferirsi sia a casi di infezione acuta (e contagiosa) in assenza di sintomi (ricompresi evidentemente nel gruppo dei casi da sospetto diagnostico) che ai pazienti - normalmente asintomatici - che vengono dagli screening e dai sierologici.
Nella definizione del Ministero si legge che:
“i “casi identificati dal sospetto diagnostico” sono casi positivi al tampone emersi da attività clinica. I “casi identificati da attività di screening” emergono da indagini e test, pianificati a livello nazionale o regionale, che diagnosticano casi positivi al tampone.”
Non si fa cenno al termine asintomatico, giustamente, perché fuorviante, ma a criteri clinico/anamnestici e di provenienza dei tamponi, che mi paiono abbastanza chiari e complessivamente ben distinguibili.

@Paulsword grazie per la precisazione, sapresti dunque aiutarmi a capire la differenza tra il dato comunicato oggi dalla Lombardia "21 nuovi positivi a seguito di test seriologici" e il dato relativo alla Lombardia comunicato oggi dalla PC "33 casi da screening" ?

Premetto che la mia non è la voce ufficiale, quindi naturalmente aspettiamo ulteriori lumi dal Ministero.
La Lombardia è sempre difficile da decriptare. Da un lato dicono che i numeri a cui fare riferimento sono quelli di questo repository, da cui oggi si ricava 77=44+33. Loro dicono in più, ma non in necessaria incoerenza, che "32 sono debolmente positivi e 21 derivano da tamponi determinati da test sierologico". Attenzione, non 32+21, perchè i due sottogruppi in questo caso sono largamente sovrapposti. Siccome la definizione di debolmente positivo non è ancora codificata, io credo sia più corretto ora seguire il criterio clinico/anamnestico del Ministero. Verosimilmente nei 33 del Ministero sono inclusi entrambi i sottogruppi, ma non è dato saperlo.

@Paulsword grazie, si anch'io seguirò i dati della PC, noto però stranezze come i 213 casi da screening segnalati oggi dalla PC per il Piemonte, a fronte di soli 11 nuovi casi

Lo scorporo è appena partito. Immagino che per qualche giorno ci saranno ancora riclassificazioni del pregresso. Poi si sistemeranno.

Da giorni ho notato che nell'analisi provinciale è emersa la dicitura Fuori Regione/PA spesso con valore negativo.
Forse sono rimasto indietro ma potrei avere dei chiarimenti?Grazie

@MarCortese da 3 giorni i casi vengono assegnati a una certa provincia non più per ospedalizzazione ma per residenza/domicilio, es un napoletano ricoverato a salerno viene adesso contato tra i casi di napoli mentre prima tra i casi di salerno

penso quindi che la categoria fuori regione conteggi quei casi per cui la regione di ospedalizzazione non coincida con quella di residenza, e quindi sono i casi in attesa di essere ricollocati nella provincia di residenza

I dati legacy dovrebbero essere pubblicati per SEMPRE o almeno per svariati mesi, altrimenti si rischia di snaturare il senso della parola LEGACY (che qui parrebbe essere invece TEMPORANEAMENTE) e soprattutto del senso del OPEN DATA: ricordiamoci che da questa base dati dipende tutta una community di persone (anche a livello internazionale) . Personalmente mi trovo in difficoltà a nn poter manutenere per i prossimi 10gg l'applicazione perché sto in vacanza e la mia app, con questo cambio dati, di sicuro non funzionerà più.

@alexodus, premesso che le legacy sono di natura temporanee proprio per permettere un phasing out di funzionalità e/o dati, l'unica modifica che viene fatta è al campo note, per il resto è un'aggiunta di due valori. Posso aumentare il periodo di legacy ma comunque sul tuo applicativo dovrai comunque modificare il path dove saranno rilasciati i dati in legacy. Non è, ovviamente, nostro obiettivo interrompere servizi costruiti su questi dati, pertanto ok il tuo suggerimento, terremo attivo il periodo di legacy per 30 giorni. Grazie per il contributo.

I nuovi dataset saranno pubblicati da lunedì 29/06, verrà creata una cartella con i dataset vecchi (legacy) fino a venerdì 31/07 (directory "legacy")").

@umbros Nella scheda riepilogativa delle regioni la colonna CASI TOTALI compare due volte, non sarebbe meglio eliminare una delle due visto anche che è diventata molto larga la tabella?

Ciao @Rabelaiss, non vedo la colonna ripetuta

data,stato,codice_regione,denominazione_regione,lat,long,ricoverati_con_sintomi,terapia_intensiva,totale_ospedalizzati,isolamento_domiciliare,totale_positivi,variazione_totale_positivi,nuovi_positivi,dimessi_guariti,deceduti,casi_da_sospetto_diagnostico,casi_da_screening,totale_casi,tamponi,casi_testati,note,note_tamponi,note_casi_testati

@umbros scusa avrei dovuto precisare meglio, intendevo questa (e anche quelle precedenti fino al 25/6)
https://github.com/pcm-dpc/COVID-19/blob/master/schede-riepilogative/regioni/dpc-covid19-ita-scheda-regioni-20200628.pdf

Ah ok grazie della segnalazione, quella viene prodotta da ISS e MDS, segnalo la cosa.

Ciao umbros, in attesa di vedere i nuovi dataset province volevo fare notare che, a partire dal 25/6 u.s.,, oltre all'introduzione di un record aggiuntivo "fuori regione" è stato cambiato l'ordine di visalizzazione dei dati delle province, che non è più alfabetico.
Questa cosa può creare problemi se si usa banalmente un foglio elettrico per estrapolare o calcolare dati.
Questa cosa ha un perché oppure è casuale ?
Grazie.

Ciao @rtrunfio, nel processamento dei dati possiamo questi vengono ordinati per regione e codice provincia. Per una completa automazione del sistema un'ordinamento "fisso" è di difficile amministrazione (dovremmo scrivere riga per riga l'ordinamento), pertando sarà così. Capisco che chi usa un foglio elettronico ciò può causare problemi ma dovendo assicurare continuatività al servizio automatizzandolo non possiamo più tenere degli script "hardcoded" ma abbiamo dovuto dinamicizzare il più possibile, l'altro ordinamento è sull'ordinamento regioni fatto per "denominazione regione" (P.A. Bolzano e P.A. Trento sono ordinati in maniera alfabetica). Anche su fogli elettronici però possono essere create automazioni per valore "cella". Magari possiamo supportare nella cosa.

Ciao,
i dataset allineati, temporaneamente, sono in questa directory https://github.com/pcm-dpc/COVID-19/tree/master/anteprima-nuovi-dataset/dataset-allineati.
Alle 18 saranno spostati nelle directory corrette e tutti gli altri saranno spostati nella directory legacy.

@umbros Aprendo il file
https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dataset-allineati/dati-regioni/dpc-covid19-ita-regioni-20200626.csv
con un editor di testo, si nota che l'Emilia-Romagna occupa tre righe invece di 1, in particolare

  • la riga 6 contiene
    2020-06-26T17:00:00,ITA,08,Emilia-Romagna,44.49436681,11.3417208,109,12,121,923,1044,-24,46,23097,4252,27944,449,28393,478941,285701,"In seguito a verifica sono stati eliminati 4 casi da Ferrara
  • la riga 7 contiene
    in quanto inserimento duplicato dello stesso paziente con dati anagrafici non corretti. Il numero totale di ieri (25/06) pertanto è di 28347 e non 28351.
  • e la riga 8 contiene
    "

Lo stesso problema è presente anche nel file
https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dataset-allineati/dati-regioni/dpc-covid19-ita-regioni.csv

Grazie @Rabelaiss a livello di processamento non ho trovato problemi, comunque ho lavorato sul carriage return del campo note e ora è tutto su una linea.

Tutti i dati sono stati allineati, alle 18 saranno pubblicati con i dati aggiornati di oggi e in cartella legacy i dati precedenti. Grazie a tutti per la collaborazione.

Ciao a tutti, i dati sono aggiornati con i nuovi dataset e i dataset legacy nella directory legacy. Grazie per la collaborazione e se trovate problemi ai dati caricati e al processo di allineamento segnalatemelo pure.

Hello @umbros, I am student looking for a dataset which have information about the patients of COVID19 (specifically a dataset that shows if the patient had a previous illness). Do you know where I can get something like that? Thank you in advance!

A dataset from where this was made would be perfect:
https://www.epicentro.iss.it/coronavirus/sars-cov-2-decessi-italia

I am sorry for bother you, and again, thank you in advance!

Hi @LucasSignorini ISS is working to the possibility to publish it in opendata.

@umbros
Ringrazio innanzitutto per il lavoro svolto nel raccogliere tutti i dati disponibili in un unica piattaforma in maniera chiara e fruibile.
Per quanto riguarda il nuovo dataset avrei il seguente suggerimento.
I dati delle province antecedenti al 31/07/2020 sono ancora scritti nella forma relativa al vecchio dataset: in particolare il problema riguarda il campo "Fuori Regione / Provincia Autonoma" che compare solo dal 31/7 in poi.
Per maggiore chiarezza riporto il link relativo al file .json a cui mi sto riferendo:
https://github.com/pcm-dpc/COVID-19/blob/master/dati-json/dpc-covid19-ita-province.json
Non si potrebbe aggiungere tale campo anche ai dati antecedenti al 31/7 e assegnargli un valore nullo ? Questa correzione darebbe una coerenza maggiore all'insieme di dati, ma in particolare, per quanto mi riguarda, semplificherebbe il codice di Matlab che uso per elaborare i dati.

@RealCimo ciao anch'io ho matlab però uso i file .csv, ci sono vantaggi ad usare i json?