italia/daf-ontologie-vocabolari-controllati

Problemi di codifica in transparency-titulus

Opened this issue · 2 comments

Mi sembra di ravvisare problemi nell'attribuzione del codice della sezione pagamenti dell'amministrazione:

  • Il codice di primo livello dovrebbe essere il 16 e non il 22
  • il codice di secondo livello dovrebbe iniziare per 16., non per 15. (altrimenti le voci vengono accorpate ai servizi)
  • di conseguenza i codici di primo livello delle sezioni successive dovrebbero scalare di 1

In generale non è chiara la differenza tra codice e position

Ciao Marco (@deligios), grazie per aver aperto questo issue così si può chiarire meglio il perché di una certa scelta tecnica operata su questo vocabolario alcuni anni fa.

Ti rispondo io in coordinamento con @mfortini @ioggstream e gli altri ragazzi del team dati del Dipartimento per la Trasformazione Digitale.
Il tutto nasce dall’issue aperto proprio da te, #85. Ci fu un errore in sede di creazione del vocabolario per cui la voce di primo livello “Pagamenti dell’Amministrazione” non fu inserita e le sue sottovoci nella tassonomia proposta erano state erroneamente attribuite a Servizi.
Avremmo potuto stravolgere tutto, ossia rivedere tutto il vocabolario da quel punto in giù nella tassonomia ma questo avrebbe comportato un cambio di URI, soprattutto per le risorse semantiche, con inevitabile violazione del principio della persistenza degli URI. Il vocabolario poi era usato in relazione ad altri per la trasparenza. Insomma il cambio avrebbe avuto un impatto piuttosto significativo.
Per questo ci siamo inventati una soluzione tecnica, forse non troppo elegante e non chiara stando al tuo commento, che ha previsto l’introduzione della colonna posizione, che indica la posizione della voce del vocabolario nella lista fornita dalla normativa. In sostanza, abbiamo inserito Pagamenti dell’Amministrazione come voce di primo livello assegnandoli un codice che andava in successione con l’ultimo che avevamo usato fin a quel momento (ossia 21), ma siccome nell’ordine della normativa i pagamenti non stanno in fondo ma dopo servizi, nella colonna posizione abbiamo indicato la posizione ricoperta da quella voce di primo livello nella lista (16) secondo la normativa. Per le sottovoci di Pagamenti, è vero che hanno la numerazione che prosegue quella dei servizi, ma ancora una volta la colonna posizione dovrebbe disambiguare in quanto, se noti, non si prosegue con la numerazione delle sottovoci di servizi ma il contatore inizia da 1 di nuovo, a significare che quello è un nuovo blocco che appartiene a Pagamenti.
In sostanza, la colonna posizione ti indica come è strutturata la gerarchia e i codici sono solo dei numeri per avere URI univoci e persistenti.
Spero ora sia più chiaro.

Non è soluzione perfetta e bellissima, ma all’epoca, anche in parte documentata nella relativa PR #82, trovammo questo modo per mitigare i possibili impatti di cambiamento che ci sarebbero potuti essere se avessimo corretto l’errore stravolgendo la seconda parte del vocabolario.

Ci potrebbe essere un’alternativa di azione: per i soli formati CSV e XLSX cambiamo la numerazione di quelle voci e di tutta la seconda parte del vocabolario ed eliminiamo la colonna posizione, mentre nelle risorse semantiche in RDF lasciamo tutto come ora per via degli URI persistenti. Non è bellissima anche questa, anzi proprio bruttina :-), perché diversi formati dello stesso vocabolario dovrebbero avere lo stesso contenuto. Inoltre, questa soluzione ha comunque un impatto su altri vocabolari della trasparenza che usano questo, quantomeno per i formati csv e xlsx. Insomma, è un cambiamento importante su diverse cose.

La mia opinione è che, visto che questi vocabolari non mi pare siano ancora diventati uno standard affermato, una modifica volta ad aumentarne la coerenza con la norma e a semplificare la struttura rimuovendo i campi di tipo posizione non stravolgerebbe la vita a nessuno.
Nella mia esperienza impostare le cose per bene all'inizio, anche accettando cambi di rotta nel breve termine, garantisce risultati migliori nel medio lungo termine
Just my two cents