italia/daf-ontologie-vocabolari-controllati

Normalize TTL files

Closed this issue · 6 comments

I expect

To normalize TTL files:

  • use spaces instead of tabs to ease diff and fixing bugs.
  • Use prefixes to shorten files (e.g. cities.ttl is above github allowed file size )

cities.ttl was generated by an automatic tool through a specific process. Cities has many occurrences because it is an archive of information about cities over time. You should expect a bigger size with respect to other controlled vocabularies we have.
Probably github is not appropriate for that then. RDF files can be big in size due to the many triples that are defined.

@Clou-dia chiuderei l'issue, soprattutto perché quel vocabolario non è nemmeno più sotto il nostro controllo diretto e comunque generato da un processo automatico.

@giorgialodi @bfabio Questo issue non riguarda cities.ttl ma i file .ttl in generale. Riaprirei e valuterei degli strumenti di formattazione dei file analogamente per quanto accade con altri file (e.g., black per python, ...)

@ioggstream tutto quello scritto sopra è generato da strumenti automatici (o protege per le ontologie) o altri tool per trasformare CSV in RDF (come nel caso di cities per esempio). Direi che non possiamo metterci lì poi a valle a ritrasformarli. Nessuno lo fa onestamente come pratica! PS: i file RDF sono spessissimo molto grandi in dimensioni!

Per automatico intendo eseguito machine to machine, con le impostazioni definite su una macchina server. Se è un tool guidato da una persona (IDE, excel, prompt AI, ...) con la versione e le impostazioni presenti sul client, non lo considero automatico/riproducibile.

Poi sulla soluzione da adottare, parliamone. Se protege può riformattare deterministicamente lanciandolo all'interno di una CI per me va bene.

Ho capito, ma protege usa serializzazioni standard. Istat usa un altro tool che avrà anche lui immagino le solite serializzazioni. Il tool di trasformazione da CSV a RDF invece dovrebbe essere parte di un processo automatico e anche lì usa serializzazioni standard RDF/turtle. Ripeto, non possiamo non fidarci di strumenti allo stato dell'arte stra consolidati per fare queste cose :)