/regioneSiciliaNewsRSS

Uno script per creare il feed RSS delle News della Regione Siciliana

Primary LanguageShell

Uno script bash per creare il feed RSS delle News della Regione Siciliana

La Regione Siciliana non ha un feed RSS per le proprie News.

È stato creato uno script per crearlo, aggiornarlo e archiviare la serie storica e l'URL è http://feeds.feedburner.com/RegioneSicilianaNewsNonUfficiale.

La pagine sorgente sono queste:

Note sullo script

Lo script si occupa di:

  • estrarre titolo, data e URL delle notizie, dalle tre fonti soprastanti;
  • se nel titolo è presente la fonte (ad esempio [Dipartimento dell'ambiente]), la rimuove e la inserisce nel campo sorgente;
  • se nel titolo è presente la data (ad esempio 08-FEB-2019 - Servizio II - Decreto Dirigente Generale n. 240 del ...), la rimuove e la inserisce nel capo data;
  • converte le date dal formato di origine (09-FEB-2019) in formato RSS (Sat, 09 Feb 2019 02:00:00 +0100);
  • mette insieme i dati delle tre sorgenti e li ordina per data decrescente;
  • crea il feed RSS;
  • crea un archivio delle notizie in formato TSV.

Nota bene:

  • non è presente alcun controllo di errore. Né per sorgente non disponibile, né per una modifica nella struttura delle pagine di input;
  • la descrizione degli elementi del feed RSS è la copia del titolo;
  • negli elementi del feed non è presente il tag description;
  • l'orario di pubblicazione non è presente nel sito sorgente, quindi è inseritto in con dei valori predefiniti ed è pertanto da non prendere in considerazione.

Nota sulle pagine sorgente

  • il server non risponde dichiarando l'encoding. Quindi per interpretare correttamente la risposta e non avere problemi ad esempio con i caratteri accentati, bisogna forzarne la definizione. Si tratta di ISO-8859-1;
  • in alcune pagine ci sono degli errori di validazione HTML. Ne è stata forzata la correzione, altrimenti l'estrazione di dati potrebbe andare in errore.

Nota sul file RSS di output

È stata inserita la "sorgente" di ogni notizia, all'interno del tag category. Nell'esempio di sotto è Dipartimento dell'ambiente. Quindi sarà possibile mappare/filtrare le news in base all'origine.

<item>
      <title>[Dipartimento dell'ambiente] Convocazione prima Conferenza di Servizi del 14 febbraio 2019 per il rilascio del Provvedimento Autorizzatorio Unico Regionale, ex art. 27-bis D.Lgs. 152/2016 e ss.mm.ii..</title>
      ...
      ...
      <category domain="http://pti.regione.sicilia.it/portal/page/portal/PIR_PORTALE/RSSspecs#source">Dipartimento dell'ambiente</category>
</item>

Requisiti

Per usare scrape-cli, fare il download dell'eseguibile con wget -O "scrapeCli" "https://github.com/aborruso/scrape-cli/releases/download/v1.0/scrape", poi dargli il permesso di esecuzione e spostarlo in una cartella presente nel PATH del sistema operativo.