muchscraped
«verybello, such website, so expo, much scraped, wow»
Se siete italiani e girate per l'interweb dovreste aver sentito parlare in questi giorni (fine gennaio 2015) di verybello.it. In caso contrario ecco un po' di contesto:
- "Franceschini, #verybello lascia #senzawords ma con tante domande" di Guido Scorza su "Il fatto quotidiano";
- "Ci vorrebbe il napalm" di Massimo Mantellini;
- "#VeryBello: le mie considerazioni tecniche" di Matteo Flora;
- "VeryBello!, come trasformare una disfatta in una opportunità" di Riccardo Luna.
Fatte queste premesse, il primo passo per rendere migliore #verybello è rendere disponibili i dati, che è esattamente lo scopo di questo script python.
I dati sono salvati nel database SQLite:
verybello.sqlite
.
Installazione
Per installare tutti i moduli di Python necessari:
pip install -r requirements.txt
Licenza del software e dei dati.
Il codice di questo progetto è rilasciato con una licenza MIT.
I dati, per quanto mi riguarda sono in pubblico dominio. Qualora qualcuno del MiBACT dovesse pensare altrimenti farei prima di tutto notare che credo si applica a questi dati la stessa normativa che si applica sul data mining (e, in buona sostanza, a Google e a tutti gli altri motori di ricerca) si veda questa presentazione.
Qualora non doveste essere convinti potete fare richiesta di takedown seguendo la policy di GitHub relativa al DMCA. Le istruzioni su come fare richiesta sono queste.