Liberiamoli tutti è un'iniziativa della campagna #DatiBeneComune per individuare, ottenere, riformattare, pulire, documentare, pubblicare e diffondere dati di interesse pubblico.
Tanti di questi dati sono inaccessibili alle persone e alle comunità che ne hanno più bisogno: non sono mai stati resi pubblici, sono pubblicati in formati di difficile utilizzo, o senza la documentazione necessaria per interpretarli correttamente.
Vogliamo pubblicare quei dati utili alle tante organizzazioni che hanno aderito alla campagna e che vorranno segnalarci un vuoto informativo che, se colmato, renderebbe le loro azioni più utili, efficaci e mirate.
Hai un dataset “desiderato” nel cassetto?
Vogliamo che la newsletter diventi sempre più uno strumento collettivo: costruito insieme a chi i dati li cerca, li usa, li incrocia, li racconta.
Hai un dataset che, secondo te, dovrebbe essere aperto? Una banca dati che merita di essere accessibile, leggibile, utile? Dicci quale, spiegaci perché. Ma soprattutto: raccontaci cosa ci faresti tu, se fosse davvero liberato.
E se ti va di contribuire anche in altri modi – con un editoriale su un tema che ti sta a cuore, un’analisi a partire da dati pubblici, una visualizzazione, un’infografica, o anche solo un’idea da sviluppare insieme – scrivici a 📧 info@datibenecomune.it.
Liberiamoli tutti è anche tua!
Liberiamoli tutti! è ispirata al Data Liberation Project, un meraviglioso progetto di Jeremy Singer-Vine (👏).
🧮 I dati sugli scioperi
Poter disporre di dati sugli scioperi, aperti e leggibili meccanicamente (cioè utilizzabili da software di analisi), è sicuramente utile, perché si tratta di fenomeni che impattano quotidianamente la vita delle persone: influenzano gli spostamenti, generano disagi nelle città, e possono perfino avere ripercussioni economiche. Avere a disposizione dati pronti e facilmente analizzabili permette quindi di monitorare la situazione, prevedere e gestire meglio le criticità e informare il pubblico.
Ma ad oggi, non ci risulta che ci siano fonti pubbliche che consentano di farlo.
E allora stavolta abbiamo liberato alcuni dati sugli scioperi, in particolare quelli di due fonti:
la Commissione di Garanzia Scioperi (CGSSE);
il Ministero dei Trasporti (MIT).
Ancora una volta però sono informazioni pressoché inutilizzabili, perché “intrappolate” in pagine HTML.
Non sono leggibili meccanicamente in modo diretto, ed è quindi molto scomodo fare dei conteggi, aggregare, filtrare, correlare con altri dati.
E allora li abbiamo liberati!
Vogliamo sottolineare come questo numero della newsletter sia ancora una volta un esempio degli obiettivi di questo progetto: stare in ascolto di qualcuno che vuole valorizzare dei dati, rendendoli più comodi da leggere e pronti all’uso. E siamo particolarmente contenti che possano diventare strumento di chi fa informazione a livello nazionale, perché potranno arrivare a un pubblico più ampio.
📝 Alcune note sui dati sorgente
Entrambe le fonti pubblicano i dati sugli scioperi in formato HTML, mentre le "Linee Guida recanti regole tecniche per l'apertura dei dati e il riutilizzo dell'informazione del settore pubblico" impongono con il requisito 2 che i dati siano pubblicati anche in formati aperti e strutturati, come CSV o JSON (ecc.), in formati leggibili meccanicamente e facilmente riutilizzabili.
Il Ministero delle Infrastrutture e dei Trasporti pubblica anche le informazioni sugli scioperi come feed RSS, quindi in XML
, quindi in un formato leggibile meccanicamente. Ma contiene circa gli ultimi 30 annunci sugli scioperi, quindi non è una serie temporale ampia, e con diverse informazioni raggruppate (maggiori informazioni sul repository di progetto).
📍 Chiederemo alla Commissione di Garanzia Scioperi e al Ministero di adeguarsi alle norme e linee guida sulla pubblicazione dei dati.
Per questa prima pubblicazione dei dati, abbiamo trasformato e arricchito i dati alla fonte in questo modo:
estratto i dati, dal primo gennaio 2025;
normalizzato i nomi dei campi come snake_case (usando solo lettere minuscole e separando le parole con il trattino basso “_”);
aggiunto dei campi data in formato ANNO-MESE-GIORNO, che sono più comodi per le analisi;
attivato aggiornamento automatico giornaliero.
Li abbiamo resi disponibili in formato CSV e JSON lines:
CGSSE
MIT
👉 Maggiori dettagli sui dati estratti qui.
🗣️ Il valore di questi dati
Anche stavolta per noi è importante fare venire in superficie non tanto una nuova tabella, quanto il valore che hanno i dati liberati.
Stavolta a raccontarcelo è Raffaele Mastrolonardo, giornalista, co-fondatore agenzia effecinque.
Raffaele aveva scritto già l’editoriale per il numero #6 di “Liberiamoli tutti!”: a lui e al suo ispiratore (Alessandro Marenzi, vice direttore di Sky TG24), il nostro grazie.
Da ricerca manuale a dati aperti: il viaggio dello Scioperometro nei trasporti
Per un canale televisivo all news che segue la cronaca in tempo reale gli scioperi dei trasporti sono spesso, per non dire quasi sempre, una notizia. Le rivendicazioni delle sigle sindacali, i disagi dei cittadini, i ritardi dei treni, le attese in aeroporto, gli autobus a singhiozzo e il traffico più congestionato del solito a causa dell’assenza di mezzi pubblici entrano a forza nella scaletta quotidiana. Soprattutto, ma non solo, quando sono interessate le città più popolose o le tratte più frequentate.
È anche per questo che, oltre a seguire gli effetti dell'agitazione, da un paio d’anni Sky Tg 24 dedica periodici approfondimenti alle astensioni dal lavoro nel settore, sia in onda che sul sito. Quanti scioperi nell’anno? Quante giornate interessate? E quali giorni della settimana più colpiti? Il conteggio e l’aggiornamento viene realizzato a mano, alla bisogna, effettuando una ricerca nel database della Commissione di garanzia scioperi dove trovano posto tutte le mobilitazioni indette, effettuate e revocate, con relativa descrizione. Si impostano i parametri di ricerca, si ottiene una lista e poi si conta. Sempre a mano.
Funziona, ma non è comodissimo. Se solo i dati fossero disponibili in formati più usabili, il lavoro di ricerca e aggiornamento potrebbe essere più veloce e preciso. E potrebbe essere affidato, almeno per una prima fase di filtro, alle macchine magari automatizzando il procedimento, in tutto o in parte. È questo che ha proposto a fine maggio scorso Alessandro Marenzi, vicedirettore di Sky Tg 24, quando ha lanciato in redazione l’idea di quello che, scherzando ma non del tutto, chiamava “Scioperometro”: un cruscotto per tenere traccia delle agitazioni nel settore.
Peccato che i dati della Commissione (così come quelli analoghi del MInistero dei Trasporti) siano tutt’altro che aperti e usabili e che quindi la ricerca manuale risulti, purtroppo, imprescindibile. A meno che… A meno che - ha suggerito qualcuno - non si provi un’altra volta a chiedere aiuto a onData e alla campagna “Liberiamoli tutti” perché li metta a disposizione di cittadini, giornalisti e attivisti in formati utilizzabili anche dai comuni mortali (ovvero chiunque non abbia capacità di programmazione più o meno avanzate).
E così è successo. Un paio di messaggi su WhatsApp, un po’ di insistenza ma neanche troppa e Andrea Borruso, presidente di onData, è entrato nuovamente in una cabina telefonica di Palermo vestito da anonimo geomatico per uscirne con il costume del Liberatore di Dati. Qualche chiarimento ulteriore, due o tre aggiustamenti e via, missione compiuta: dati della Commissione e del Ministero finalmente disponibili in formato .csv e .jsonl (JSON Lines).
Il risultato giornalistico di questa opera di scarcerazione di informazioni, per ora, è un primo articolo scritto a ridosso dello sciopero del 7 e 8 luglio scorsi, che contiene le cifre sulle agitazioni nei trasporti di carattere nazionale elaborate e visualizzate grazie alla “liberazione” effettuata da onData. I dati sono recuperati dal repository apposito e filtrati attraverso un paio di script scritti in linguaggio R sulla base dei parametri impostati dalla redazione di Sky Tg 24 e confluiscono automaticamente in una serie di visualizzazioni realizzate con Flourish. Al momento gli script sono avviati a mano in corrispondenza degli scioperi, ma presto anche il loro lancio sarà automatizzato e il cruscotto (il cosiddetto “Scioperometro”) sarà ospitato in una sezione apposita nel sito di Sky Tg 24.
Perché, come si dice, l’appetito vien mangiando. Soprattutto quando nel menu compaiono nuovi dati da poco liberati. Come sempre, i più gustosi.
Chi siamo
"Liberiamoli tutti" di datiBeneComune è promossa da ActionAid Italia, OnData e Transparency International Italia.
#DatiBeneComune è una campagna lanciata il 9 novembre 2020 per chiedere al Governo italiano di pubblicare in formato aperto e accessibile i dati sulla gestione della pandemia di COVID-19. La campagna è stata accolta sin dall’inizio con entusiasmo da parte di esperti, organizzazioni, testate giornalistiche, che hanno aderito immediatamente all’iniziativa. Oggi la campagna è impegnata della richiesta di dati aperti sul Piano Nazionale di Ripresa e Resilienza e su tutte le politiche e questioni di pubblico interesse.
Con “Liberiamoli tutti” vogliamo fare un altro passo per costruire una comunità di persone, organizzazioni e altre realtà attorno ai dati liberati ed al loro utilizzo e per contribuire a promuovere la cultura dei dati aperti.
💌 Hai in mente altri dati da liberare? Scrivici a info@datibenecomune.it.