magazine_ Interview
Open Science: aprire la scatola nera
Una conversazione con la data scientist Paola Chiara Masuzzo sulle opportunità dell'Open Science.
Una conversazione con Paola Chiara Masuzzo, data scientist e paladina della conoscenza condivisa, sull’attività delle case editrici scientifiche, su quanto costi tenere i dati in un cassetto e su come l'Open Science possa riconciliare la fragile relazione tra scienza e società.
Open Science affronta i limiti della cultura della ricerca. Cosa c'è oggi di sbagliato nella scienza?
Paola Chiara Masuzzo: La lista è lunga. Per troppo tempo gli scienziati si sono concentrati sulla quantità invece che sulla qualità. Questo perché i programmi di finanziamento e le università li hanno incentivati a pubblicare tanto su quante più riviste di alto profilo possibile. Per fare questo, sono stati educati a essere riservati, perché nel mondo accademico la concorrenza è alta e le risorse sono scarse. Questo ha alimentato la paura di perdere la corsa per trovare il pezzo finale di un puzzle. Tutti vogliono essere i primi a scoprire qualcosa, quando in realtà non è quello che conta. Ciò che conta è che la scienza crei conoscenza e risolva i problemi. E poi bisogna parlare del mondo dell’editoria.
Cosa c'è da dire?
Masuzzo: Uno dei grandi problemi è quello dei pregiudizi, i cosiddetti "publication bias". Se hai risultati positivi, "sexy", le riviste dicono: certo, ti pubblicheremo. Studi con risultati negativi hanno molte meno probabilità di essere pubblicati, anche se sono altrettanto importanti. Poi c'è la barriera linguistica. La maggior parte della letteratura scientifica è pubblicata solo in inglese, presumendo che ogni persona al mondo sia in grado di capire, il che chiaramente non è vero. E anche quando il grande pubblico capisce l'inglese, l'accesso agli studi è ostacolato perché per leggerli bisogna pagare. Chiunque non lavori nel mondo della scienza dovrebbe quindi pagare di tasca propria per leggere i risultati di una ricerca pubblica che ha finanziato pagando le tasse. Ma ha già pagato per questo. Come può stare in piedi?
"Se hai risultati positivi, 'sexy', le riviste dicono: certo, ti pubblicheremo. Studi con risultati negativi hanno molte meno probabilità di essere pubblicati, anche se sono altrettanto importanti."
Quindi la scienza è prodotta soprattutto per una élite scientifica.
Masuzzo: JBasta guardare le pubblicazioni. Non c'è quasi mai una parola comprensibile a chi non abbia competenze specifiche o un estratto grafico. Abbiamo alimentato una cultura elitaria nella scienza che trasmette un chiaro messaggio: "Se non fai parte di questa élite, la scienza non fa per te". Ironicamente, quella stessa scienza spesso non è nemmeno per gli altri scienziati, dato che molti risultati non possono essere replicati. E questo è un altro difetto delle scatole nere segrete. Non solo i ricercatori indipendenti non possono replicare i risultati degli studi, ma gli stessi ricercatori che hanno condotto gli studi non possono riprodurre i loro risultati.
E come se non bastasse, c'è un sistema editoriale parassitario.
Masuzzo: Quando spiego l'editoria scientifica agli amici uso una analogia efficace, anche se non è mia. È come se tu andassi al ristorante e ti portassi gli ingredienti da casa. Poi cucini e ti servi il pasto a tavola. Ma prima che tu possa mangiarlo, c'è già qualcuno che ti aspetta con il conto. E stiamo parlando di un conto gonfiato di tre o quattro volte. Chi fa scienza viene pagato per fare ricerca ma non per pubblicarla. Quindi dobbiamo pagare per pubblicare, e nel processo spesso perdiamo anche il copyright.
Open Access garantisce che le riviste siano accessibili a tutti. Questo risolve il dilemma dei lettori ma non impedisce che gli scienziati vengano sfruttati, vero?
Masuzzo: Infatti, ma Open Access è solo una delle tante componenti di Open Science ed è molto più del semplice accesso libero ai documenti di ricerca da parte del pubblico. Certo, posso leggere articoli ad accesso libero senza dover pagare, ma è anche importante che i documenti abbiano una licenza adeguata. Questo mi permette, come scienziata, di riutilizzare quello che sto leggendo per fare, per esempio, text-mining. Il che è impossibile quando si rinuncia al proprio copyright e non si ha una licenza aperta legata ai documenti. Questo è uno dei grandi usi di Creative Commons, per esempio; uno sforzo per assegnare licenze agli output della ricerca e riconoscere correttamente i crediti alle persone che creano quella conoscenza. Questo preserva la proprietà intellettuale. Un esempio è la licenza CC Attribution-ShareAlike license: puoi integrare un lavoro esistente nel tuo ma devi assegnare le stesse condizioni e accreditare l'autore originale. Ma ce ne sono molte altre.
Perché ci sono così tante licenze diverse?
Masuzzo: Perché non c'è un approccio unico alla condivisione dei dati scientifici. Vogliamo che la scienza sia quanto più aperta possibile, e chiusa solo per l'indispensabile. Per esempio, si potrebbero avere dati sensibili di pazienti o dati personali molto specifici che, se condivisi, potrebbero addirittura danneggiare una parte della popolazione. Questi dati non si possono condividere. Quindi le licenze CC offrono accessi modulari, per rendere questi dati e risultati aperto o chiusi a seconda di ciò che si può divulgare. Il tutto mentre apri solo una parte del tuo lavoro al pubblico dominio.
Gli scienziati che seguono la strada dell'Open Access devono ancora pagare per essere pubblicati?
Masuzzo: Ci sono diversi tipi di percorsi e alcuni richiedono pesanti spese di elaborazione degli articoli. Alcuni percorsi sono gratuiti per i lettori, altri sono gratuiti per gli autori. Alcuni sono gratuiti per entrambi. Tra le riviste Open Access la grande maggioranza, circa il 70 per cento, non prevede spese di elaborazione degli articoli. Si tratta del percorso cosiddetto "diamond" (diamante).
Suona bene, ma su quante di queste riviste gli scienziati vorrebbero in effetti veder pubblicati i propri lavori per aumentare il proprio prestigio?
Masuzzo: In effetti, le riviste più attrattive in termini di impatc factor e di altre metriche fanno pagare costi alti per pubblicare con loro. Nature chiede fino a 9.500 euro per articolo pubblicato. Questo è scandaloso. Noi della comunità Open Science chiediamo trasparenza in modo che tutti possano vedere come queste cifre vengono ripartite. Naturalmente ci sono costi reali per la pubblicazione, ma gli studi stimano che siano in media tra i 100 e i 200 dollari per articolo. Quindi come si fa a passare da una stima di 150 dollari a più di 10.000? Questo è un vero mistero.
Considerando questi costi, ci si potrebbe aspettare di ottenere qualcosa di più del semplice articolo, per esempio i dati che sono serviti per scriverlo.
Masuzzo: Nascondere i dati fa parte della scatola nera misteriosa. Spesso non siamo in grado di riprodurre i nostri risultati, e dobbiamo rimediare a questo. Lo standard minimo per la validità scientifica è la riproducibilità. Se prendo gli stessi dati da uno studio e la stessa pipeline di analisi, allora dovrei arrivare agli stessi risultati. Ma se non sono nelle condizioni di poterlo fare? Questo la dice lunga su quel pezzo di ricerca. - Ecco perché gli Open Data sono importanti per ristabilire la fiducia con il pubblico; una fiducia che purtroppo la scienza ha perso negli ultimi decenni. E non solo con il pubblico, ma anche tra gli scienziati.
"Credo che sia un passo per colmare il gap tra mondo della scienza e pubblico."
Ci spieghi meglio.
Masuzzo: Quando pubblichi uno studio senza i dati, è semplicemente un file PDF. Che non è necessariamente oggettivo, ma è una storia che mostra come sei arrivato a una specifica conclusione. Quella storia racconta ciò che hai fatto, e questo va bene. Ma è una interpretazione specifica dei dati, e ho bisogno di vedere quei dati per convalidare se quello che hai fatto è scientificamente valido o no. Se decidi di rendere pubblici i tuoi dati, questo apre la scienza all'innovazione. Gli algoritmi di apprendimento automatico e altre persone possono porre agli stessi set di dati ogni sorta di domande e applicare metodi analitici diversi per rispondere a più domande, affrontando lo stesso problema da molte angolazioni diverse. Se non pubblichiamo i dati, perdiamo davvero dei soldi. Un sacco di soldi.
Perdiamo soldi?
Masuzzo: Immagina quanto tempo e risorse devi investire per raccogliere i dati, elaborarli, ripulirli, elaborare il prodotto finale, e poi scrivere l'articolo, proporlo per la pubblicazione, rifinirlo. Se non pubblichi i tuoi dati in modo FAIR, se mi interessano ma non si trovano da nessuna parte, allora dovrò rifare l'intero processo da sola. Potrei impiegare diversi mesi per arrivare al punto in cui sei già arrivato tu. Pensa che spreco. Secondo le stime, questo lavoro scientifico ridondante genera costi supplementari di circa dieci miliardi di euro all'anno solo in Europa.
Dati FAIR significa accessibili a chiunque?
Masuzzo: Significa molto di più: FAIR significa trovabile, accessibile, interoperabile e riutilizzabile (acronimo dall'inglese findable, accessible, interoperable e reusable). Questo non implica necessariamente che siano dati completamente aperti, ma se li pubblichi, allora ci sono modi per trovarli sul web e per vedere almeno i loro metadati. Significa anche che i set di dati hanno codici digitali unici che aiuteranno a localizzarli online per molto tempo, e chiare licenze d'uso. Questo copre la parte del "trovabile", "accessibile" e "riutilizzabile". "Interoperabile" significa che devono essere leggibili dalle macchine, in modo che gli algoritmi possano analizzare grandi insiemi di dati disponibili in modalità Open. Questo crea conoscenza molto più velocemente di quanto gli umani potrebbero mai fare.
"Credo che sia un passo per colmare il gap tra mondo della scienza e pubblico. "
Dare alle persone questo tipo di visione di quella scatola nera chiamata scienza e del suo funzionamento significa che la scienza deve abbassare la guardia. Cosa ci guadagnano scienza e società?
Masuzzo: Credo che sia un passo per colmare il gap tra mondo della scienza e pubblico. Quando le persone non si fidano della scienza, non è perché pensano che gli scienziati non siano abbastanza competenti, ma è perché non sono sicuri che quello che facciamo sia nel loro interesse. Aprirsi aiuta. Dobbiamo dire le cose come stanno. La scienza è disordinata. La scienza cambia. Cerca di autocorreggersi e a volte ci riesce. A volte fallisce. Non dimentichiamo che sono le persone che fanno la scienza. La scienza ha dato per troppo tempo l'impressione che tutti i risultati debbano essere scintillanti e intriganti. Questo è lontano dalla realtà, e trasmette un'immagine sbagliata. In fondo, fare scienza è solo una professione come qualsiasi altra.
Chi è Paola Masuzzo
Paola Chiara Masuzzo è una data scientist italiana che vive e lavora in Belgio. Masuzzo è una sostenitrice dell’Open Science ed è una ricercatrice indipendente di IGDORE (Institute for Globally Distributed Open Research and Education). È una grande fan degli open data e della serie TV Seinfeld. Insieme a Yasemin Türkyilmaz-van der Velden, Paola Masuzzo è uno dei giudici indipendenti del 2021 Open Research Award di Eurac Research. Per seguirla su twitter: @pcmasuzzo
Chi ha vinto l’edizione 2021 degli Open Research Award di Eurac Research
I due premi principali sono andati a:
gruppo "Language Technologies (LT)" dell'Istituto di linguistica applicata le cui attività si svolgono in modo trasversale tra varie discipline, lingue e comunità e si esprimono nella partecipazione attiva e nel coordinamento di iniziative volte a riunire le persone, invitarle a partecipare alla ricerca e fornire buone pratiche. (leggi l'intervista)
Johannes Rainer, leader del gruppo di lavoro "Computational Metabolomics" nell'Istituto di biomedicina, che ha definito strumenti e pratiche di successo per una ricerca aperta, collaborativa e riproducibile. Il suo impegno a favore di un approccio collaborativo sta influenzando l'atteggiamento dei data scientists dell'Istituto e sta dando contributi importanti anche alle comunità internazionali di chi usa i software R e Bioconductor. (leggi l'intervista)
I due premi per le carriere agli esordi vanno a:
Alberto Scotti, Istituto per l'ambiente alpino, la cui ricerca sugli insetti acquatici come sentinelle dei cambiamenti ambientali è stata condotta seguendo l'ideale della cultura dell’Open Research e con l'obiettivo di condividere ogni risultato della ricerca. (leggi l'intervista)
Giulio Genova, Istituto per l'ambiente alpino, e Mattia Rossi, Istituto per l'osservazione della Terra, che, collaborando strettamente, hanno sviluppato strumenti Open Source che, tramite interfacce semplici da usare, permettono non solo ai ricercatori ma anche ad altri utenti con minime competenze di programmazione di accedere e analizzare dati meteorologici e ambientali. (leggi l'articolo)