"Ricerca riproducibile" come analisi riproducibile
La ricerca riproducibile è un termine usato in alcuni settori di ricerca per riferirsi specificamente alla conduzione di analisi tali
- il codice trasforma i dati grezzi e i metadati in dati elaborati,
- il codice esegue analisi sui dati e
- il codice incorpora le analisi in un report.
Quando tali dati e codici sono condivisi, ciò consente ad altri ricercatori di:
- eseguire analisi non riportate dai ricercatori originali
- verificare la correttezza delle analisi eseguite dai ricercatori originali
Questo utilizzo può essere visto nelle discussioni su tecnologie come Sweave . Ad esempio, Friedrich Leisch scrive nel contesto di Sweave che "il rapporto può essere aggiornato automaticamente se i dati o l'analisi cambiano, il che consente una ricerca realmente riproducibile". Può anche essere visto nella Task View CRAN sulla ricerca riproducibile che afferma che "l'obiettivo della ricerca riproducibile è legare istruzioni specifiche all'analisi dei dati e ai dati sperimentali in modo che la borsa di studio possa essere ricreata, meglio compresa e verificata".
Ampio uso del termine "riproducibilità"
La riproducibilità è un obiettivo fondamentale della scienza. Non è nuovo I rapporti di ricerca includono sezioni di metodi e risultati che dovrebbero delineare il modo in cui i dati sono stati generati, elaborati e analizzati. Una regola generale è che i dettagli forniti dovrebbero essere sufficienti per consentire a un ricercatore adeguatamente competente di acquisire le informazioni fornite e replicare lo studio.
La riproducibilità è inoltre strettamente correlata ai concetti di replicabilità e generalizzazione.
Pertanto, il termine "ricerca riproducibile", preso alla lettera, applicato a tecnologie come Sweave, è un termine improprio, dato che suggerisce una rilevanza più ampia di quanto non copra. Inoltre, quando si presentano tecnologie come Sweave ai ricercatori che non hanno utilizzato tali tecnologie, tali ricercatori sono spesso sorpresi quando chiamo il processo "ricerca riproducibile".
Un termine migliore di "ricerca riproducibile"
Dato che la "ricerca riproducibile" utilizzata in contesti simili a quelli di Sweave riguarda solo un aspetto della ricerca riproducibile, forse dovrebbe essere adottato un termine alternativo. Le possibili alternative includono:
- Analisi riproducibile:
- Analisi dei dati riproducibili
- Analisi statistiche riproducibili
- Rapporti riproducibili
Tutti i termini sopra riportati riflettono in modo più accurato ciò che comporta un'analisi simile a Sweave. L'analisi riproducibile è breve e dolce. L'aggiunta di "dati" o "statistici" chiarisce ulteriormente le cose, ma rende anche il termine più lungo e più stretto. Inoltre, "statistico" ha un significato stretto e ampio, e certamente nel senso stretto, gran parte del trattamento dei dati non è statistico. Pertanto, l'ampiezza implicita dal termine "analisi riproducibile" presenta i suoi vantaggi .
Non si tratta solo di riproducibilità
L'altro problema aggiuntivo con il termine "ricerca riproducibile" è che l'obiettivo delle tecnologie simili a Sweave non è solo "riproducibilità". Esistono diversi obiettivi correlati:
- Riproducibilità
- Le analisi possono essere facilmente rieseguite per trasformare i dati grezzi in report finali con gli stessi risultati?
- Correttezza
- L'analisi dei dati è coerente con le intenzioni del ricercatore?
- Le intenzioni del ricercatore sono corrette?
- Apertura
- Trasparenza, responsabilità
- Altri possono verificare e verificare l'accuratezza delle analisi eseguite?
- Estensibilità, modificabilità
- Altri possono modificare, estendere, riutilizzare e mescolare, i dati, le analisi o entrambi per creare nuovi lavori di ricerca?
C'è un argomento secondo cui l'analisi riproducibile dovrebbe promuovere analisi corrette, poiché esiste una registrazione scritta di analisi che possono essere verificate. Inoltre, se i dati e il codice sono condivisi, creano responsabilità che motiva i ricercatori a controllare le loro analisi e consente ad altri ricercatori di annotare le correzioni.
L'analisi riproducibile si adatta anche strettamente ai concetti relativi alla ricerca aperta. Naturalmente, un ricercatore può utilizzare tecnologie simili a Sweave solo per se stesso. I principi di ricerca aperta incoraggiano la condivisione dei dati e il codice di analisi per consentire un maggiore riutilizzo e responsabilità.
Questa non è una vera critica all'uso della parola "riproducibile". Piuttosto, sottolinea solo che l'uso di tecnologie simili a Sweave è necessario ma non sufficiente per raggiungere obiettivi di ricerca scientifica aperti.