Contesto: in risposta a una domanda precedente sulla ricerca riproducibile, ha scritto Jake
Un problema che abbiamo scoperto durante la creazione del nostro archivio JASA è stato il cambiamento delle versioni e dei valori predefiniti dei pacchetti CRAN. Quindi, in quell'archivio, includiamo anche le versioni dei pacchetti che abbiamo usato. Il sistema basato sulla vignetta si romperà probabilmente man mano che le persone cambiano i loro pacchetti (non sono sicuro di come includere pacchetti extra nel pacchetto che è il Compendio).
Infine, mi chiedo cosa fare quando R stessa cambia. Esistono modi per produrre, per esempio, una macchina virtuale che riproduca l'intero ambiente di calcolo utilizzato per un documento in modo tale che la macchina virtuale non sia enorme?
Domanda:
- Quali sono le buone strategie per garantire che l'analisi dei dati riproducibili sia riproducibile in futuro (diciamo, cinque, dieci o venti anni dopo la pubblicazione)?
- In particolare, quali sono le buone strategie per massimizzare la riproducibilità in corso quando si utilizzano Sweave e R?
Ciò sembra essere correlato al problema di garantire che un progetto di analisi dei dati riproducibile verrà eseguito sulla macchina di qualcun altro con valori predefiniti, pacchetti, ecc. Leggermente diversi