Ok, avvertimento equo - questa è una domanda filosofica che non comporta numeri. Ho pensato molto a come gli errori si insinuano nei set di dati nel tempo e come dovrebbero essere trattati dagli analisti - o se dovrebbe davvero importare del tutto?
Per lo sfondo, sto facendo l'analisi su uno studio a lungo termine che coinvolge molti set di dati raccolti probabilmente da 25 persone in 7-8 anni - nessuno ha mai portato tutti i dati in una struttura coerente (questo è il mio lavoro). Ho fatto un sacco di immissione dei dati (trascrizione da fotocopie di vecchi quaderni di laboratorio) e continuo a trovare piccoli errori di trascrizione commessi da altre persone e anche a trovare voci di dati difficili o impossibili da leggere, soprattutto perché l'inchiostro è sbiadito nel tempo. Sto usando il contesto per fare "ipotesi" su ciò che dicono i dati e tralasciando del tutto i dati se non sono abbastanza sicuro. Ma continuo a pensare al fatto che ogni volta che i dati vengono copiati, la frequenza degli errori aumenterà inevitabilmente fino a quando i dati originali non saranno completamente persi.
Quindi, questo mi porta a un pensiero: oltre agli errori di strumento / misurazione ed errori di registrazione, esiste un componente fondamentale di "errore di gestione dei dati" che aumenterà nel tempo e con una maggiore gestione dei dati (nota a margine: questo è probabilmente solo un altro modo per affermare la seconda legge della termodinamica, giusto? L'entropia dei dati aumenterà sempre). Di conseguenza, mi chiedo se ci dovrebbe essere una sorta di "correzione" introdotta per tenere conto della storia di vita dei set di dati (qualcosa di simile a una correzione Bonferroni)? In altre parole, dovremmo supporre che i set di dati più vecchi o più copiati siano meno precisi e, in tal caso, dovremmo adattare i risultati di conseguenza?
Ma poi l'altro mio pensiero è che gli errori sono parte integrante della raccolta e della gestione dei dati, e poiché tutti i test statistici sono stati sviluppati con dati del mondo reale, forse queste fonti di errore sono già "valutate" nell'analisi?
Inoltre, un altro punto degno di nota è che poiché gli errori di dati sono casuali, è molto più probabile che riducano la forza di una scoperta piuttosto che migliorarla - in altre parole, gli errori di gestione dei dati porterebbero a errori di tipo 2, non errori di tipo 1 . Quindi, in molti contesti, se stavi usando dati vecchi / discutibili e avessi ancora trovato un effetto, ciò aumenterebbe la tua sicurezza che l'effetto è reale (perché era abbastanza forte da sopravvivere all'aggiunta di errori casuali al set di dati). Quindi, per quel motivo, forse la 'correzione' dovrebbe andare dall'altra parte (aumentare il livello alfa richiesto per una 'scoperta'), o semplicemente non disturbarci?
Ad ogni modo, mi dispiace essere così prolisso e ottuso, non sono davvero sicuro di come porre questa domanda in modo più conciso. Grazie per la pazienza.