Gli errori di gestione dei dati sono già "prezzati" nell'analisi statistica?

Ok, avvertimento equo - questa è una domanda filosofica che non comporta numeri. Ho pensato molto a come gli errori si insinuano nei set di dati nel tempo e come dovrebbero essere trattati dagli analisti - o se dovrebbe davvero importare del tutto?

Per lo sfondo, sto facendo l'analisi su uno studio a lungo termine che coinvolge molti set di dati raccolti probabilmente da 25 persone in 7-8 anni - nessuno ha mai portato tutti i dati in una struttura coerente (questo è il mio lavoro). Ho fatto un sacco di immissione dei dati (trascrizione da fotocopie di vecchi quaderni di laboratorio) e continuo a trovare piccoli errori di trascrizione commessi da altre persone e anche a trovare voci di dati difficili o impossibili da leggere, soprattutto perché l'inchiostro è sbiadito nel tempo. Sto usando il contesto per fare "ipotesi" su ciò che dicono i dati e tralasciando del tutto i dati se non sono abbastanza sicuro. Ma continuo a pensare al fatto che ogni volta che i dati vengono copiati, la frequenza degli errori aumenterà inevitabilmente fino a quando i dati originali non saranno completamente persi.

Quindi, questo mi porta a un pensiero: oltre agli errori di strumento / misurazione ed errori di registrazione, esiste un componente fondamentale di "errore di gestione dei dati" che aumenterà nel tempo e con una maggiore gestione dei dati (nota a margine: questo è probabilmente solo un altro modo per affermare la seconda legge della termodinamica, giusto? L'entropia dei dati aumenterà sempre). Di conseguenza, mi chiedo se ci dovrebbe essere una sorta di "correzione" introdotta per tenere conto della storia di vita dei set di dati (qualcosa di simile a una correzione Bonferroni)? In altre parole, dovremmo supporre che i set di dati più vecchi o più copiati siano meno precisi e, in tal caso, dovremmo adattare i risultati di conseguenza?

Ma poi l'altro mio pensiero è che gli errori sono parte integrante della raccolta e della gestione dei dati, e poiché tutti i test statistici sono stati sviluppati con dati del mondo reale, forse queste fonti di errore sono già "valutate" nell'analisi?

Inoltre, un altro punto degno di nota è che poiché gli errori di dati sono casuali, è molto più probabile che riducano la forza di una scoperta piuttosto che migliorarla - in altre parole, gli errori di gestione dei dati porterebbero a errori di tipo 2, non errori di tipo 1 . Quindi, in molti contesti, se stavi usando dati vecchi / discutibili e avessi ancora trovato un effetto, ciò aumenterebbe la tua sicurezza che l'effetto è reale (perché era abbastanza forte da sopravvivere all'aggiunta di errori casuali al set di dati). Quindi, per quel motivo, forse la 'correzione' dovrebbe andare dall'altra parte (aumentare il livello alfa richiesto per una 'scoperta'), o semplicemente non disturbarci?

Ad ogni modo, mi dispiace essere così prolisso e ottuso, non sono davvero sicuro di come porre questa domanda in modo più conciso. Grazie per la pazienza.

dataset error

— Jas Max
fonte

È un'ottima domanda (+1). Un punto, però: potrebbe essere un errore sostanziale trattare la maggior parte degli errori di dati che citi come "casuali". Ad esempio, durante le trascrizioni tendono ad esserci molti più scambi di cifre "0", "5", "6" e "8" rispetto ad altre cifre (e alcune di queste possono essere interpretate come "." E viceversa ). Inoltre, le modifiche apportate a valori di dati importanti (come gli estremi) vengono spesso identificate e risolte rapidamente. Sebbene ci sia sicuramente qualche elemento di possibilità in questi processi di corruzione dei dati, caratterizzarli correttamente può essere un problema importante.

— whuber

Perché non trattate gli errori di gestione dei dati fanno parte degli errori di misurazione e li trattate di conseguenza? Se per misurare il numero dei cavalieri del parco divertimenti, devo schierare 20 persone per guardare i cancelli, allora posso considerare questa squadra di 20 persone come un dispositivo di misurazione del genere

— Aksakal,

@whuber, è ancora casuale mescolare 8 e 5, anche se potrebbe non avere la stessa probabilità di mescolare 5 e 7.

— Aksakal,

@whuber, questo è un punto affascinante (frequenza non uguale di alcuni tipi di errori di trascrizione) a cui non avevo pensato. Puoi indicarmi qualche fonte per saperne di più? Mi chiedo se sia possibile sviluppare un test sulla qualità dei dati, basato sulla frequenza delle cifre? Ho sentito parlare di test simili per dati fraudolenti / falsi basati sulla frequenza delle cifre, quindi immagino che qualcosa di simile sarebbe possibile se le tendenze citate fossero coerenti.

— Jas Max,

@whuber, un altro pensiero. Dici che 0, 5, 6, 8 sono spesso confusi - perché si assomigliano? Mi rendo conto che diverse fonti di errore avrebbero errori di sostituzione caratteristici - ad esempio, se stavi ascoltando i dati (registrando ciò che qualcuno ha detto), penso che 5 e 9 sarebbero probabilmente più frequentemente confusi. Se la fonte dell'errore fosse l'entropia (sbiadimento dell'inchiostro o spostamento degli elettroni), penso che la sostituzione sarebbe più casuale, ma forse anche unica. Se questi schemi fossero validi, forse potresti esaminare le fonti di errore in grandi insiemi di dati, in base alla frequenza delle cifre.

— Jas Max,

Secondo il suggerimento di @Aksakal: se l'analista ritiene che l'errore di misurazione sia potenzialmente importante, può e deve essere modellato esplicitamente come parte del processo di generazione dei dati.

Vedo diverse considerazioni che sostengono l'introduzione di un fattore di correzione generico basato, ad esempio, sull'età del set di dati.

Innanzitutto, l'età può essere un proxy molto scarso per il grado di deterioramento dei dati. La tecnologia di duplicazione, compressione e conservazione, e il grado di sforzo e cura per verificare la corretta trascrizione, sono apparentemente i fattori importanti. Alcuni testi antichi (ad esempio, La Bibbia) sono stati conservati per secoli con un degrado apparentemente zero. Il tuo esempio VHS, sebbene legittimo, è in realtà insolito, in quanto ogni evento di duplicazione introduce sempre errori e non ci sono modi semplici per verificare e correggere gli errori di trascrizione - se si utilizzano tecnologie economiche e ampiamente disponibili per la duplicazione e l'archiviazione. Mi aspetto che si riduca sostanzialmente il grado di errori introdotti, attraverso investimenti in sistemi più costosi.

Quest'ultimo punto è più generale: la conservazione e la propagazione dei dati sono attività economiche . La qualità della trasmissione dipende molto dalle risorse impiegate. Queste scelte dipenderanno a loro volta dall'importanza percepita dei dati per chiunque stia eseguendo la duplicazione e la trasmissione.

Considerazioni economiche si applicano anche all'analista. Ci sono sempre più fattori che puoi prendere in considerazione quando fai la tua analisi. In quali condizioni gli errori di trascrizione dei dati saranno abbastanza sostanziali e abbastanza importanti da essere presi in considerazione? Il mio sospetto è: tali condizioni non sono comuni. Inoltre, se la potenziale degradazione dei dati è considerata abbastanza importante da tenerne conto nella tua analisi, allora è probabilmente abbastanza importante fare lo sforzo di modellare esplicitamente il processo, piuttosto che inserire un passaggio generico di "correzione".

Infine, non è necessario sviluppare de novo un fattore di correzione così generico . Esiste già un corpus sostanziale di teoria e pratica statistica per l'analisi di set di dati per i quali l'errore di misurazione è considerato importante.

In breve: è un pensiero interessante. Ma non penso che dovrebbe stimolare alcun cambiamento nella pratica analitica.

— Arthur Small
fonte