Che cos'è un controllo di coerenza?


11

Mi è stata posta una domanda del tipo "Hai fatto qualche controllo di coerenza nel tuo lavoro quotidiano?" durante un'intervista telefonica per una posizione biostatistica. Non so cosa rispondere. Qualsiasi informazione è apprezzata

Risposte:


17

All'elenco di chl, che si concentra su errori di elaborazione dei dati sinceri, aggiungerei controlli per errori più sottili per affrontare le seguenti domande e problemi (dati in nessun ordine particolare e certamente incompleti):

  1. Supponendo l'integrità del database, i dati sono ragionevoli? Si conformano grosso modo alle aspettative o ai modelli convenzionali o sorprenderanno qualcuno che abbia familiarità con dati simili?

  2. I dati sono internamente coerenti? Ad esempio, se un campo dovrebbe essere la somma di altri due, vero?

  3. Quanto sono completi i dati? Sono quelli che sono stati specificati durante la fase di pianificazione della raccolta dei dati? Ci sono altri dati per i quali non sono stati pianificati? Se è così, perché sono lì?

  4. La maggior parte delle analisi modella in modo implicito o esplicito i dati in modo parsimonioso e include la possibilità di variazione rispetto alla descrizione generale. Ciascuno di questi modelli suggerisce il suo modo particolare di identificare i valori anomali: i dati che si discostano notevolmente dalla descrizione generale. Sono stati fatti tentativi per identificare e comprendere i valori anomali in ogni fase dell'esplorazione e dell'analisi?

  5. In molti casi è possibile che l'analista introduca nell'analisi ulteriori dati per il controllo e la comprensione della qualità. Ad esempio, molti set di dati nelle scienze naturali e sociali e negli affari includono (almeno implicitamente) informazioni sulla posizione: identificatori delle regioni del censimento; nomi di paesi, stati, contee; codici postali cliente; e così via. Anche se - forse specialmente se - la correlazione spaziale non è un elemento dell'EDA o della modellistica, l'analista può unire i dati alle rappresentazioni geografiche dei luoghi e mapparli per cercare schemi e valori anomali.

  6. Uno degli errori più insidiosi che possono insinuarsi in un'analisi è la perdita di dati. Durante l'estrazione di campi, il riepilogo di dati, la riformattazione di set di dati, ecc., Se uno o due elementi vengono eliminati da un set di dati di grandi dimensioni, spesso non sarà necessario contrassegnarlo. Ma a volte qualcosa di importante viene perso, con estremo imbarazzo se mai scoperto. Controlli semplici - come il confronto dei conteggi prima e dopo e i totali dei dati - devono essere eseguiti di routine per evitare tali cose.

  7. Un altro errore insidioso è associato alla conversione del tipo nel calcolo digitale. Ad esempio, recentemente ho dovuto costruire una chiave (per abbinare due file di dati) da un campo in virgola mobile. Il software (Stata) ha importato il campo come float di precisione singolo in un file ma, per qualsiasi motivo, come float di precisione doppia in un altro file. Il più delle volte i valori corrispondevano ma, in alcuni casi a causa di arrotondamenti diversi, non corrispondevano. Alcuni dati sono stati persi di conseguenza. L'ho preso solo a causa dell'applicazione di (6). In generale, vale la pena verificare la coerenza dei tipi di dati del campo: ints vs. float, lunghezze di stringhe, ecc.

  8. Se un foglio di calcolo viene mai utilizzato in qualsiasi fase dell'analisi, aspettati il ​​peggio. Il problema è che anche una semplice pressione di un tasto può corrompere in modo invisibile i dati. Quando i risultati sono critici, vale la pena andare avanti e indietro - esportare nel foglio di calcolo, fare analisi, importare e confrontare sistematicamente - per assicurarsi che non sia accaduto nulla di spiacevole.

  9. Ogni volta che un database viene aggiornato, vale la pena mettere in pausa ed eseguire confronti sistematici e completi con quello precedente per assicurarsi che nulla sia stato perso, modificato o corrotto nel processo.

  10. A un livello superiore, ogni volta che viene eseguita una stima (come una regressione, PCA, qualunque cosa), può essere utile eseguirla utilizzando una tecnica diversa per verificare la sensibilità o persino possibili errori nel codice. Ad esempio, seguire una regressione OLS con una qualche forma di regressione robusta e confrontare i coefficienti. Per risultati importanti, può essere confortante ottenere le risposte utilizzando due (o più) piattaforme software diverse.

Forse il miglior tipo di "controllo di coerenza" generale che chiunque può eseguire è rappresentare graficamente tutto, in anticipo e spesso.


8

Suppongo che ciò abbia a che fare con una qualche forma di controllo di qualità sull'integrità dei dati e, più specificamente, controlli regolarmente che il database di lavoro non sia danneggiato (a causa di errori durante il trasferimento, la copia o dopo un aggiornamento o un controllo di integrità ). Ciò può anche significare garantire che il tuo calcolo intermedio sia ricontrollato (manualmente o tramite codice o macro aggiuntivi nel tuo software statistico).

Altre informazioni possono essere trovate qui: la guida di riferimento ICH E6 (R1) sulle Linee guida per le buone pratiche cliniche dall'EMEA, Linee guida sulle buone pratiche cliniche di laboratorio o Toolbox per gli investigatori dello studio di ricerca clinica .


1

da aggiungere agli altri punti positivi

Quando utilizzo Excel, creo sempre un numero di caso come prima colonna per ogni riga, che viene quindi copiato nell'ultima colonna. Excel sembra abbastanza felice di ordinare solo poche colonne alla volta, causando il caos se non stai attento a selezionarle tutte. Potresti anche non essere consapevole che questo è successo. Essere in grado di verificare che i numeri dei casi coincidano nella prima e nell'ultima colonna di una riga è un'utile precauzione.

Esamino sempre gli outlier.

Si raccomanda una doppia immissione di dati da parte di persone separate per lavori critici.

Quando si inseriscono dati da documenti cartacei, è una buona idea utilizzare un identificatore di riferimento per poter fare riferimento al documento e alla riga esatti da cui deriva la voce, la numerazione dei moduli di registrazione dei dati aiuta in questo.

Modifica - Un altro elemento - So che la modifica dei fogli di calcolo è piena di problemi, ma è molto più semplice ripulire l'immissione dei dati con essi. Tuttavia, mantengo anche la versione originale non modificata, in modo che eventuali modifiche possano essere verificate o nel peggiore dei casi ripristinate.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.