La censura è spesso descritta in confronto al troncamento . Una bella descrizione dei due processi è fornita da Gelman et al (2005, p. 235):
I dati troncati differiscono dai dati censurati che non è disponibile alcun conteggio delle osservazioni oltre il punto di troncamento. Con la censura si perdono i
valori delle osservazioni oltre il punto di troncamento, ma si osserva il loro numero.
Il censimento o il troncamento possono verificarsi per valori superiori a un certo livello (censura di destra), inferiori a un certo livello (censura di sinistra) o entrambi.
Di seguito puoi trovare un esempio di distribuzione normale standard che viene censurata al punto 2.0 (al centro) o troncato a 2.0(giusto). Se il campione viene troncato, non abbiamo dati oltre il punto di troncamento, con valori campione censurati sopra il punto di troncamento vengono "arrotondati" al valore limite, quindi sono sovrarappresentati nel campione.
Un esempio intuitivo di censura è che chiedi ai tuoi intervistati la loro età, ma la registra solo fino a un certo valore e tutte le età al di sopra di questo valore, diciamo 60 anni, vengono registrate come "60+". Questo porta ad avere informazioni precise per i valori non censurati e nessuna informazione sui valori censurati.
Un esempio non così tipico di censura nella vita reale è stato osservato nei punteggi degli esami maturi polacchi che hanno attirato molta attenzione su Internet . L'esame viene sostenuto alla fine del liceo e gli studenti devono superarlo per poter fare domanda per l'istruzione superiore. Riesci a indovinare dalla trama in basso qual è la quantità minima di punti di cui gli studenti hanno bisogno per superare l'esame? Non sorprende che il "divario" nella distribuzione altrimenti normale possa essere facilmente "colmato" se si prende una frazione appropriata dei punteggi sovrarappresentati appena sopra la bozza di censura.
In caso di analisi di sopravvivenza
la censura si verifica quando abbiamo alcune informazioni sul tempo di sopravvivenza individuale, ma non conosciamo esattamente il tempo di sopravvivenza
(Kleinbaum e Klein, 2005, p. 5). Ad esempio, trattate i pazienti con alcuni farmaci e li osservate fino alla fine dello studio, ma non sapete cosa succede loro dopo la fine dello studio (c'erano ricadute o effetti collaterali?), L'unica cosa che sapete è che " sopravvissuto " almeno fino alla fine dello studio.
Di seguito puoi trovare esempi di dati generati dalla distribuzione di Weibull modellati usando lo stimatore Kaplan – Meier. La curva blu segna il modello stimato sull'intero set di dati, nel diagramma centrale è possibile vedere il campione censurato e il modello stimato sui dati censurati (curva rossa), a destra si vede il campione troncato e il modello stimato su tale campione (curva rossa). Come puoi vedere, i dati mancanti (troncamento) hanno un impatto significativo sulle stime, ma la censura può essere facilmente gestita utilizzando modelli di analisi di sopravvivenza standard.
Ciò non significa che non è possibile analizzare campioni troncati, ma in questi casi è necessario utilizzare modelli per i dati mancanti che provano a "indovinare" le informazioni sconosciute.
Kleinbaum, DG e Klein, M. (2005). Analisi di sopravvivenza: un testo di autoapprendimento. Springer.
Gelman, A., Carlin, JB, Stern, HS e Rubin, DB (2005). Analisi dei dati bayesiani. Chapman & Hall / CRC.