Descrittivamente, vorrei offrire "un campione di dati viene censurato se alcune osservazioni in esso assumono o costituiscono i valori estremi del campione ma il loro vero valore è al di fuori dell'intervallo del campione osservato". Ma questo è ingannevolmente semplice.
Quindi, prima di tutto discutiamo di come possiamo concludere che un set di dati è censurato, il che naturalmente ci condurrà a discutere i casi presentati nella domanda.
Supponiamo di avere il seguente set di dati da una variabile casuale discreta , per la quale l'unica cosa che sappiamo è che non è negativa:X
{0,1,1,2,2,2,2,2,2,2}
Possiamo dire che il set di dati è censurato? Bene, abbiamo il diritto di pensare che potrebbe essere, ma non è necessariamente così:
1) può avere un intervallo { 0 , 1 , 2 } e una distribuzione di probabilità { 0,1 , 0,1 , 0,8 } . Se questo è davvero il caso, sembra che qui non ci sia censura, ma solo un campione "anticipato" da una tale variabile casuale, con supporto limitato e distribuzione altamente asimmetrica. X{0,1,2}{0.1,0.1,0.8}
2) Ma può essere il caso che ha la gamma { 0 , 1 , . . . , 9 } con distribuzione di probabilità uniforme { 0,1 , 0,1 , . . .0 .1 } , nel qual caso il nostro campione di dati è molto probabilmente censurato. X{0,1,...,9}{0.1,0.1,...0.1}
Come possiamo dirlo? Non possiamo, tranne se possediamo conoscenze o informazioni precedenti , che ci consentiranno di discutere a favore dell'uno o dell'altro caso. I tre casi presentati nella domanda rappresentano una conoscenza preliminare dell'effetto della censura? Vediamo:
Il caso A) descrive una situazione in cui per alcune osservazioni abbiamo solo informazioni qualitative come "molto grande", "molto piccolo" ecc., Che ci porta ad assegnare all'osservazione un valore estremo. Notare che semplicemente non conoscere il valore reale realizzato non giustifica l'assegnazione di un valore estremo. Quindi dobbiamo avere alcune informazioni sull'effetto che per queste osservazioni, il loro valore supera o è inferiore a tutti quelli osservati. In questo caso, l'intervallo effettivo della variabile casuale è sconosciuto, ma le nostre informazioni qualitative ci consentono di creare un campione censurato (è un'altra discussione sul perché non abbandoniamo solo le osservazioni per le quali non possediamo il valore reale realizzato ).
Il caso B) non è un caso di censura, se lo capisco correttamente, ma piuttosto un caso di campione contaminato: le nostre informazioni a priori ci dicono che il valore massimo della variabile casuale non può superare (a causa di una legge fisica o di un diritto sociale - supponiamo che si tratti dei dati dei voti da un sistema di classificazione che utilizza solo i valori 1 , 2 , 3 ). Ma abbiamo osservato anche il valore 4 e il valore 5 . Come può essere? Errore nella registrazione dei dati. Ma in tal caso, non sappiamo con certezza che i 4 e i 5 dovrebbero essere tutti e 331,2,345453(in effetti, guardando la tastiera laterale di un computer, è più probabile che i siano 1 e i 5 siano 2 !). "Correggendo" in qualunque modo il campione, non lo rendiamo censurato, perché la variabile casuale non dovrebbe inizialmente spaziare nell'intervallo registrato (quindi non ci sono vere probabilità assegnate ai valori 4 e 5 ). 415245
Il caso C) si riferisce a un campione congiunto, in cui abbiamo una variabile dipendente e predittori. Qui, potremmo avere un campione in cui i valori della variabile dipendente sono concentrati a uno o entrambi gli estremi, a causa della struttura del fenomeno in esame: nell'esempio usuale "ore lavorate", i disoccupati non lavorano ma avrebbero ha funzionato (pensa attentamente: questo caso rientra davvero nella "definizione" descrittiva all'inizio di questa risposta?). Quindi includerli nella regressione con le ore registrate "zero" creano distorsioni. All'altro estremo, si può sostenere che il numero massimo di ore lavorate può raggiungere, diciamo 16/ giorno e potrebbero esserci dipendenti disposti a lavorare così tanti per una determinata retribuzione. Ma il quadro giuridico non lo consente e quindi non osserviamo tali "ore lavorate". Qui, stiamo provando a stimare la " funzione di offerta di lavoro prevista ", ed è rispetto a questa variabile che il campione è caratterizzato come censurato.
Ma se dichiarassimo che ciò che vogliamo fare è stimare "la funzione dell'offerta di lavoro dato il fenomeno della disoccupazione e il quadro giuridico", il campione non verrebbe censurato, poiché rifletterebbe l'effetto di questi due aspetti, qualcosa che vogliamo da fare.
Quindi vediamo che la caratterizzazione di un campione di dati come censurato
a) può provenire da diverse situazioni
eb) richiede un po 'di cura
da sola il fatto che può essere confuso con il caso del troncamento .