Cosa sono esattamente i dati censurati?


14

Ho letto diverse descrizioni di dati censurati:

A) Come spiegato in questa discussione, i dati non quantificati al di sotto o al di sopra di una determinata soglia vengono censurati. Non qualificato significa che i dati sono al di sopra o al di sotto di una certa soglia ma non conosciamo il valore esatto. I dati vengono quindi contrassegnati sul valore di soglia basso o alto nel modello di regressione. Corrisponde alla descrizione in questa presentazione , che ho trovato molto chiara (seconda diapositiva nella prima pagina). In altre parole, è limitato al minimo, al massimo o ad entrambi perché non conosciamo il vero valore al di fuori di tale intervallo.Y

B) Un amico mi ha detto che possiamo applicare un modello di dati censurato a osservazioni parzialmente sconosciute , a condizione che abbiamo almeno alcune informazioni limite sugli esiti sconosciuti . Ad esempio, vogliamo stimare il prezzo finale per un mix di aste silenziose e aperte sulla base di alcuni criteri qualitativi (tipo di merci, paese, ricchezza degli offerenti, ecc.). Mentre per le aste aperte conosciamo tutti i prezzi finali , per le aste silenziose conosciamo solo la prima offerta (diciamo $ 1.000) ma non il prezzo finale. Mi è stato detto che in questo caso i dati sono censurati dall'alto e dovrebbe essere applicato un modello di regressione censurato.YYiYi

C) Infine c'è la definizione data da Wikipedia in cui manca del tutto ma i predittori sono disponibili. Non sono sicuro di come questo esempio sia diverso dai dati troncati.Y

Cosa sono esattamente i dati censurati?


6
L'articolo di Wikipedia più pertinente è su en.wikipedia.org/wiki/Censoring_%28statistics%29 . Sebbene non esaustivo, descrive almeno la censura di tipo I e di tipo II e riconosce la censura degli intervalli insieme alla censura di destra e di sinistra.
whuber

Risposte:


8

Considera i seguenti dati su un risultato y una covariata x :

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

Per l'utente 1, abbiamo i dati completi. Per tutti gli altri, abbiamo dati incompleti. Gli utenti 2, 3 e 4 sono tutti censurati: il risultato corrispondente ai valori noti della covariata non è osservato o non è osservato esattamente (censurato a sinistra, a destra e ad intervallo). A volte questo è un artefatto di considerazioni sulla privacy nella progettazione del sondaggio. Altre volte, succede per altri motivi. Ad esempio, non osserviamo alcun salario al di sotto del salario minimo o la domanda effettiva di biglietti per concerti al di sopra della capacità dell'arena.

L'utente 5 viene troncato: mancano sia il risultato sia la covariata. Questo di solito accade perché raccogliamo solo dati su persone che hanno fatto qualcosa. Ad esempio, esaminiamo solo le persone che hanno acquistato qualcosa ( ), quindi escludiamo chiunque abbia y = 0 insieme alle loro x s. Potremmo anche non avere una riga per questo tipo di utente nei dati di uscita, anche se sappiamo che esistono perché conosciamo la regola utilizzata per generare il nostro campione. Un altro esempio è il troncamento accidentale : osserviamo le offerte salariali solo per le persone che fanno parte della forza lavoro, perché presumiamo che l'offerta salariale sia il salario quando lavori. Il troncamento è secondario poiché non dipende da yy>0y=0xy, ma su un'altra variabile.

In breve, il troncamento implica una perdita di informazioni maggiore rispetto alla censura (punti A e B). Entrambi questi tipi di "mancanza" sono sistematici.

Lavorare con questo tipo di dati comporta in genere una forte ipotesi di distribuzione sull'errore e la modifica della probabilità di tenerne conto. Sono anche possibili approcci semi-parametrici più flessibili. Questo è implicito nel tuo punto B.


2
Due aspetti di questa risposta mi confondono. In primo luogo, i valori puramente mancanti non riflettono necessariamente il troncamento. In secondo luogo, il modo di censurare ("casuale" rispetto a "informativo") è spesso importante quanto il fatto di censurare, indicando che c'è di più nella censura rispetto alla semplice registrazione di dati con intervallo di valori.
whuber

Questo è un ottimo esempio. Significa che a ciascun possono essere applicati "limiti di censura" diversi ? Come formuliamo il modello in questo caso? Ciò convaliderebbe la mia dichiarazione di amico in B). y
Robert Kubrick,

1
Se sei disposto ad assumere errori omoschedastici, normalmente distribuiti, la probabilità può essere scritta in questo modo e puoi usare MLE con soglie di censura specifiche dell'osservazione.
Dimitriy V. Masterov,

3
@Peter Non è (giusto) censurare? Il troncamento si verificherebbe quando tutte queste persone sono escluse e non contate affatto nel campione. Vedi en.wikipedia.org/wiki/Truncation_(statistics) .
whuber

1
@Peter Che cosa ti confonde scrivi "allora sappiamo che l'IMC di quella persona è superiore a 30": come puoi riferirti a qualcuno che non è nemmeno nel tuo campione ("non è stato contato")? Un'osservazione del modulo "BMI> 30" sta censurando, mentre la completa esclusione di tutte queste osservazioni dall'analisi, anche quando potrebbero esistere nella popolazione, è il troncamento. In quest'ultimo caso, tutto ciò che si può dire è "le persone con BMI superiore a 30 sono state escluse dal campione".
whuber

9

Descrittivamente, vorrei offrire "un campione di dati viene censurato se alcune osservazioni in esso assumono o costituiscono i valori estremi del campione ma il loro vero valore è al di fuori dell'intervallo del campione osservato". Ma questo è ingannevolmente semplice.

Quindi, prima di tutto discutiamo di come possiamo concludere che un set di dati è censurato, il che naturalmente ci condurrà a discutere i casi presentati nella domanda.

Supponiamo di avere il seguente set di dati da una variabile casuale discreta , per la quale l'unica cosa che sappiamo è che non è negativa:X

{0,1,1,2,2,2,2,2,2,2}

Possiamo dire che il set di dati è censurato? Bene, abbiamo il diritto di pensare che potrebbe essere, ma non è necessariamente così:

1) può avere un intervallo { 0 , 1 , 2 } e una distribuzione di probabilità { 0,1 , 0,1 , 0,8 } . Se questo è davvero il caso, sembra che qui non ci sia censura, ma solo un campione "anticipato" da una tale variabile casuale, con supporto limitato e distribuzione altamente asimmetrica. X{0,1,2}{0.1,0.1,0.8}

2) Ma può essere il caso che ha la gamma { 0 , 1 , . . . , 9 } con distribuzione di probabilità uniforme { 0,1 , 0,1 , . . .0 .1 } , nel qual caso il nostro campione di dati è molto probabilmente censurato. X{0,1,...,9}{0.1,0.1,...0.1}

Come possiamo dirlo? Non possiamo, tranne se possediamo conoscenze o informazioni precedenti , che ci consentiranno di discutere a favore dell'uno o dell'altro caso. I tre casi presentati nella domanda rappresentano una conoscenza preliminare dell'effetto della censura? Vediamo:

Il caso A) descrive una situazione in cui per alcune osservazioni abbiamo solo informazioni qualitative come "molto grande", "molto piccolo" ecc., Che ci porta ad assegnare all'osservazione un valore estremo. Notare che semplicemente non conoscere il valore reale realizzato non giustifica l'assegnazione di un valore estremo. Quindi dobbiamo avere alcune informazioni sull'effetto che per queste osservazioni, il loro valore supera o è inferiore a tutti quelli osservati. In questo caso, l'intervallo effettivo della variabile casuale è sconosciuto, ma le nostre informazioni qualitative ci consentono di creare un campione censurato (è un'altra discussione sul perché non abbandoniamo solo le osservazioni per le quali non possediamo il valore reale realizzato ).

Il caso B) non è un caso di censura, se lo capisco correttamente, ma piuttosto un caso di campione contaminato: le nostre informazioni a priori ci dicono che il valore massimo della variabile casuale non può superare (a causa di una legge fisica o di un diritto sociale - supponiamo che si tratti dei dati dei voti da un sistema di classificazione che utilizza solo i valori 1 , 2 , 3 ). Ma abbiamo osservato anche il valore 4 e il valore 5 . Come può essere? Errore nella registrazione dei dati. Ma in tal caso, non sappiamo con certezza che i 4 e i 5 dovrebbero essere tutti e 331,2,345453(in effetti, guardando la tastiera laterale di un computer, è più probabile che i siano 1 e i 5 siano 2 !). "Correggendo" in qualunque modo il campione, non lo rendiamo censurato, perché la variabile casuale non dovrebbe inizialmente spaziare nell'intervallo registrato (quindi non ci sono vere probabilità assegnate ai valori 4 e 5 ). 415245

Il caso C) si riferisce a un campione congiunto, in cui abbiamo una variabile dipendente e predittori. Qui, potremmo avere un campione in cui i valori della variabile dipendente sono concentrati a uno o entrambi gli estremi, a causa della struttura del fenomeno in esame: nell'esempio usuale "ore lavorate", i disoccupati non lavorano ma avrebbero ha funzionato (pensa attentamente: questo caso rientra davvero nella "definizione" descrittiva all'inizio di questa risposta?). Quindi includerli nella regressione con le ore registrate "zero" creano distorsioni. All'altro estremo, si può sostenere che il numero massimo di ore lavorate può raggiungere, diciamo 16/ giorno e potrebbero esserci dipendenti disposti a lavorare così tanti per una determinata retribuzione. Ma il quadro giuridico non lo consente e quindi non osserviamo tali "ore lavorate". Qui, stiamo provando a stimare la " funzione di offerta di lavoro prevista ", ed è rispetto a questa variabile che il campione è caratterizzato come censurato.
Ma se dichiarassimo che ciò che vogliamo fare è stimare "la funzione dell'offerta di lavoro dato il fenomeno della disoccupazione e il quadro giuridico", il campione non verrebbe censurato, poiché rifletterebbe l'effetto di questi due aspetti, qualcosa che vogliamo da fare.

Quindi vediamo che la caratterizzazione di un campione di dati come censurato
a) può provenire da diverse situazioni
eb) richiede un po 'di cura
da sola il fatto che può essere confuso con il caso del troncamento .


6
Questa sembra essere una prospettiva econometrica. Si noti che nella ricerca biomedica è comune avere durate (possibilmente letteralmente sopravvivenza) come risposta e avere pazienti censurati per non aver vissuto l'evento entro la fine del periodo di osservazione. Ma anche per avere pazienti che hanno abbandonato o sono stati persi per il follow-up durante il periodo di osservazione. (Forse si sono allontanati e il contatto è stato perso.) Possiamo sapere che il tempo di sopravvivenza è> l'ultimo contatto, ma potrebbe essere più breve della fine del periodo di osservazione.
gung - Ripristina Monica

Il caso B non riguarda dati errati o contaminati. Supponiamo di voler stimare il prezzo finale di un mix di aste silenziose e aperte sulla base di alcuni criteri qualitativi (tipo di merci, paese, ricchezza degli offerenti, ...). Per le aste silenziose conosciamo solo la prima offerta (diciamo $ 1.000) ma non il prezzo finale. Mi è stato detto che possiamo usare i dati delle aste silenziose usando una qualche forma di modellazione censurata.
Robert Kubrick,

1
@gung questo è certamente un approccio econometrico, dato chi ha scritto la risposta!
Alecos Papadopoulos,

1
@RobertKunrick Quello che descrivi non corrisponde al caso B. Il modo in cui viene descritto il caso B, osserviamo un intervallo di valori, e poi ci viene detto che alcuni dei valori osservati sono in realtà impossibili. In che modo corrisponde all'esempio delle aste?
Alecos Papadopoulos,

Per favore, non prenderlo come una critica, @AlecosPapadopoulos. Non penso che ci sia qualcosa di sbagliato. Voglio solo sottolineare che i termini sono usati in modo diverso in campi diversi, e questa non è la convenzione è stat / biostat.
gung - Ripristina Monica

2

Per me censurare significa che osserviamo informazioni parziali su un'osservazione . Quello che voglio dire con questo è che, piuttosto che osservare Z i = z i osserviamo Z iun i cui un i è la realizzazione di A i , che è circa coarsening casuale dello spazio campionario. Potremmo immaginare di selezionare prima una partizione A i dello spazio campione Z , quindi Z i viene generato e riportiamo A iA i tale cheZioZio=zioZioun'ioun'ioUNioUNioZZioUNioUNio (equivalentemente, riportiamo I ( Z iA ) per tutti A A i ). La censura non informativa di Z i , ad esempio, significa che A i è indipendente da Z i .ZioUNioio(ZioUN)AAiZiAiZi

Questo è un po 'euristico e sciatto. Probabilmente dovremmo anche richiedere che la distribuzione di sia non degenerata per considerare Z i censurato. Possiamo anche notare che, come definito, si tratta di una generalizzazione dei dati mancanti in cui per Z i = ( X i , Y i ) si potrebbe dire che Y i manca se a i = { x } × Y dove Y[ZiZiai]ZiZi=(Xi,Yi)Yiai={x}×YYè lo spazio campione di e di ' Z i è mancante se un i = Z . Quando si dice " Z i è censurato", se seguono la mia definizione, ciò che di solito significano è " Z i è censurato, ma non manca".YZiai=ZZiZi


1

È importante distinguere i dati censurati rispetto a quelli troncati e mancanti .

Il censimento si applica specificamente al problema dell'analisi di sopravvivenza e dei risultati del time-to-event in cui si presume che l'evento a portata di mano si sia verificato in qualche momento oltre il punto in cui hai smesso di osservare quell'individuo . Un esempio sono gli uomini che hanno rapporti sessuali con uomini (MSM) e il rischio di incidenti HIV in uno studio prospettico che sposta e interrompe il contatto con i coordinatori dello studio.

Il troncamento si applica a una variabile continua che valuta un punto specifico in cui è noto che il valore effettivo è maggiore o minore di quel punto. Un esempio è il monitoraggio dei soggetti con HIV e lo sviluppo dell'AIDS in piena regola, il conteggio delle cellule CD4 che scende al di sotto di 300 viene valutato al limite inferiore di rilevamento 300.

Infine, i dati mancanti sono dati che hanno valori reali che non vengono osservati in alcun senso. I dati censurati non mancano di dati time-to-event né vengono troncati.


1
There's another use of "truncation": to describe a data-generating process where observations above/below cut-offs are unobtainable. A classic example involves counting the no.eggs found in the nests of a particular bird species, where the species can only be identified from the egg; empty nests could be from any species so the no. zeroes is unknown. If the no. eggs follows a Poisson distribution, the egg counts from non-empty nests follow a truncated Poisson. So truncation produces missing data according to a specific well defined mechanism.
Scortchi - Reinstate Monica

1
... I dati sul conteggio delle cellule sono effettivamente censurati in base alla comprensione del termine da parte di molte persone, che non si limita alle misurazioni del tempo-evento, perché si conosce tutto su ciascun argomento, tranne quanto inferiore a 300 il suo conteggio delle cellule; "troncamento" qui (in alternativa "Winsorization") descrive il metodo di analisi, vale a dire il trattamento di valori inferiori a 300 come se fossero uguali a 300.
Scortchi - Ripristina Monica

Un chiaro riferimento al concetto di censura dell'analisi di sopravvivenza: itl.nist.gov/div898/handbook/apr/section1/apr131.htm .
Eric O Lebigot,

-1
  1. Censurato: è un termine usato per indicare che il periodo di osservazione è stato interrotto prima che si verificasse l'evento di interesse. Pertanto, i "dati censurati" indicano che il periodo di un determinato evento non è o non si è mai verificato

3
Benvenuti nel sito. Se questo viene copiato da una fonte, si prega di citare la fonte.
gung - Ripristina Monica

3
La censura si applica a osservazioni molto più che dipendenti dal tempo. Ad esempio, anche le misurazioni delle concentrazioni chimiche al di sotto del limite di rilevazione vengono censurate.
whuber

@whuber: Posso offrire un emendamento amichevole a tale osservazione. Le concentrazioni chimiche che scendono al di sotto del limite di rilevazione sono effettivamente censurate, ma poiché non possono essere potenzialmente negative, le analisi dovrebbero considerarle troncate a zero. La mia comprensione della distinzione tra censura e troncamento è che il troncamento si applica alla gamma di parametri possibili per la distribuzione sottostante.
DWin,

@DWin Grazie per quel chiarimento ponderato. Posso solo essere d'accordo con il primo punto. Nella stragrande maggioranza dei set di dati che ho analizzato, tuttavia, è stato necessario ri-esprimere le concentrazioni come logaritmi - e lì la distinzione scompare. In altri set di dati in cui è stato sottratto lo sfondo (come le misurazioni radiologiche), non esiste neppure un endpoint sinistro definito. Il tuo secondo punto mi sembra insolito: non ho mai visto "troncamento" usato per fare riferimento alla creazione di un sottoinsieme di una famiglia di distribuzione.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.