Qual è la differenza tra censura e troncamento?


30

Nel libro Statistical Models and Methods for Lifetime Data , è scritto:

Censura: quando un'osservazione è incompleta a causa di una causa casuale.
Troncamento: quando la natura incompleta dell'osservazione è dovuta a un processo di selezione sistematico inerente al disegno dello studio.

Cosa si intende per "processo di selezione sistematica inerente al disegno dello studio" nella definizione di troncamento?

Qual è la differenza tra censura e troncamento?


3
Dai un'occhiata alla risposta qui .
Dimitriy V. Masterov,

3
Censura: "Abbiamo avuto un'osservazione in quella regione da qualche parte, ma non sappiamo cosa sia". Troncamento: "Osservazione? Quale osservazione?"
Glen_b

Da dove vengono citate le tue definizioni?
Glen_b

1
@Glen_b Ho modificato la mia domanda.
ABC

Risposte:


57

Le definizioni variano e i due termini sono talvolta usati in modo intercambiabile. Proverò a spiegare gli usi più comuni usando il seguente set di dati:

11.25245

Censura : alcune osservazioni saranno censurate, il che significa che sappiamo solo che sono al di sotto (o al di sopra) del limite. Questo può accadere, ad esempio, se misuriamo la concentrazione di una sostanza chimica in un campione d'acqua. Se la concentrazione è troppo bassa, l'apparecchiatura di laboratorio non è in grado di rilevare la presenza della sostanza chimica. Potrebbe comunque essere presente, quindi sappiamo solo che la concentrazione è inferiore al limite di rilevazione del laboratorio.

<1.5<1.5245,

Troncamento : il processo che genera i dati è tale che è possibile osservare solo i risultati sopra (o sotto) il limite di troncamento. Ciò può avvenire, ad esempio, se le misurazioni vengono eseguite utilizzando un rivelatore che viene attivato solo se i segnali rilevati superano un certo limite. Potrebbero esserci molti segnali in arrivo deboli, ma non possiamo mai dirlo usando questo rivelatore.

245

Quindi, su questo uso dei termini, "censurato" è fuorviante se pensiamo in termini di usi non tecnici della parola? cioè in questo senso statistico, significa qualcosa come "vago" o "noto solo per rientrare in un certo raggio", piuttosto che in qualcosa come il senso non tecnico - cioè soppresso o rimosso, come quando un libro viene rimosso dai negozi perché del suo contenuto.
Marte,

3
Per un esempio concreto di troncamento, le compagnie di assicurazione auto non sentono mai incidenti in cui il danno è inferiore alla franchigia, perché le persone non segnalano lì. Questo è il troncamento sinistro; non vediamo mai dati su questi incidenti. Per un esempio di censura giusta, quando un paziente malato decide di smettere di vedere il proprio medico o si trasferisce in un'altra città, allora tutto ciò che si sa è che erano vivi il giorno della loro partenza, ma non sappiamo quando sono morti .
David White,

@Mars: sono d'accordo che risuoni all'indietro dall'uso non tecnico moderno in cui "censurare" sta rimuovendo ogni traccia di, e "troncare" sta rimuovendo i dettagli. Ma nelle statistiche "censura" è usato nel senso non tecnico più vecchio stile in cui un censore potrebbe rimuovere ma non eliminare alcuna traccia di qualcosa: scatole nere o sfocature posizionate su parti offensive di una foto o di un video, bip che coprono volgarità alla radio, o lettere di soldati a casa o pubblicazioni di documenti classificati in cui le parti censurate (termine più moderno "redatto") sono oscurate.
Wayne,

Immagina di misurare il lasso di tempo tra due tipi di eventi. Ma posso registrare l'evento solo per 1 anno. Il tempo sarà censurato o troncato?
skan

4

Proprio come una prospettiva da un altro campo (programmazione), censurare e troncare sono due operazioni distinte.

Quando si lavora con un set di dati sensibili, ad esempio numeri di previdenza sociale e numeri di telefono, è possibile censurarlo o farlo censurare prima di ottenere l'accesso:

123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000

Ciò consente al resto dell'applicazione di funzionare normalmente, con strutture di dati simili, ma senza contenuti informativi reali o diffusione di informazioni private.

Il troncamento, al contrario, in genere sta semplicemente tagliando i valori rimanenti dopo un certo punto. Per lavorare su un'applicazione, non ho bisogno di centinaia di migliaia di record, forse ne ho bisogno solo di circa 50, il che rende l'accesso ai dati molto più veloce e le serie di dati più piccole.

Una variante simile del troncamento è quando si inserisce un valore in una colonna o un tipo di dati di lunghezza o precisione limitata:

abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10

1
+1 È importante sapere che censurare e troncare può avere significati completamente diversi al di fuori delle statistiche!
Martedì
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.