Modellazione quando la variabile dipendente ha un "cut-off"


12

Ci scusiamo in anticipo se la terminologia che uso non è corretta. Gradirei qualsiasi correzione. Se quello che descrivo come un "cut-off" ha un nome diverso, fammi sapere e posso aggiornare la domanda.

La situazione che mi interessa è questa: hai variabili indipendenti e una singola variabile dipendente . Lo lascerò vago, ma presumo che sarebbe relativamente semplice ottenere un buon modello di regressione per queste variabili. yxy

Tuttavia, il modello che intendi creare è per le variabili indipendenti e la variabile dipendente , dove a è un valore fisso nell'intervallo di y . Allo stesso modo, i dati a cui hai accesso non includono y , solo w .xw=min(y,a)ayyw

Un esempio (alquanto irrealistico) di questo sarebbe se si stesse cercando di modellare per quanti anni le persone percepiranno la pensione. In questo caso, x potrebbe essere informazioni rilevanti come sesso, peso, ore di allenamento a settimana, ecc. La variabile "sottostante" y sarebbe l'aspettativa di vita. Tuttavia, la variabile a cui avresti accesso e che stai tentando di prevedere nel tuo modello sarebbe w=min(0,yr) dove r è l'età pensionabile (supponendo che per semplicità sia fissa).

Esiste un buon approccio per affrontare questo problema nel modello di regressione?


1
Non ne sono certo, ma sembra che potrebbe essere accessibile attraverso alcune variazioni dell'analisi di sopravvivenza. 1) Implica la censura 2) Almeno nel tuo esempio, implica tempo. Ma sarebbe censurato a sinistra piuttosto che censurato a destra (il che è più comune). Se sei d'accordo con me, potresti aggiungere il tag di sopravvivenza e vedere se qualcuno ci salta sopra.
Peter Flom - Ripristina Monica

4
@Peter Mi sembra sicuramente censurato a destra. La parte su cui si verifica la censura è di scarsa importanza, perché negando la variabile dipendente si passa dalla censura destra a quella sinistra.
whuber

@whuber Penso che tu abbia ragione. Ma, come dici tu, la censura può passare abbastanza facilmente.
Peter Flom - Ripristina Monica

L'esempio di pensionamento sembra richiedere un modello di dati di conteggio (se si è disposti a arrotondare per anni interi e fintanto che tutti sono morti prima di eseguire l'analisi). L'approccio variabile latente sembra allungarsi con questo poiché il tempo non può essere negativo.
Dimitriy V. Masterov,

Risposte:


14

Questo tipo di modello ha diversi nomi, a seconda della disciplina e dell'area tematica. Nomi comuni per esso sono Variabili dipendenti censurati, Variabili dipendenti troncate, Variabili dipendenti limitate, Analisi di sopravvivenza, Tobit e Regressione censurata. Probabilmente tralascerò molti altri nomi.

L'impostazione che suggerisci dove viene osservato si chiama "censura giusta", perché i valori di troppo a destra sulla linea reale vengono censurati --- e invece vediamo solo il punto di censura, .min{yi,a}yia

Un modo di trattare dati come questo è attraverso l'uso di variabili latenti (e questo è fondamentalmente ciò che proponi). Ecco un modo per procedere:

yi=xiβ+εiwi=min{yi,a}εiN(0,σ2) iid

Quindi, puoi analizzarlo con la massima probabilità. Le osservazioni in cui si verifica la censura contribuiscono alla funzione di probabilità e le osservazioni in cui non si verifica la censura contribuiscono alla funzione di verosimiglianza. Il CDF dello standard normale è e la densità dello standard normale è . Quindi, la funzione di verosimiglianza assomiglia a:P{yi>a}=Φ(1σxiβa)1σϕ((yixiβ)/σ)Φϕ

L(β,σ)=i  censoredΦ(1σxiβa)i  censored1σϕ((yixiβ)/σ)

Stimare e massimizzandolo. Si ottengono errori standard come i soliti errori standard di massima probabilità.βσ

Come puoi immaginare, questo è solo un approccio tra i tanti.


1
+1 Un esempio funzionante della soluzione ML appare su stats.stackexchange.com/questions/49443 .
whuber

@whuber Questa è una bella esposizione.
Bill
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.