Regressione multipla con variabile predittore mancante

Supponiamo che ci venga fornito un insieme di dati del modulo e . Ci viene assegnato il compito di prevedere base ai valori di . Stimiamo due regressioni in cui: $(y,x_{1},x_{2},\cdots, x_{n})$ $(y,x_{1},x_{2},\cdots, x_{n-1})$ $y$ $x$

\begin{aligned} (1) & y & = f_{1} (x_{1}, \dots, x_{n - 1}, x_{n}) \\ (2) & y & = f_{2} (x_{1}, \dots, x_{n - 1}) \end{aligned}

$\begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align}$

Stimiamo anche una regressione che prevede i valori di base ai valori di , ovvero: $x_{n}$ $(x_{1},\cdots, x_{n-1})$

\begin{matrix} (3) & x_{n} = f_{3} (x_{1}, \dots, x_{n - 1}) \end{matrix}

$x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3}$

Supponiamo ora che ci vengano dati i valori di , quindi avremmo due metodi diversi per prevedere : $(x_{1},\cdots, x_{n-1})$ $y$

\begin{aligned} (4) & y & = f_{1} (x_{1}, \dots, x_{n - 1}, f_{3} (x_{1}, \dots, x_{n - 1})) \\ (5) & y & = f_{2} (x_{1}, \dots, x_{n - 1}) \end{aligned}

$\begin{align} y&=f_{1}(x_{1},\cdots, x_{n-1},f_{3}(x_{1},\cdots,x_{n-1})) \tag{4} \\ y&=f_{2}(x_{1},\cdots, x_{n-1}) \tag{5} \end{align}$

Quale sarebbe meglio in generale?

Immagino che la prima equazione sarebbe migliore perché utilizza le informazioni provenienti dalle due forme di punti dati mentre la seconda equazione utilizza le informazioni solo dai punti dati che hanno valori predittori $n-1$ . La mia formazione in statistica è limitata e quindi vorrei chiedere una consulenza professionale.

Inoltre, in generale, qual è l'approccio migliore nei confronti dei dati con informazioni incomplete? In altre parole, come possiamo estrarre la maggior parte delle informazioni dai dati che non hanno valori in tutte le $n$ dimensioni?

— Xiaowen Li
fonte

Stima con valori reali e stima con stime - decidi tu :)

— Dottorato di ricerca

È davvero così semplice?

— Xiaowen Li,

La risposta potrebbe essere, dipende. Quanti dati mancano? Quanti dati hai nel complesso? Quanti predittori hai?

— Joel W.,

+1, penso che questa sia una domanda davvero interessante e chiaramente dichiarata. Tuttavia, ulteriori informazioni ci aiuteranno a riflettere su questa situazione.

Ad esempio, qual è la relazione tra e ? È del tutto possibile che non ce ne sia uno, nel qual caso la regressione non offre alcun vantaggio rispetto alla regressione . (In realtà, è in una molto leggero svantaggio, nel senso che gli errori standard saranno leggermente più grande, e quindi beta potrebbero essere leggermente maggiori, in media, dai loro valori veri.) Se v'è una funzione di mappatura a , quindi, per definizione, ci sono informazioni reali lì e la regressione sarà migliore nella situazione iniziale. $x_n$ $y$ $(1)$ $(2)$ $x_n$ $y$ $(1)$

Quindi, qual è la natura della relazione tra e ? Ce n'è uno? Ad esempio, quando conduciamo esperimenti, (di solito) proviamo ad assegnare un numero uguale di unità di studio a ciascuna combinazione di valori delle variabili esplicative. (Questo approccio utilizza un multiplo del prodotto cartesiano dei livelli delle IV, ed è chiamato un disegno 'fattoriale completo'; ci sono anche casi in cui i livelli sono intenzionalmente confusi per salvare i dati, chiamati disegni ' fattoriali frazionari '.) Se il le variabili esplicative sono ortogonali, la tua terza regressione produrrà assolutamente, esattamente 0. D'altra parte, in uno studio osservazionale le covariate sono praticamente sempre $(x_1, \cdots, x_{n-1})$ $x_n$ correlato. Più forte è questa correlazione, meno informazioni esistono in . Questi fatti moduleranno i meriti relativi di regressione e regressione . $x_n$ $(1)$ $(2)$

Tuttavia, (purtroppo forse) è più complicato di così. Uno dei concetti importanti, ma difficili, nella regressione multipla è la multicollinearità . Se provi a stimare la regressione , scoprirai di avere una perfetta multicollinearità e il tuo software ti dirà che la matrice di progettazione non è invertibile. Pertanto, mentre la regressione può offrire un vantaggio rispetto alla regressione , la regressione no. $(4)$ $(1)$ $(2)$ $(4)$

La domanda più interessante (e quella che stai ponendo) è cosa succede se usi la regressione per fare previsioni su usando i valori stimati emessi dalle previsioni di regressione ? (Cioè, non stai stimando la regressione stai collegando l'output dell'equazione di previsione stimata nella regressione nel modello di previsione . Il fatto è che non stai effettivamente guadagnando nulla di nuovo informazioni qui. Qualunque informazione esista nei primi valori del predittore per ogni osservazione è già utilizzata in modo ottimale dalla regressione $(1)$ $y$ $x_n$ $(3)$ $(4)$ $(3)$ $(4)$ $n-1$ $(2)$ , quindi non c'è guadagno.

Pertanto, la risposta alla tua prima domanda è che potresti anche andare con la regressione per le tue previsioni per salvare il lavoro inutile. Nota che ho affrontato questo problema in modo abbastanza astratto, piuttosto che affrontare la situazione concreta che descrivi in cui qualcuno ti consegna due set di dati (non riesco proprio a immaginare che ciò accada). Invece, sto pensando a questa domanda come a cercare di capire qualcosa di abbastanza profondo sulla natura della regressione. Ciò che accade occasionalmente, tuttavia, è che alcune osservazioni hanno valori su tutti i predittori e ad alcune altre osservazioni (all'interno dello stesso set di dati) mancano alcuni valori su alcuni dei predittori. Ciò è particolarmente comune quando si tratta di dati longitudinali. In una situazione del genere, si desidera indagare sull'imputazione multipla . $(2)$

— gung - Ripristina Monica
fonte

Grazie Gung per la risposta dettagliata e mi aiuti a modificare la formulazione della mia domanda. Risponderò una volta interpretata completamente la tua risposta. Per tua informazione, questo è uno studio osservazionale sul prezzo delle lampadine. include le ore di vita, la luminosità e la temperatura di colore della lampadina. Le informazioni vengono raccolte dai rivenditori che di solito non danno tutto, causando predittori mancanti. Tuttavia stiamo cercando di ottenere il massimo dalle informazioni che abbiamo raccolto.

x_{n}

$x_n$

— Xiaowen Li,

OK, pensavo si trattasse solo di capire la regressione. Guarderei nell'imputazione multipla.

— gung - Ripristina Monica

Grazie Gung per la tua comprensione. Hai ragione sul fatto che non si ottengono nuove informazioni utilizzando l'equazione 4. L'imputazione si rivela esattamente ciò di cui avevo bisogno. E hai ragione, ho incontrato collinearità multipla, dandomi un valore p molto elevato per i coefficienti. Quindi ho dovuto scegliere se ridurre il numero di variabili ottenere un valore p più piccolo per i coefficienti o ottenere un più grande e una p più grande. Immagino che la vita sia piena di compromessi.

r^{2}

$r^2$

— Xiaowen Li,

Grazie ancora per le discussioni astratte sulle regressioni. Le statistiche possono essere meravigliosamente intriganti se le consideriamo un metodo per trovare la verità. Ne esaminerò di più una volta che avrò finito con il mio set di dati :)

— Xiaowen Li,

Dovresti dare un'occhiata all'imputazione frazionaria parametrica. Questo è il lavoro svolto da Jae Kwang Kim nello Stato dello Iowa che potrebbe essere perfetto per questa situazione. Vedi biomet.oxfordjournals.org/content/98/1/119.abstract

— StatStudent