Quando è possibile utilizzare criteri basati sui dati per specificare un modello di regressione?


20

Ho sentito che quando molte specifiche del modello di regressione (diciamo, in OLS) sono considerate come possibilità per un set di dati, ciò causa molteplici problemi di confronto e i valori di p e gli intervalli di confidenza non sono più affidabili. Un esempio estremo di ciò è la regressione graduale.

Quando posso utilizzare i dati stessi per aiutare a specificare il modello e quando questo non è un approccio valido? Hai sempre bisogno di avere una teoria basata sull'argomento per formare il modello?

Risposte:


9

Le tecniche di selezione delle variabili, in generale (sia graduale, all'indietro, in avanti, tutti i sottoinsiemi, AIC, ecc.), Sfruttano il caso o i modelli casuali nei dati campione che non esistono nella popolazione. Il termine tecnico per questo è troppo adatto ed è particolarmente problematico con piccoli set di dati, anche se non è esclusivo per loro. Utilizzando una procedura che seleziona le variabili in base alla migliore adattabilità, tutte le variazioni casuali che sembrano adatte in questo particolare campione contribuiscono a stime ed errori standard. Questo è un problema sia per la previsione che per l'interpretazione del modello.

In particolare, il r-quadrato è troppo alto e le stime dei parametri sono distorte (sono troppo lontane da 0), gli errori standard per i parametri sono troppo piccoli (e quindi i valori p e gli intervalli attorno ai parametri sono troppo piccoli / stretti).

La migliore linea di difesa contro questi problemi è quella di costruire modelli pensierosi e includere i predittori che hanno un senso basato su teoria, logica e conoscenza precedente. Se è necessaria una procedura di selezione variabile, è necessario selezionare un metodo che penalizzi le stime dei parametri (metodi di restringimento) regolando i parametri e gli errori standard per tenere conto del sovra-adattamento. Alcuni comuni metodi di contrazione sono la regressione della cresta, la regressione dell'angolo minimo o il lazo. Inoltre, la convalida incrociata che utilizza un set di dati di training e un set di dati di test o la media dei modelli può essere utile per testare o ridurre gli effetti del sovra-adattamento.

Harrell è un'ottima fonte per una discussione dettagliata di questi problemi. Harrell (2001). "Strategie di modellazione della regressione".


Accettando, molto tempo dopo! Grazie per questa panoramica dettagliata dei problemi tecnici e darò un'occhiata al libro di Harrell.
Soddisfazioni

7

Nel contesto delle scienze sociali da cui provengo, il problema è se sei interessato a (a) previsione o (b) testare una domanda di ricerca focalizzata. Se lo scopo è la previsione, gli approcci basati sui dati sono appropriati. Se lo scopo è quello di esaminare una domanda di ricerca focalizzata, è importante considerare quale modello di regressione verifica specificamente la tua domanda.

Ad esempio, se il tuo compito era selezionare una serie di test di selezione per prevedere le prestazioni del lavoro, l'obiettivo può in un certo senso essere visto come uno di massimizzare la previsione delle prestazioni del lavoro. Pertanto, sarebbero utili approcci basati sui dati.

Al contrario, se si desidera comprendere il ruolo relativo delle variabili di personalità e delle variabili di abilità nell'influenzare le prestazioni, un approccio di confronto di modelli specifici potrebbe essere più appropriato.

In genere, quando si esplorano domande di ricerca mirate, l'obiettivo è chiarire qualcosa sui processi causali sottostanti che operano invece di sviluppare un modello con previsione ottimale.

Quando sono in procinto di sviluppare modelli di processo basati su dati trasversali, sarei diffidente nei confronti di: (a) compresi i predittori che teoricamente potrebbero essere considerati conseguenze della variabile risultato. Ad esempio, la convinzione di una persona di essere un buon esecutore è un buon predittore delle prestazioni lavorative, ma è probabile che ciò sia causato almeno in parte dal fatto di aver osservato le proprie prestazioni. (b) incluso un gran numero di predittori che riflettono tutti gli stessi fenomeni sottostanti. Ad esempio, compresi 20 articoli che misurano tutti la soddisfazione della vita in diversi modi.

Pertanto, le domande di ricerca mirate si basano molto di più sulla conoscenza specifica del dominio. Questo probabilmente spiega in qualche modo perché gli approcci basati sui dati sono meno usati nelle scienze sociali.


4

Non penso che sia possibile eseguire Bonferoni o correzioni simili per adattarsi alla selezione delle variabili in regressione perché tutti i test e i passaggi coinvolti nella selezione del modello non sono indipendenti.

Un approccio consiste nel formulare il modello utilizzando un set di dati e fare deduzione su un diverso set di dati. Questo viene fatto in previsione per tutto il tempo in cui abbiamo un set di addestramento e un set di test. Non è molto comune in altri campi, probabilmente perché i dati sono così preziosi che vogliamo usare ogni singola osservazione per la selezione del modello e per l'inferenza. Tuttavia, come noti nella tua domanda, il rovescio della medaglia è che l'inferenza è in realtà fuorviante.

Ci sono molte situazioni in cui un approccio basato sulla teoria è impossibile in quanto non esiste una teoria ben sviluppata. In effetti, penso che questo sia molto più comune dei casi in cui la teoria suggerisce un modello.


4

Richard Berk ha un recente articolo in cui dimostra attraverso la simulazione i problemi di tale snooping dei dati e inferenza statistica. Come Rob ha suggerito , è più problematico della semplice correzione per più test di ipotesi.

Inferenza statistica dopo la selezione del modello di: Richard Berk, Lawrence Brown, Linda Zhao Journal of Quantitative Criminology, vol. 26, n. 2. (1 giugno 2010), pagg. 217-236.

Versione PDF qui


(+1) Grazie per il link! Potresti essere interessato a questa domanda correlata, stats.stackexchange.com/questions/3200/… . Sentiti libero di contribuire.
chl

@chl, non credo di poter aggiungere nulla alle già eccellenti risposte a questa domanda. In realtà penso che la risposta di Brendan sia molto toccante perché sospetto che il poster originale sia davvero interessato all'inferenza causale non solo alla previsione basata sul contesto della domanda.
Andy W,

Sì, stavo pensando alla sua risposta. Ho avviato una riflessione sulla questione del dragaggio dei dati (non esattamente sui problemi di selezione del modello / variabile o inferenza causale), ma finora ho ricevuto poche risposte. Se ti piace aggiungere le tue idee, sarebbe interessante: stats.stackexchange.com/questions/3252/…
chl

2

Se capisco bene la tua domanda, la risposta al tuo problema è correggere i valori p in base al numero di ipotesi.

Ad esempio le correzioni di Holm-Bonferoni, in cui si ordina l'ipotesi (= i diversi modelli) in base al loro valore p e si respingono quelli con ap samller di (valore / indice p desiderato).

Maggiori informazioni sull'argomento sono disponibili su Wikipedia


1
Potresti voler leggere questa risposta a una domanda separata e vedere perché aggiustare i valori di p in questo modo potrebbe non essere la soluzione migliore, stats.stackexchange.com/questions/3200/…
Andy W
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.