In psicologia e in altri campi viene spesso impiegata una forma di regressione graduale che prevede quanto segue:
- Guarda i predittori rimanenti (all'inizio non ce ne sono nel modello) e identifica il predittore che determina la più grande variazione del quadrato r;
- Se il valore p della variazione del quadrato r è inferiore a alfa (in genere 0,05), includere tale predittore e tornare al passaggio 1, altrimenti interrompere.
Ad esempio, vedere questa procedura in SPSS .
La procedura viene regolarmente criticata per una serie di motivi (vedere questa discussione sul sito Web di Stata con riferimenti ).
In particolare, il sito Web di Stata riassume diversi commenti di Frank Harrell. Sono interessato al reclamo:
[regressione graduale] produce valori R-quadrati che sono fortemente distorti per essere alti.
In particolare, alcune delle mie ricerche attuali si concentrano sulla stima del r-quadrato della popolazione . Per r-quadrato della popolazione mi riferisco alla percentuale di varianza spiegata dai dati sulla popolazione che generano l'equazione nella popolazione. Gran parte della letteratura esistente che sto esaminando ha utilizzato procedure di regressione graduale e voglio sapere se le stime fornite sono distorte e in tal caso di quanto. In particolare, uno studio tipico avrebbe 30 predittori, n = 200, alfa dell'entrata di 0,05 e stime del quadrato r intorno a .50.
Quello che so:
- Asintoticamente, qualsiasi predittore con un coefficiente diverso da zero sarebbe un predittore statisticamente significativo e r-quadrato equivarrebbe a r-quadrato rettificato. Pertanto, la regressione asintoticamente graduale dovrebbe stimare l'equazione della regressione reale e il vero r-quadrato della popolazione.
- Con campioni di dimensioni inferiori, la possibile omissione di alcuni predittori comporterà un quadrato r più piccolo rispetto a tutti i predittori inclusi nel modello. Ma anche il solito pregiudizio di r-square per campionare i dati aumenterebbe il r-square. Quindi, il mio pensiero ingenuo è che potenzialmente, queste due forze opposte potrebbero in determinate condizioni sfociare in un quadrato r imparziale. E più in generale, la direzione del bias sarebbe subordinata a varie caratteristiche dei dati e ai criteri di inclusione alfa.
- L'impostazione di un criterio di inclusione alfa più rigoroso (ad esempio, .01, .001, ecc.) Dovrebbe ridurre i r-quadrati previsti stimati poiché la probabilità di includere qualsiasi predittore in qualsiasi generazione di dati sarà inferiore.
- In generale, r-square è una stima al rialzo di r-square della popolazione e il grado di questo bias aumenta con un numero maggiore di predittori e dimensioni del campione inferiori.
Domanda
Quindi, finalmente, la mia domanda:
- In che misura il r-quadrato dalla regressione graduale si traduce in una stima distorta del r-quadrato della popolazione?
- In che misura questo pregiudizio è correlato alla dimensione del campione, al numero di predittori, al criterio di inclusione alfa o alle proprietà dei dati?
- Ci sono riferimenti su questo argomento?