Il rettangolo R rettificato cerca di stimare il punteggio fisso o la popolazione di punteggi casuali r al quadrato?


9

La popolazione r-square può essere definita assumendo punteggi fissi o punteggi casuali:ρ2

  • Punteggi fissi: le dimensioni del campione e i valori particolari dei predittori vengono mantenuti fissi. Pertanto, è la percentuale di varianza spiegata nel risultato dall'equazione di regressione della popolazione quando i valori del predittore sono mantenuti costanti.ρf2

  • Punteggi casuali: i valori particolari dei predittori vengono estratti da una distribuzione. Pertanto, riferisce alla percentuale di varianza spiegata nel risultato nella popolazione in cui i valori del predittore corrispondono alla distribuzione della popolazione dei predittori.ρr2

In precedenza ho chiesto se questa distinzione fa molta differenza rispetto alle stime diρ2 . Ho anche chiesto in generale come calcolare una stima imparziale di ρ2 .

Vedo che, man mano che la dimensione del campione aumenta, la distinzione tra punteggio fisso e punteggio casuale diventa meno importante. Tuttavia, sto cercando di confermare se R ^ 2 corretto R2è progettato per stimare il punteggio fisso o il punteggio casuale ρ2 .

Domande

  • Viene regolata R2 progettato per stimare il punteggio fisso o casuale punteggio ρ2 ?
  • Esiste una spiegazione di principio di come la formula per il rettangolo r rettificato si riferisce a una o l'altra forma di ρ2 ?

Contesto della mia confusione

Quando leggo Yin e Fan (2001, p.206) scrivono:

Uno dei presupposti di base del modello di regressione multipla è che i valori delle variabili indipendenti sono costanti note e sono fissati dal ricercatore prima dell'esperimento. Solo la variabile dipendente è libera di variare da campione a campione. Quel modello di regressione è chiamato modello di regressione lineare fisso .

Tuttavia, nelle scienze sociali e comportamentali, i valori delle variabili indipendenti sono raramente fissati dai ricercatori e sono anche soggetti a errori casuali. Pertanto, è stato suggerito un secondo modello di regressione per le applicazioni, in cui le variabili dipendenti e indipendenti possono variare (Binder, 1959; Park & ​​Dudycha, 1974). Tale modello è chiamato modello casuale (o modello di correzione). Sebbene le stime di massima verosimiglianza dei coefficienti di regressione ottenuti dai modelli casuali e fissi siano le stesse in base alle ipotesi di normalità, le loro distribuzioni sono molto diverse. Il modello casuale è così complesso che sono necessarie ulteriori ricerche prima di poter essere accettato al posto del modello di regressione lineare fisso comunemente usato. Pertanto, viene solitamente applicato il modello fisso, anche quando le ipotesi non sono state completamente soddisfatte (Claudy, 1978). Tali applicazioni del modello di regressione fissa con ipotesi violate provocherebbero un "eccesso di adattamento", poiché l'errore casuale introdotto dai dati di esempio non perfetti tende ad essere capitalizzato nel processo. Di conseguenza, il coefficiente di correlazione multipla del campione ottenuto in questo modo tende a sovrastimare la correlazione multipla della popolazione reale (Claudy, 1978; Cohen & Cohen, 1983; Cummings, 1982).

Quindi non ero chiaro se l'affermazione di cui sopra sta dicendo che l' rettificato compensa l'errore introdotto dal modello casuale o se questo era solo un avvertimento nel documento che segnala l'esistenza del modello casuale, ma che il documento stava per concentrarsi sul modello fisso.R2

Riferimenti

  • Yin, P., & Fan, X. (2001). Stima del restringimento di nella regressione multipla: un confronto tra diversi metodi analitici. The Journal of Experimental Education, 69 (2), 203-224. PDFR2

Risposte:


6

Raju et al (1997) lo notano

Pedhazur (1982) e Mitchell & Klimoski (1986) hanno sostenuto che i risultati non sono
influenzati dal modello [fixed-x o random-x] selezionato quando gli N sono almeno di dimensioni moderate (circa 50).

Tuttavia, Raju et al (1997) classificano alcune formule adattate per stimare come "formule X fisse" e "formule X casuali".ρ 2R2ρ2

Formule X fisse: sono menzionate diverse formule tra cui la formula proposta da Ezechiele (1930) che è standard nella maggior parte dei software statistici:

ρ^(E)2=1-N-1N-p-1(1-R2)

Pertanto, la risposta breve alla domanda è la formula aggiustata standard generalmente riportata e integrata nel software statistico standard è una stima di fixed-x .ρ 2R2ρ2

Formule X casuali:

Olkin e Pratt (1958) hanno proposto una formula

ρ^(OP)2=1-[N-3N-p-1](1-R2)F[1,1;N-p+12;(1-R2)]
dove F è la funzione ipergeometrica .

Raju et al (1997) spiegano come varie altre formule, come quelle di Pratt e di Herzberg "siano approssimazioni della funzione ipergeometrica attesa". Ad esempio, la formula di Pratt è

ρ^(P)2=1-(N-3)(1-R2)N-p-1[1+2(1-R2)N-p-2.3]

In che modo differiscono le stime? Il rapporto Leach e Hansen (2003) presenta una bella tabella che mostra l'effetto di diverse formule su un campione di diversi set di dati pubblicati in psicologia (vedi Tabella 3). La media di Ezechiele era di .2864 rispetto a Olkin e Pratt di .2917 e Pratt di .2910. Secondo la citazione iniziale di Raju et al. Sulla distinzione tra formule fisse e random-x più rilevanti per campioni di piccole dimensioni, la tabella di Leach e Hansen mostra come la differenza tra la formula fissa-x di Ezekiel e la formula casuale-x di Olkin e Pratt sia più evidente in campioni di piccole dimensioni, in particolare quelli inferiori a 50.Run'dj2Run'dj2Run'dj2

Riferimenti

  • Leach, LF e Henson, RK (2003). L'uso e l'impatto degli effetti corretti di R2 nella ricerca di regressione pubblicata. Nell'incontro annuale della Southwest Educational Research Association, San Antonio, TX. PDF
  • Mitchell, TW e Klimoski, RJ (1986). Stima della validità della stima della validità incrociata. Journal of Applied Psychology, 71 , 311-317.
  • Pedhazur, EJ (1982). Regressione multipla nella ricerca comportamentale (2a edizione) New York: Holt, Rinehart e Winston.
  • Raju, NS, Bilgic, R., Edwards, JE e Fleer, PF (1997). Revisione metodologica: stima della validità e della cross-validità della popolazione e utilizzo di pesi uguali nella previsione. Misura psicologica applicata, 21 (4), 291-305.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.