Shrunken


22

C'è stato un po 'di confusione nella mia testa riguardo a due tipi di stimatori del valore della popolazione del coefficiente di correlazione di Pearson.

A. Fisher (1915) ha mostrato che per la popolazione normale bivariata empirica è un prevenuto negativamente stimatore , anche se la polarizzazione può essere di notevole quantità praticamente solo per le piccole dimensioni del campione ( ). Il campione sottostima nel senso che è più vicino a di . (Tranne quando quest'ultimo è o , per allora è imparziale.) Sono stati proposti diversi stimatori quasi imparziali di , il migliore probabilmente è Olkin e Pratt (1958)ρ n < 30 r ρ 0 ρ 0 ± 1 r ρ rrρn<30rρ0ρ0±1rρ corretto :r

runbiased=r[1+1r22(n3)]

B. Si dice che nella regressione osservata sopravvaluta il corrispondente R-quadrato della popolazione. Oppure, con semplice regressione, è che sopravvaluta . Sulla base di questo fatto, ho visto molti testi che affermano che è positivamente distorto rispetto a , il che significa valore assoluto: è più lontano da di (questa affermazione è vera?). I testi dicono che è lo stesso problema della sopravvalutazione del parametro di deviazione standard dal suo valore di campionamento. Esistono molte formule per "aggiustare" l' osservato più vicino al suo parametro di popolazione, Wherry's (1931)r 2 ρ 2 r ρ r 0 ρ R 2R2r2ρ2rρr0ρR2 Radj2 è il più noto (ma non il migliore). La radice di tale si chiama ristretto :radj2 r

rshrunk=±1(1r2)n1n2

Sono presenti due diversi stimatori di . Molto diverso: il primo gonfia , il secondo sgonfia . Come conciliarli? Dove utilizzare / segnalare uno e dove - l'altro?r rρrr

In particolare, può essere vero che lo stimatore "ristretto" è anche (quasi) imparziale, come quello "imparziale", ma solo nel diverso contesto - nel contesto asimmetrico della regressione. Infatti, nella regressione OLS consideriamo i valori di un lato (il predittore) come fissi, assistendo senza errori casuali da un campione all'altro? (E per aggiungere qui, la regressione non ha bisogno della normalità bivariata .)


Mi chiedo se questo si riduce a qualcosa basato sulla disuguaglianza di Jensen. Ciò, e la normalità bivariata è probabilmente una cattiva ipotesi nella maggior parte dei casi.
Shadowtalker

1
Inoltre, la mia comprensione del problema in B. è che la regressione è sopravvalutata perché l'adattamento della regressione può essere arbitrariamente migliorato aggiungendo predittori. Non mi sembra lo stesso problema di A.r2
Shadowtalker,

È vero che è una stima positivamente distorta di ρ 2 per tutti i valori di ρ ? Per la distribuzione normale bivariata questo non sembra essere il caso di ρ abbastanza grande. r2ρ2ρρ
NRH,

La distorsione può andare nella direzione opposta per il quadrato di uno stimatore? Ad esempio, con uno stimatore più semplice, si può dimostrare che per alcuni intervalli di θ ? Penso che sarebbe difficile da fare se θ = ρ , ma forse si potrebbe elaborare un esempio più semplice. E[θ^θ]<0<E[θ^2θ2]θθ=ρ
Anthony,

Risposte:


1

Per quanto riguarda il bias nella correlazione: quando le dimensioni del campione sono abbastanza piccole da consentire al bias di avere un significato pratico (ad esempio, il n <30 che hai suggerito), è probabile che il bias sia il minimo delle tue preoccupazioni, perché l'imprecisione è terribile.

Per quanto riguarda il bias di R 2 nella regressione multipla, ci sono molti diversi aggiustamenti che riguardano la stima della popolazione imparziale rispetto alla stima imparziale in un campione indipendente di uguali dimensioni. Vedi Yin, P. & Fan, X. (2001). Stima del restringimento di R 2 nella regressione multipla: un confronto tra metodi analitici. The Journal of Experimental Education, 69, 203-224.

I metodi di regressione dei nostri giorni affrontano anche il restringimento dei coefficienti di regressione e di conseguenza R 2 - ad es. La rete elastica con k -fold cross validation, vedi http://web.stanford.edu/~hastie/Papers/ elasticnet.pdf .


1
Non so se questo risponda davvero alla domanda
Shadowtalker,

1

Penso che la risposta sia nel contesto della regressione semplice e della regressione multipla. Nella semplice regressione con un IV e un DV, l'R sq non è positivamente distorto, e in effetti può essere negativamente distorto dato che r è polarizzato negativamente. Ma nella regressione multipla con diversi IV che possono essere correlati da soli, R sq può essere influenzato positivamente a causa di qualsiasi "soppressione" che potrebbe accadere. Quindi, il mio punto di vista è che R2 osservato sopravvaluta il corrispondente R-quadrato della popolazione, ma solo nella regressione multipla


1
R sq is not positively biased, and in-fact may be negatively biasedInteressante. Puoi mostrarlo o fornire un riferimento? - Nella popolazione normale bivariata, la statistica Rsq del campione osservata può essere stimatore negativamente distorto?
ttnphns,

Credo che tu abbia torto. Potresti fornire un riferimento per il backup del tuo reclamo?
Richard Hardy,

Mi dispiace, ma questo è stato più un esercizio di pensiero, quindi non ho riferimenti.
Dingus,

Stavo andando fuori dal commento A sopra, dove Fischer ha mostrato che in una situazione normale bivariata, r è uno stimatore negativamente distorto di rho. In tal caso, non seguirebbe che anche R sq è influenzato negativamente?
Dingus,

Forse questo aiuterà nella conversazione digitalcommons.unf.edu/cgi/…
Dingus,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.