C'è stato un po 'di confusione nella mia testa riguardo a due tipi di stimatori del valore della popolazione del coefficiente di correlazione di Pearson.
A. Fisher (1915) ha mostrato che per la popolazione normale bivariata empirica è un prevenuto negativamente stimatore , anche se la polarizzazione può essere di notevole quantità praticamente solo per le piccole dimensioni del campione ( ). Il campione sottostima nel senso che è più vicino a di . (Tranne quando quest'ultimo è o , per allora è imparziale.) Sono stati proposti diversi stimatori quasi imparziali di , il migliore probabilmente è Olkin e Pratt (1958)ρ n < 30 r ρ 0 ρ 0 ± 1 r ρ r corretto :
B. Si dice che nella regressione osservata sopravvaluta il corrispondente R-quadrato della popolazione. Oppure, con semplice regressione, è che sopravvaluta . Sulla base di questo fatto, ho visto molti testi che affermano che è positivamente distorto rispetto a , il che significa valore assoluto: è più lontano da di (questa affermazione è vera?). I testi dicono che è lo stesso problema della sopravvalutazione del parametro di deviazione standard dal suo valore di campionamento. Esistono molte formule per "aggiustare" l' osservato più vicino al suo parametro di popolazione, Wherry's (1931)r 2 ρ 2 r ρ r 0 ρ R 2 è il più noto (ma non il migliore). La radice di tale si chiama ristretto :
Sono presenti due diversi stimatori di . Molto diverso: il primo gonfia , il secondo sgonfia . Come conciliarli? Dove utilizzare / segnalare uno e dove - l'altro?r r
In particolare, può essere vero che lo stimatore "ristretto" è anche (quasi) imparziale, come quello "imparziale", ma solo nel diverso contesto - nel contesto asimmetrico della regressione. Infatti, nella regressione OLS consideriamo i valori di un lato (il predittore) come fissi, assistendo senza errori casuali da un campione all'altro? (E per aggiungere qui, la regressione non ha bisogno della normalità bivariata .)