Formula per intervallo di confidenza al 95% per


13

Ho cercato su google e cercato su stats.stackexchange ma non riesco a trovare la formula per calcolare un intervallo di confidenza al 95% per un valore per una regressione lineare. Qualcuno può fornirlo?R2

Ancora meglio, diciamo che avevo eseguito la regressione lineare di seguito in R. Come avrei calcolato un intervallo di confidenza al 95% per il valore usando il codice R.R2

lm_mtcars <- lm(mpg ~ wt, mtcars)

1
Bene, sai che la relazione tra la correlazione e R 2 è che stai quadrando il coefficiente di correlazione per ottenere R 2, quindi perché non calcolare l'intervallo di confidenza per r e quindi quadrare i limiti inferiore e superiore dell'intervallo? rR2R2r

1
@ZERO: funzionerà in una semplice regressione lineare, cioè con un singolo predittore e un'intercetta. Non funzionerà per la regressione lineare multipla con più di un predittore.
Stephan Kolassa,

@StephanKolassa, molto vero! Immagino che lo stavo basando sul suo Rcodice in cui esiste un solo regressore, ma questo è un ottimo punto per chiarire.


Ad esempio, è possibile utilizzare una funzione R molto piccola github.com/mayer79/R-confidence-intervals-R-squared in base alle proprietà della distribuzione F non centrale.
Michael M,

Risposte:


16

Puoi sempre avviarlo:

> library(boot)
> foo <- boot(mtcars,function(data,indices)
        summary(lm(mpg~wt,data[indices,]))$r.squared,R=10000)

> foo$t0
[1] 0.7528328

> quantile(foo$t,c(0.025,0.975))
     2.5%     97.5% 
0.6303133 0.8584067

Carpenter & Bithell (2000, Statistics in Medicine) forniscono un'introduzione leggibile agli intervalli di confidenza del bootstrap, anche se non specificamente focalizzati su .R2


1
n=32k=1(0.546,0.960)2

Vale anche la pena notare che è possibile ottenere altri tipi di intervallo di confidenza (ad es. BCa) dalla distribuzione di ricampionamento bootstrap usando boot.ci().
Jeffrey Girard

7

In R, è possibile utilizzare la CI.Rsq()funzione fornita dal pacchetto psicometrico . Per quanto riguarda la formula che applica, vedi Cohen et al. (2003) , Applied Multiple Regressione / Correlation Analysis for the Behavioral Sciences , p. 88:

SER2=4R2(1R2)2(nk1)2(n21)(n+3)

R2±2SER2


3
(1R2)R2R2nk1>60k+1conta un'intercetta più il numero di variabili indipendenti.) Sarebbe utile vedere un esempio funzionante supportato dalla simulazione, perché questo intervallo sembra troppo ampio.
whuber

Secondo Wishart (1931) la formula non è adatta per distribuzioni non normali.
abukaj,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.