Come ottenere l'intervallo di confidenza sul cambio di r-square della popolazione


10

Per un semplice esempio, supponiamo che ci siano due modelli di regressione lineare

  • Modello 1 ha tre predittori, x1a, x2b, ex2c
  • Il modello 2 ha tre predittori dal modello 1 e due predittori aggiuntivi x2aex2b

Esiste un'equazione di regressione della popolazione in cui la varianza della popolazione spiegata è per il Modello 1 e per il Modello 2. La varianza incrementale spiegata dal Modello 2 nella popolazione è ρ 2 ( 2 ) Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ(1)2ρ(2)2Δρ2=ρ(2)2-ρ(1)2

Sono interessato a ottenere errori standard e intervalli di confidenza per uno stimatore di . Mentre l'esempio riguarda rispettivamente 3 e 2 predittori, il mio interesse di ricerca riguarda una vasta gamma di diversi numeri di predittori (ad esempio, 5 e 30). Il mio primo pensiero è stato di usare \ Delta r ^ 2_ {agg} = r ^ 2_ {agg (2)} - r ^ 2_ {agg (1)} come stimatore e avviarlo, ma non ero sicuro che questo sarebbe essere appropriato. Δ r 2 a d j = r 2 a d j ( 2 ) - r 2 a d j ( 1 )Δρ2Δrun'dj2=run'dj(2)2-run'dj(1)2

Domande

  • È Δrun'dj2 una ragionevole stimatore Δρ2 ?
  • Come si può ottenere un intervallo di confidenza per il cambiamento del quadrato r della popolazione (cioè, Δρ2 )?
  • Bootstrapping Δρ2 sarebbe appropriato per il calcolo dell'intervallo di confidenza?

Anche i riferimenti a simulazioni o alla letteratura pubblicata sarebbero i benvenuti.

Codice di esempio

Se aiuta, ho creato un piccolo set di dati di simulazione in R che potrebbe essere usato per dimostrare una risposta:

n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square

x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
               beta[4] * x$x2a + beta[5] * x$x2b, error_sd)

c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square - 
        summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square

Motivo della preoccupazione con bootstrap

Ho eseguito un bootstrap su alcuni dati con circa 300 casi e 5 predittori nel modello semplice e 30 predittori nel modello completo. Mentre la stima del campione usando la differenza rettificata r-quadrato era 0.116, l'intervallo di confidenza boostrapped era per lo più maggiore CI95% (da 0,095 a 0,214) e la media dei bootstrap non era da nessuna parte vicino alla stima del campione. Piuttosto, la media dei campioni boostrapped sembrava essere centrata sulla stima del campione della differenza tra i quadrati r nel campione. Questo nonostante il fatto che stavo usando i quadrati r rettificati del campione per stimare la differenza.

È interessante notare che ho provato un modo alternativo di calcolare comeΔρ2

  1. calcola la variazione del r-quadrato campione
  2. regolare la modifica del rettangolo r del campione usando la formula r rettangolo standard

Quando viene applicato ai dati di esempio questo ha ridotto la stima di per , ma gli intervalli di confidenza sembrato opportuno per il metodo che ho citato prima, IC95% (.062, 0,179), con media di .118.Δρ2.082

In generale, sono preoccupato che il bootstrap supponga che il campione sia la popolazione, e quindi stima che la riduzione per overfitting potrebbe non funzionare in modo appropriato.


"Tuttavia, sono preoccupato che il bootstrap di tale valore corretto per la popolazione possa essere problematico." -- perché?
gennaio

@Gennaio Ho modificato la domanda e ho cercato di esprimere la mia preoccupazione per il bootstrap con r-square modificato.
Jeromy Anglim,

Qual è la popolazione R al quadrato ? Ho preso uno sguardo alla definizione data qui , ma per me la varianza non ha senso perché il y io non sono distribuiti in modo identico. σy2yio
Stéphane Laurent,

@ StéphaneLaurent è la percentuale di varianza spiegata nella popolazione dall'equazione di regressione della popolazione. Oppure potresti definirlo asintoticamente come la percentuale di varianza spiegata nel tuo campione mentre la dimensione del campione si avvicina all'infinito. Vedi anche questa risposta per quanto riguarda le stime imparziali del r-quadrato della popolazione . È particolarmente rilevante in psicologia dove spesso siamo più interessati alla vera relazione piuttosto che applicare effettivamente la nostra equazione di previsione stimata.
Jeromy Anglim,

3
Un test F può essere considerato come test dell'ipotesi . Può essere usato per derivare l'errore standard e l'intervallo di confidenza che stai cercando? Δρ2=0
Maarten Buis,

Risposte:


3

Popolazione R2

In primo luogo sto cercando di capire la definizione della popolazione R al quadrato .

Citando il tuo commento:

Oppure potresti definirlo asintoticamente come la percentuale di varianza spiegata nel tuo campione mentre la dimensione del campione si avvicina all'infinito.

Penso che tu intenda questo è il limite del campione quando si replica il modello infinitamente più volte (con gli stessi predittori per ogni replica). R2

Quindi qual è la formula per il valore asintotico del campione ? Scrivi il tuo modello lineare Y = μ + σ G come in https://stats.stackexchange.com/a/58133/8402 e usa le stesse notazioni di questo link. Quindi si può verificare che il campione R 2 vada a p o p R 2 : = λR²Y=μ+σsol
R2 quando si replica il modelloY=μ+σGinfinitamente più volte.popR2: =λn+λY=μ+σsol

Per esempio:

> ## design of the simple regression model lm(y~x0)
> n0 <- 10
> sigma <- 1
> x0 <- rnorm(n0, 1:n0, sigma)
> a <- 1; b <- 2 # intercept and slope
> params <- c(a,b)
> X <- model.matrix(~x0)
> Mu <- (X%*%params)[,1]
> 
> ## replicate this experiment k times 
> k <- 200
> y <- rep(Mu,k) + rnorm(k*n0)
> # the R-squared is:
> summary(lm(y~rep(x0,k)))$r.squared 
[1] 0.971057
> 
> # theoretical asymptotic R-squared:
> lambda0 <- crossprod(Mu-mean(Mu))/sigma^2
> lambda0/(lambda0+n0)
          [,1]
[1,] 0.9722689
> 
> # other approximation of the asymptotic R-squared for simple linear regression:
> 1-sigma^2/var(y)
[1] 0.9721834

Popolazione di un sottomodelloR2

Ora supponiamo che il modello sia con H 1 : μ W 1 e considera il modello H 0 : μ W 0 .Y=μ+σsolH1:μW1H0:μW0

R2H1popR12: =λ1n+λ1λ1=PZ1μ2σ2Z1=[1]W1PZ1μ2=Σ(μio-μ¯)2

R2 H0R2H0H1


Grazie Stéphane. Dovrò pensare a quello che stai dicendo. Per quanto riguarda la tua domanda. Suppongo che il vero processo di generazione dei dati non sia noto ma che sia lo stesso per entrambi i modelli, ma che vi sia una vera proporzione di varianza spiegata dalla regressione lineare nel modello 1 e nel modello 2.
Jeromy Anglim,

R2

1
@JeromyAnglim Lo studio di questo documento sembra essere vicino a quello che stai cercando (con predittori casuali).
Stéphane Laurent,

Grazie. La carta Algina, Keselman e Penfield sembra molto utile. Ho aggiunto alcuni commenti alla mia risposta al riguardo.
Jeromy Anglim,

@JeromyAnglim Allora, qual è il presupposto sui predittori? Sono generati secondo una distribuzione gaussiana multivariata?
Stéphane Laurent,

1

Piuttosto che rispondere alla domanda che mi hai posto, ho intenzione di chiedere perché lo fai. Presumo che tu voglia sapere se

mod.small <- lm(y ~ x1a + x1b + x1c, data=x)

è almeno buono come

mod.large <- lm(y ~ ., data=x)

a spiegare y. Poiché questi modelli sono nidificati, il modo ovvio per rispondere a questa domanda sembrerebbe essere quello di eseguire un'analisi della varianza confrontandoli, allo stesso modo in cui si potrebbe eseguire un'analisi della devianza per due GLM, come

anova(mod.small, mod.large)

Quindi potresti usare il miglioramento del R-quadrato campione tra i modelli come la tua ipotesi migliore su quale sarebbe il miglioramento adatto nella popolazione, sempre supponendo che tu possa dare un senso al R-quadrato della popolazione. Personalmente non sono sicuro di poterlo fare, ma con questo non importa in nessun modo.

Più in generale, se sei interessato alle quantità di popolazione, presumibilmente sei interessato alla generalizzazione, quindi una misura di adattamento del campione non è esattamente ciò che desideri, tuttavia "corretta". Ad esempio, la convalida incrociata di una certa quantità che stima l'ordinamento e la quantità di errori effettivi che ci si potrebbe aspettare dal campione, come MSE, sembrerebbe arrivare a quello che si desidera.

Ma è del tutto possibile che mi manchi qualcosa qui ...


Apprezzo la tua risposta e potrebbe anche essere un buon consiglio per gli altri. Ma il mio contesto di ricerca significa che sono legittimamente interessato a delta-rho square. Mentre la maggior parte degli statistici è spesso più interessata all'utilità predittiva di un modello (ad esempio, delta r-quadrato validato in modo incrociato), sono uno scienziato psicologico e sono particolarmente interessato alla proprietà della popolazione. Inoltre, non mi interessa il significato statistico del miglioramento. Sono interessato alla dimensione del miglioramento. E trovo che delta-r-square sia una metrica utile per indicizzare quella dimensione di miglioramento.
Jeromy Anglim,

Per quanto riguarda l'MSE, diversi studi in psicologia utilizzano misure su parametri molto diversi. Pertanto, esiste un'attrazione, giusta o sbagliata, verso misure standardizzate come r-square.
Jeromy Anglim,

Abbastanza giusto, in particolare su MSE. Rimango un po 'confuso dall'interesse per il bootstrap e dall'inferenza della popolazione, ma la mancanza di interesse per i test dal momento che, forse ingenuamente, sembrano essere preoccupazioni equivalenti affrontate diversamente. Sto anche incontrando difficoltà nel distinguere strettamente la predizione del campione dall'inferenza a una popolazione, ma probabilmente questo è un bayesianesimo pre-caffè (dove la predizione è solo un altro problema di inferenza della popolazione) che si frappone.
conjugateprior,

Forse ho parlato un po 'in fretta. Nel mio contesto di ricerca, ci sono spesso molte prove che il delta-rho-quadrato è maggiore di zero. La domanda di interesse è qual è il grado di aumento. Vale a dire, è un aumento banale o un aumento teoricamente significativo. Pertanto, la fiducia o gli intervalli credibili mi danno una stima dell'incertezza attorno a tale aumento. Non ho ancora riconciliato quello che sto facendo qui con la mia comprensione delle statistiche bayesiane, ma mi piacerebbe.
Jeromy Anglim,

1

ρ2

Bootstrap r-quadrato a doppia regolazione

La mia ipotesi migliore per una risposta è quella di fare un bootstrap r-quadrato doppio rettificato. Ho implementato la tecnica. Implica quanto segue:

  • Genera una serie di campioni bootstrap dai dati correnti.
  • Per ogni campione avviato:
    • calcola il primo rettangolo r rettificato per i due modelli
    • calcola il secondo r-quadrato regolato sui valori r-quadrati regolati dal passaggio precedente
    • Δρ2

La logica è che il primo rettangolo r rettificato rimuove la distorsione introdotta dal bootstrap (ovvero, il bootstrap presuppone che il rettangolo di campionamento sia il quadratino di popolazione). Il secondo r-quadrato rettificato esegue la correzione standard che viene applicata a un campione normale per stimare il r-quadrato della popolazione.

A questo punto, tutto ciò che posso vedere è che l'applicazione di questo algoritmo genera stime che sembrano giuste (cioè, la theta_hat media nel bootstrap è molto vicina all'esempio theta_hat). L'errore standard si allinea con la mia intuizione. Non ho ancora verificato se fornisce un'adeguata copertura da parte dei frequentatori in cui è noto il processo di generazione dei dati, e non sono nemmeno del tutto sicuro a questo punto come l'argomento possa essere giustificato dai primi principi

Se qualcuno vede qualche motivo per cui questo approccio sarebbe problematico, sarei grato di sentirlo.

Simulazione di Algina et al

Δρ2

Smithson (2001) sull'uso del parametro noncentrality

R2f2R2

Riferimenti

  • Algina, J., Keselman, HJ e Penfield, RD Intervalli di confidenza per il coefficiente di correlazione semipartiale multiplo quadrato. PDF
  • Smithson, M. (2001). Intervalli di confidenza corretti per varie dimensioni e parametri dell'effetto di regressione: L'importanza delle distribuzioni non centrali negli intervalli di calcolo. Misura educativa e psicologica, 61 (4), 605-632.

1
Sembra che nessuno qui (incluso te) conosca la definizione della tua popolazione al R-quadrato. Quindi IMHO questo è un approccio seriamente problematico.
Stéphane Laurent,

@ StéphaneLaurent Grazie per quello. Confesso che fino a questo punto non ho visto la popolazione r-square come una proprietà di contesa. Ad esempio, potrei proporre un processo di generazione dei dati e ci sarebbe un r-quadrato che viene avvicinato mentre la mia dimensione del campione di simulazione si avvicina all'infinito. E allo stesso modo presumo che ci sia un processo di generazione dei dati per i miei dati, e quindi se fosse possibile ottenere un campione infinito, potrei calcolare il vero r-quadrato della popolazione.
Jeromy Anglim,

Sì, ma ho l'impressione che anche tu assuma un processo di generazione per i predittori. Non riesco a capire come ciò possa avere senso per un modello lineare generale.
Stéphane Laurent,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.