Valore atteso della correlazione spuria


12

Disegniamo campioni, ciascuno di dimensioni , indipendentemente da una distribuzione normale .n ( μ , σ 2 )Nn(μ,σ2)

Dagli campioni scegliamo quindi i 2 campioni che hanno la più alta (assoluta) correlazione di Pearson tra loro.N

Qual è il valore atteso di questa correlazione?

Grazie [PS Questo non è un compito]


2
(+1) Farebbe una domanda a casa abbastanza impegnativa :-). Hai bisogno di una risposta generale o potresti (forse) focalizzare la tua attenzione su valori specifici di o ? Ad esempio, può essere possibile sviluppare buone approssimazioni quando è molto più grande di ; approssimazioni diverse sarebbero necessarie in altri casi. n n NNnnN
whuber

1
Speravo in una risposta generale, ma quella in cui l'assunzione sarebbe stata OK! Per valori specifici di e , non sarebbe così interessante, dato che posso guardare questi casi specifici tramite simulazione (è quello che sto facendo al momento), ma potrebbe comunque essere interessante. N nn>>NNn
P Sellaz,

1
Penso che una soluzione generale di qualsiasi utilità reale sia probabilmente improbabile, anche se potrei sbagliarmi. È abbastanza strettamente correlato ad alcuni problemi aperti nell'interfaccia della geometria e dell'algebra lineare. Nelle applicazioni, la necessità di informazioni su tali quantità sorge, ad esempio, nel rilevamento compresso.
cardinale

1
FWIW, questo è il risultato di una simulazione che ho appena eseguito: usando Normal (0,1), ho scoperto che la correlazione media, (oltre 1000 simulazioni) e il numero di campioni sono approssimativamente correlati da per e usando un modello di regressione lineare. La vestibilità del modello e la normale diagnostica erano abbastanza buone. Ho anche scoperto che la correlazione media era approssimativamente distribuita normalmente (sebbene leggermente inclinata a destra). N ρ = 0,025 + 0,113 ln ( N ) - 0,008 ln ( N ) 2 n = 100 4 N nρN
ρ=0.025+0.113ln(N)0.008ln(N)2
n=1004Nn
P Sellaz,

Risposte:


9

Ho trovato il seguente articolo, che affronta questo problema: Jiang, Tiefeng (2004). Le distribuzioni asintotiche delle più grandi voci delle matrici di correlazione dei campioni. The Annals of Applied Probability, 14 (2), 865-880

Jiang mostra la distribuzione asintotica della statistica, dove è la correlazione tra l' e il esimo vettore casuale di lunghezza (con ), èρ i j i j n i jLn=max1i<jN|ρij|ρijijnij

limnPr[nLn24logn+log(log(n))y]=exp(1a28πexp(y/2)),
dove si presume che sia presente nel documento e sia una funzione di .a=limnn/NNn

Apparentemente questo risultato vale per qualsiasi distribuzione di distribuzione con un numero sufficiente di momenti finiti ( Modifica: vedi il commento di @ cardinale sotto). Jiang sottolinea che questa è una distribuzione di valore estremo di tipo I. La posizione e la scala sono

σ=2,μ=2log(1a28π).

Il valore atteso della distribuzione EV di tipo I è , dove indica la costante di Eulero. Tuttavia, come osservato nei commenti, la convergenza nella distribuzione non garantisce, di per sé, la convergenza dei mezzi con quella della distribuzione limitante.μ+σγγ

Se potessimo mostrare questo risultato in questo caso, il valore atteso asintotico disarebbenLn24logn+log(log(n))

limnE[nLn24logn+log(log(n))]=2log(a28π)+2γ.

Si noti che ciò darebbe il valore atteso asintotico della più grande correlazione quadrata, mentre la domanda poneva il valore atteso della più grande correlazione assoluta. Quindi non al 100% lì, ma vicino.

Ho fatto alcune brevi simulazioni che mi hanno portato a pensare 1) c'è un problema con la mia simulazione (probabilmente), 2) c'è un problema con la mia trascrizione / algebra (anche probabile), o 3) l'approssimazione non è valida per valori di e ho usato. Forse l'OP può pesare con alcuni risultati di simulazione usando questa approssimazione?nN


2
E a parte: questa domanda mi è davvero piaciuta - mi sono chiesto prima di questa domanda. Sono stato sorpreso dalla connessione con la distribuzione di tipo I - ho scoperto che era piuttosto interessante. Vorrei solo aver capito la matematica che la conduceva ...
jmtroos

1
(+1) Bella scoperta !! Penso che possiamo supporre che la radice quadrata positiva di questo sia equivalente al valore atteso della più grande correlazione assoluta? Nella tua espressione per l'attesa, non possiamo semplicemente eliminare tutte le parti che coinvolgono per produrre: ? Comunque, l'ho confrontato con le mie simulazioni e sembra abbastanza vicino! Il mio codice R è davvero sciatto, quindi proverò a riordinarlo più tardi oggi o domani e pubblicarlo ...Lnn
E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}
P Sellaz

A proposito, il documento è disponibile direttamente da qui projecteuclid.org/DPubS/Repository/1.0/…
P Sellaz

3
(+1) Questa è una carta molto bella, e l'ho solo sfogliata, ma dobbiamo stare un po 'attenti qui. Alcune osservazioni: ( 1 ) I risultati sono per il regime da , quindi la dimensione dei vettori deve essere all'incirca proporzionale al numero di vettori considerati per questi risultati tenere. ( 2 ) Anche in questo caso, i risultati non valgono per "qualsiasi" distribuzione; in effetti, le condizioni nel documento richiedono che le variabili casuali siano "delimitate quasi in modo esponenziale", nel senso che abbiamo essenzialmente bisogno che il trentesimo momento sia finito! (cont.)n/pγ(0,)
cardinale

3
(cont.) ( 3 ) La convergenza nella distribuzione non garantisce la convergenza dei mezzi con quella della distribuzione limitante. Per questo, normalmente usiamo qualcosa di simile per uniformare l'integrabilità dell'insieme . Ciò non è stato dimostrato nel documento e, dal momento che si occupa di distribuzioni di valore estremo, potrebbe non essere vero. Uno dei miei esempi preferiti di questo fenomeno è una sequenza di variabili casuali che converge nella distribuzione in un , ma i mezzi possono essere fatti per convergere verso qualsiasi costante positiva scelta. χ 2 1{Ln}χ12
cardinale

2

Oltre alla risposta fornita da @jmtroos, di seguito sono riportati i dettagli della mia simulazione e un confronto con la derivazione di @ jmtroos delle aspettative da Jiang (2004) , ovvero:

E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}

I valori di questa aspettativa sembrano essere al di sopra dei valori simulati per la piccola e inferiori per la grande e sembrano divergere leggermente all'aumentare dellaTuttavia, le differenze diminuiscono all'aumentare di , come ci aspetteremmo dal documento che afferma che la distribuzione è asintotica. Ho provato vari . La simulazione seguente utilizza . Sono abbastanza nuovo su R, quindi qualsiasi suggerimento o suggerimento per migliorare il mio codice sarebbe accolto calorosamente.N N n n [ 100 , 500 ] n = 200NNNnn[100,500]n=200

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation

Vedi i miei commenti all'altra risposta, che può (o non può) aiutare a spiegare alcune delle discrepanze che noti.
cardinale
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.