Perché l'indipendenza implica zero correlazione?


16

Prima di tutto, non lo sto chiedendo:

Perché la correlazione zero non implica l'indipendenza?

Questo è affrontato (piuttosto bene) qui: /math/444408/why-does-zero-correlation-not-imply-independence

Quello che sto chiedendo è l'opposto ... diciamo che due variabili sono completamente indipendenti l'una dall'altra.

Non potrebbero avere una piccola correlazione per caso?

Non dovrebbe essere ... l'indipendenza implica una correlazione MOLTO PICCOLA?


5
Anche le variabili indipendenti avranno quasi sempre una correlazione SAMPLE diversa da zero, anche se probabilmente sarà comunque prossima allo zero.
jsk,

10
Come sottolineato da @jsk, potresti confondere la correlazione del campione con la correlazione attesa
David,

1
@David potresti spiegarmi? Sono ancora un principiante nelle statistiche.
Joshua Ronis,

3
@JoshuaRonis La correlazione di esempio è la correlazione che si osserva quando si lavora con un mucchio di dati. Lo usi per avere un'idea di quale sia la "vera" correlazione tra due variabili. Più grande è il campione, migliore sarà la stima ottenuta. Ad esempio, la correlazione tra i risultati di due dadi è indipendente, quindi non correlata, anche se se li arrotoli dieci volte, potresti ottenere una correlazione (a causa di una casualità) Ma tieni presente che non c'è preferenza per la correlazione positiva o negativa (cioè hai pari possibilità per ciascuno)
David,

1
Discussione non duplice ma correlata: la correlazione diversa da zero implica dipendenza?
SecretAgentMan,

Risposte:


36

Secondo la definizione del coefficiente di correlazione, se due variabili sono indipendenti la loro correlazione è zero. Quindi, non potrebbe capitare di avere alcuna correlazione per caso!

ρX,Y=E[XY]E[X]E[Y]E[X2][E[X]]2 E[Y2][E[Y]]2

Se e sono indipendenti, significa . Quindi, il numeratore di è zero in questo caso.XYE[XY]=E[X]E[Y]ρX,Y

Pertanto, se non si modifica il significato della correlazione, come indicato qui, non è possibile. A meno che, chiarisci la tua definizione da quale sia la correlazione.


2
Eppure, abbiamo grafici che mostrano chiaramente una correlazione (inversa) tra il numero di pirati e la temperatura media globale. Come altri commenti sottolineano, bisogna stare attenti alle dimensioni del campione, per non parlare delle "apparizioni accidentali"
Carl Witthoft,

@OmG "se non cambi il significato di correlazione, come menzionato qui" Quando ho letto la domanda sui PO, ho ottenuto un significato molto diverso di "correlazione". Per me: "Non potrebbero avere una piccola correlazione per caso?" implica fortemente "misurare" la correlazione, e quando misurate la correlazione nella realtà troverete molto spesso "una piccola parte di correlazione per caso".
industry7

1
@industria7 vedo. Ma dovrebbe essere definito in un metodo formale. È qualitativo e non possiamo parlarne qui.
OmG,

@CarlWitthoft Il numero di pirati e la temperatura media globale non sono indipendenti. Hanno una causa comune (tempo, sviluppo, modernizzazione, ecc.) Che crea una dipendenza tra di loro. "Indipendenza" non significa "non causa"; significa "non associato", e chiaramente quei grafici dimostrano l'associazione.
Noah,

@Noah temo che sia successo un WHOOSH. venganza.org
Carl Witthoft,

19

Commento sulla correlazione del campione . Nel confrontare due piccoli campioni indipendenti della stessa dimensione, la correlazione del campione è spesso notevolmente diversa da [Nulla qui contraddice @ Risposta di OmG (+1) sulla correlazione della popolazioner=0.ρ.]

n=51.

set.seed(616)
r = replicate( 10^6, cor(rexp(5), rexp(5))  )
mean(abs(r) > .5)
[1] 0.386212
mean(r)
[1] -0.0005904455

hist(r, prob=T, br=40, col="skyblue2")
  abline(v=c(-.5,.5), col="red", lwd=2)

inserisci qui la descrizione dell'immagine

5,r=0.5716.

inserisci qui la descrizione dell'immagine

Non c'è nulla di speciale nella distribuzione esponenziale in questo senso. La modifica della distribuzione padre in normale standard ha dato i seguenti risultati.

set.seed(2019)
...
mean(abs(r) > .5)
[1] 0.391061
mean(r)
[1] 1.43269e-05

inserisci qui la descrizione dell'immagine

n=20.

inserisci qui la descrizione dell'immagine

r


6
Per campioni di piccole dimensioni, è probabile che si trovino correlazioni del campione "notevolmente" diverse da zero, ma non è più probabile trovare correlazioni significativamente diverse da zero. Anche se la tua stima puntuale è lontana da zero, hai troppi pochi dati per affermare con sicurezza che stai vedendo una correlazione diversa da zero a causa di qualsiasi cosa. Con solo 5 coppie, anche i coefficienti di correlazione superiori a 0,8 potrebbero non essere significativamente diversi da 0.
Wang nucleare,

11

Risposta semplice: se 2 variabili sono indipendenti, la correlazione della popolazione è zero, mentre la correlazione del campione sarà in genere piccola, ma diversa da zero.

Questo perché il campione non è una rappresentazione perfetta della popolazione.

Più grande è il campione, migliore è la popolazione, quindi minore sarà la correlazione. Per un campione infinito , la correlazione sarebbe zero.


1
pϵnnϵp

Sì, assolutamente corretto! Ho cercato di mantenere la mia risposta il più semplice e concettuale possibile.
Dave,

1

Forse questo è utile per alcune persone che condividono la stessa comprensione intuitiva. Abbiamo visto tutti qualcosa del genere:

inserisci qui la descrizione dell'immagine

r=0.66

Come altri hanno già sottolineato, i valori del campione sono correlati, ma ciò non significa che la popolazione abbia una correlazione diversa da zero.

Naturalmente, questi due dovrebbero essere indipendenti: dato che Nicolas Cage è apparso in un film da record di 10 film quest'anno, non dovremmo chiudere la piscina locale per l'estate per motivi di sicurezza.

Ma quando controlliamo quante persone affogano quest'anno, c'è una piccola possibilità che anneghino un record di 1000 persone quest'anno.

Ottenere tale correlazione è improbabile. Forse uno su mille. Ma è possibile, anche se i due sono indipendenti. Ma questo è solo un caso. Considera che ci sono milioni di possibili eventi da misurare là fuori e puoi vedere la probabilità che le probabilità che alcuni due accadano per dare una correlazione elevata siano piuttosto alte (da qui l'esistenza di grafici come quello sopra).

Un altro modo di osservarlo è che garantire che due eventi indipendenti forniranno sempre valori non correlati è di per sé restrittivo. Dati due dadi indipendenti e i risultati del primo, ci sono un certo insieme (considerevole) di risultati per il secondo dado che darà una correlazione diversa da zero. Limitare i risultati del secondo dado per dare zero correlazione con il primo è una chiara violazione dell'indipendenza, poiché i tiri del primo dado stanno influenzando la distribuzione dei risultati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.