Qual è la correlazione se la deviazione standard di una variabile è 0?


15

A quanto ho capito, possiamo ottenere una correlazione normalizzando la covarianza usando l'equazione

ρi,j=cov(Xi,Xj)σiσj

dove è la deviazione standard diXi.σi=E[(Xiμi)2]Xi

La mia preoccupazione è cosa succede se la deviazione standard è uguale a zero? C'è qualche condizione che garantisce che non può essere zero?

Grazie.


11
Nessuna variabile con deviazione standard 0 potrebbe eventualmente essere correlata con un'altra variabile (non costante). La correlazione è una misura di come i valori grandi / piccoli in una variabile corrispondono ai valori grandi / piccoli in un'altra variabile - se una delle variabili è uguale a una costante con probabilità 1 (una conseguenza della deviazione standard 0), allora può ' è possibile che fornisca informazioni sul fatto che l'altra variabile sia piccola o grande. Non so quale sia la convenzione, ma sembra che la correlazione debba essere definita come 0 in quel caso.
Macro

Grazie mille Macro. Penso che la tua idea sia la stessa della risposta qui sotto. Tuttavia, non ho potuto votare il tuo commento a causa della limitazione in punti. Grazie.
Chepukha,

4
Hai già accettato una risposta e quindi scriverò solo un commento. Se una variabile casuale ha deviazione standard σ Y = 0 , allora cov ( X , Y ) = E [ ( X - μYσY=0 per qualsiasi altra variabile casuale X (poiché ( Y - μ Y ) = 0 con probabilità 1
cov(X,Y)=E[(XμX)(YμY)]=0
X(YμY)=01). Pertanto, la definizione del coefficiente di correlazione dà la forma indeterminata0ρX,Y=cov(X,Y)σXσY . È convenzionaledefinireρX,Yuguale a000 ρX,Y0 in questo caso , e questo può essere difeso sulla base del valore limite di come σ Y0 ecc.ρX,YσY0
Dilip Sarwate,

6
@Dilip, se è una risposta dovrebbe andare come una risposta. Non dovrebbe importare se una risposta è già stata accettata.
Andy W,

1
@Dilip Il problema con lo forma 0 è che anche se si può fare in modo che abbia un valore definito mediante un'operazione di limitazione, il valore dipende dacomesi prende il limite. Di conseguenza, l'argomento secondo cuiρX,Y=0è incompleto (e non convincente). Puoi citare una fonte che adotta questa convenzione e la supporta con un motivo valido? 00ρX,Y=0
whuber

Risposte:


14

È vero che, se una delle tue SD è 0, quell'equazione non è definita. Tuttavia, un modo migliore di pensare a questo è che se una delle tue SD è 0, non c'è correlazione. In termini concettuali liberi, una correlazione ti dice come si muove una variabile mentre l'altra si muove. Una SD di 0 implica che la variabile non si sta "muovendo". Dovresti avere un vettore di una costante, come rep(constant, n_times).


Molte grazie. Penso che abbia senso. È interessante che non ho visto alcun libro di testo menzionare quel caso.
Chepukha,

@gung Quindi questa è una limitazione nella definizione del coefficiente di correlazione, intendo che l'equazione di correlazione può avere due valori, uno è come indicato nell'equazione sopra e 0 quando SD di una delle variabili è 0.
prashanth

@prashanth, suppongo.
gung - Ripristina Monica

2

L'altra cosa a cui pensare sono le ipotesi alla base quando parliamo di mezzi, deviazioni standard e correlazioni.

Se stiamo parlando di un campione di dati, un presupposto comune è che i dati siano (almeno approssimativamente) normalmente distribuiti o possano essere trasformati in modo tale da essere (ad esempio tramite una trasformazione del log). Se osservi una deviazione standard pari a zero, ci sono due scenari: o la deviazione standard è in realtà diversa da zero, ma molto piccola, e quindi il set di dati che hai ha campioni che sono tutti sul valore medio (questo potrebbe, ad esempio, accadere se si stanno misurando i dati con un livello di precisione approssimativo); oppure il modello non è specificato correttamente.

In questo secondo scenario, la deviazione standard, e di conseguenza la correlazione, è una misura insignificante.

Più in generale, le distribuzioni sottostanti devono avere entrambi secondi momenti finiti, e quindi deviazioni standard diverse da zero, affinché la correlazione sia un concetto valido.


Vale la pena notare che la domanda originale riguarda le distribuzioni (teoriche), non i dati.
whuber

In tal caso, una deviazione standard di zero implicherebbe una distribuzione degenerata con misura solo alla media (cioè la funzione costante) ... ancora una volta la deviazione standard ha senso che la distribuzione sottostante è normale. Se la deviazione standard è zero, il PDF del gaussiano non è definito correttamente, quindi non è consentito nel modello.
TC

Sono sorpreso dall'aspetto dei gaussiani nel tuo commento, Tom. Sembra una restrizione non necessaria. Anche richiedere l'esistenza di un pdf sembra restrittivo (dopo tutto, nessuna distribuzione discreta ha un pdf). Nota anche che la SD è ben definita - "significativa" - ogni volta che il secondo momento è finito, e questo include gli atomi di probabilità (le tue funzioni "Dirac delta").
whuber

Ok, sono d'accordo, probabilmente è stato eccessivamente restrittivo, ma in genere questo è ciò che la gente intende per SD. ad es. da Wolfram: "La deviazione standard può essere definita per qualsiasi distribuzione con primi due momenti finiti, ma è più comune supporre che la distribuzione sottostante sia normale." Sostieni tuttavia il mio punto che se la SD = 0 per una delle variabili, le assunzioni di base alla base del concetto statistico di correlazione non vengono soddisfatte?
TD

Sì, Tom, la tua ultima affermazione è perfetta e la accetto volentieri. Tuttavia, l'idea che esprime non appare molto importante nella tua risposta; se è lì, è sepolto nelle osservazioni sulle normali distribuzioni, registri, funzioni delta e attenzione ai dati piuttosto che alle distribuzioni stesse. A proposito, dovresti stare attento alle dichiarazioni statistiche che appaiono sul sito di Wolfram: è così fortemente orientato verso la matematica che le sue caratteristiche sulla pratica statistica possono essere discutibili. Qui è completamente sbagliato: l'uso di SD va ben oltre le impostazioni di distribuzione normale.
whuber

2

Una correlazione è il coseno dell'angolo tra due vettori. Dire che la deviazione standard per Y è zero equivale a dire che la media Y (Y) del vettore è zero (o, più rigorosamente, che rappresenta lo zero nello spazio vettoriale appropriato). Quindi la domanda diventa "Cosa si può dire dell'angolo (coseno dell') tra il vettore zero e il vettore X-mean (X)?". Più in generale, in qualsiasi spazio vettoriale con un prodotto interno, cosa si intende per angolo tra il vettore zero e qualche altro vettore? C'è solo una risposta a questo, secondo me, ed è che il concetto di "angolo" in questa situazione è insignificante, e quindi il concetto di correlazione in questa situazione è insignificante.


0

Disclaimer, mi rendo conto che esiste già una risposta di qualità accettata, quindi questa dovrebbe essere una risposta, ma non ho i punti esperienza per permetterlo. @Dilip ha menzionato che è possibile definire la correlazione come 0 per convenzione, ma questo sembra problematico in quanto avrebbe un'interpretazione molto diversa da una correlazione che è veramente zero (con SD diverse da zero). La domanda originale dice "se la SD di una variabile è zero". Se ci fermiamo e pensiamo alla definizione di "variabile", otteniamo un percorso molto più diretto verso la risposta. Una variabile con 0 SD non è affatto una variabile, è una costante. Quindi in quel caso non hai due variabili, quindi concettualmente non ha senso definire una correlazione.


Se non hai abbastanza punti per commentare non dovresti commentare attraverso le risposte.
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.