Come interpretare il coefficiente di variazione?


33

Sto cercando di capire il coefficiente di variazione . Quando provo ad applicarlo ai seguenti due esempi di dati, non riesco a capire come interpretare i risultati.

Supponiamo che il campione 1 sia e il campione 2 sia {10, 15, 17, 22, 21, 27} . Qui esempio 2 = campione 1 + \ 10 come puoi vedere.10 , 15 , 17 , 22 , 21 , 27 = + 100,5,7,12,11,1710,15,17,22,21,27=+ 10

Entrambi hanno la stessa deviazione standard σ2=σ1=5.95539 ma μ2=18.67 e μ1=8.66667 .

Ora il coefficiente di variazione σ/μ sarà diverso. Per il campione 2 sarà inferiore a quello del campione 1. Ma come interpretare quel risultato? In termini di varianza entrambi sono uguali; solo i loro mezzi sono diversi. Quindi a che serve il coefficiente di variazione qui? Mi sta solo fuorviando, o forse non sono in grado di interpretare i risultati.


Se invece di aggiungere 10 aggiungi 1000, il secondo set di numeri differirà di molto meno, rispetto alla media, rispetto al primo set. Il coefficiente di variazione ne è un'espressione.

Molto strettamente correlati: stats.stackexchange.com/questions/113437/… .
whuber

Risposte:


42

In esempi come i tuoi quando i dati differiscono solo in modo additivo, ovvero aggiungiamo una costante a tutto, quindi, come fai notare, la deviazione standard rimane invariata, la media viene modificata esattamente da quella costante e quindi il coefficiente di variazione cambia da to , che non è né interessante né utile.σ / μ σ / ( μ + k )kσ/μσ/(μ+k)

È il cambiamento moltiplicativo che è interessante e dove il coefficiente di variazione ha qualche utilità. Per moltiplicare tutto per una costante implica che il coefficiente di variazione diventa , cioè rimane lo stesso di prima. Il cambio di unità di misura è un esempio emblematico, come nelle risposte di @Aksalal e @Macond.k σ / k μkkσ/kμ

Poiché il coefficiente di variazione è privo di unità, così anche privo di dimensioni, poiché qualsiasi divisione o dimensione posseduta dalla variabile sottostante viene sbiadita dalla divisione. Ciò rende il coefficiente di variazione una misura della variabilità relativa , quindi la variabilità relativa delle lunghezze può essere confrontata con quella dei pesi, e così via. Un campo in cui il coefficiente di variazione ha trovato un uso descrittivo è la morfometria della dimensione dell'organismo in biologia.

In linea di principio e in pratica il coefficiente di variazione è definito solo in modo completo e assolutamente utile per le variabili che sono interamente positive. Quindi in dettaglio il tuo primo campione con un valore di non è un esempio appropriato. Un altro modo di vedere questo è notare che se la media fosse sempre zero il coefficiente sarebbe indeterminato e se la media fosse sempre negativa il coefficiente sarebbe negativo, supponendo in quest'ultimo caso che la deviazione standard sia positiva. In entrambi i casi la misura sarebbe inutile come misura della variabilità relativa, o addirittura per qualsiasi altro scopo. 0

Un'affermazione equivalente è che il coefficiente di variazione è interessante e utile solo se i logaritmi sono definiti nel modo consueto per tutti i valori, e infatti usare coefficienti di variazione equivale a guardare la variabilità dei logaritmi.

Anche se qui dovrebbe sembrare incredibile per i lettori, ho visto pubblicazioni climatologiche e geografiche in cui i coefficienti di variazione delle temperature Celsius hanno sconcertato scienziati ingenui che notano che i coefficienti possono esplodere mentre le temperature medie si avvicinano a C e diventano negative per temperature medie inferiori allo zero. Ancora più stranamente, ho visto dei suggerimenti che il problema è stato risolto usando Fahrenheit invece. Viceversa, il coefficiente di variazione è spesso citato correttamente come misura di riepilogo definita se e solo se le scale di misurazione si qualificano come scale di rapporto. In effetti, il coefficiente di variazione non è particolarmente utile anche per le temperature misurate in kelvin, ma per ragioni fisiche piuttosto che matematiche o statistiche.0

Come nel caso dei bizzarri esempi della climatologia, che lascio senza riferimenti poiché gli autori non meritano né il merito né la vergogna, il coefficiente di variazione è stato sovrautilizzato in alcuni campi. Occasionalmente si tende a considerarlo come una sorta di misura magica sommaria che incapsula sia la media che la deviazione standard. Questo è un pensiero naturalmente primitivo, poiché anche quando il rapporto ha un senso, la deviazione media e standard non può essere recuperata da esso.

In statistica il coefficiente di variazione è un parametro abbastanza naturale se la variazione segue la gamma o il lognormale, come si può vedere osservando la forma del coefficiente di variazione per tali distribuzioni.

Sebbene il coefficiente di variazione possa essere di qualche utilità, nei casi in cui si applica il passaggio più utile è lavorare su scala logaritmica, mediante trasformazione logaritmica o utilizzando una funzione di collegamento logaritmico in un modello lineare generalizzato.

EDIT: se tutti i valori sono negativi, allora possiamo considerare il segno come una semplice convenzione che può essere ignorata. Equivalentemente in quel caso,è effettivamente un gemello identico del coefficiente di variazione.σ/|μ|


3
+1 Questo post include i punti chiave sui logaritmi e sulla positività che dovrebbero far parte di qualsiasi discussione sulla questione. Le "storie di guerra" lo rendono anche una buona lettura.
whuber

Pensavo non potessi calcolare CV se una variabile è = 0?

1
@Jerf: pensaci bene. Se tutti i valori sono 0, non vi è alcuna variazione e nulla da calcolare. Non ci sono problemi solo perché alcuni singoli valori sono 0, in quanto questo non esclude la media essendo 0. Tuttavia puoi sempre trovare esempi in cui alcuni valori non sono zero ma la media è 0, ad esempio -1, 0, 1 in in tal caso il CV è indeterminato. Ma in pratica, il CV è molto utile quando tutti i valori sono positivi.
Nick Cox,

13

Immagina di aver detto "Ci sono 1.625.330 persone in questa città. Più o meno cinque". Saresti colpito dalla mia accurata conoscenza demografica.

Ma se dicessi "Ci sono cinque persone in questa casa. Più o meno cinque". Penseresti che non avevo idea di quante persone fossero in casa.

Stessa deviazione standard, CV molto diversi.


1
Questo è un modo ragionevole per spiegare cos'è il CoV, ma non è chiaro quanto sia rilevante per la domanda del PO.
gung - Ripristina Monica

OP chiede: "In termini di varianza entrambi sono uguali; solo i loro mezzi sono diversi. Quindi a che serve il coefficiente di variazione qui?" Penso che il mio esempio illustri l'uso del CV come modo di interpretare la varianza.
Bart,

1
Non ti ho votato. Le 2 domande esplicite del PO sono: "come interpretare quel risultato?", E "a che cosa serve il coefficiente di variazione qui?". La tua spiegazione è buona, ma capire cos'è il CoV è solo il primo passo per rispondere a quelle domande, non l'intera risposta a quelle domande.
gung - Ripristina Monica

4

Normalmente, si utilizza il coefficiente di variazione per variabili di diverse unità di misura o scale molto diverse. Puoi pensarlo come rapporto rumore / segnale. Ad esempio, potresti voler confrontare la variabilità del peso e dell'altezza degli studenti; variabilità del PIL degli Stati Uniti e di Monaco.

Nel tuo caso, il coefficiente di variazione potrebbe non avere molto senso, poiché i valori non sono molto diversi.


2

Il campione con valori più alti ha meno variazioni rispetto alla sua media, come la definizione (s/x¯


2

In realtà, entrambe le statistiche possono essere fuorvianti se non si conoscono o comprendono le proprie ipotesi ed esperimenti. Considera questo esempio raccapricciante ... Camminare attraverso due grattacieli su una corda tesa invece di camminare su una tavola. Diciamo che la corda tesa ha un diametro di 1 pollice, mentre la tavola è larga 12 pollici. A 5 persone è stato chiesto di camminare sulla corda e 5 sono stati invitati a camminare sulla tavola. Abbiamo trovato i seguenti risultati:

La distanza media di ciascun gradino dal bordo (o laterale) della fune (pollici): 0,5, 0,2, 0,3, 0,6, 0,1

La distanza media di ciascun gradino dal bordo (o lato) della tavola (pollici): 5,5, 5,2, 5,3, 5,6, 5,1

Proprio come nel tuo esempio, questo esempio si tradurrà in deviazioni standard uguali poiché i valori per la tavola sono semplicemente una differenza di +5 rispetto a quelli per la corda tesa. Tuttavia, se ti dicessi che la deviazione standard per ogni esperimento era 0,2074, potresti dire bene che i due esperimenti erano equivalenti. Tuttavia, se ti dicessi che il CV dell'esperimento sul filo del rasoio era quasi del 61% rispetto a meno del 4% per la tavola, potresti essere propenso a chiedermi quante persone sono cadute dalla corda.


0

CV è una variabilità relativa che viene utilizzata per confrontare la variabilità di diversi set di dati di esempio. Per un esempio, la stessa deviazione / varianza standard con media più piccola genererà un CV più piccolo. indica che un set di dati CV più piccolo ha una variabilità relativa minore. Supponiamo che tu guadagni 10000 mensili e io guadagni 100. (media diversa) probabilmente tutti perderemo 100 mensilmente (vriation), mi farò molto più male di te da quando ottengo un CV più grande (cv = 1 rispetto al tuo 0,01), relativo maggiore variazione.


1
Devo dire che questo non aggiunge nulla alle risposte esistenti.
Nick Cox,

0

in questo caso, cv non è lo strumento statistico giusto per spiegare il risultato.

a seconda della natura della ricerca svolta, quindi dell'obiettivo, il ricercatore ha un'ipotesi specifica o punta alla prova. Deve progettare, eseguire l'esperimento e analizzare i dati utilizzando lo strumento statistico migliore e appropriato, ad esempio se l'esperimento deve confrontare la crescita del gruppo 1 e del gruppo 2, sebbene il cv di entrambi sia lo stesso, ma usando T-test o T- accoppiato test o Anova (esperimento più grande) potrebbe facilmente dimostrare la differenza tra i due gruppi.

La chiave qui è applicare lo strumento statistico appropriato per dare una spiegazione significativa sul risultato. Ricorda che cv è solo una delle scelte nella statistica descrittiva.

i miei 2 centesimi

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.