Perché il coefficiente di variazione non è valido quando si utilizzano dati con valori positivi e negativi?


10

Non riesco a trovare una risposta definitiva alla mia domanda.

I miei dati sono costituiti da diversi grafici con mezzi misurati che variano da 0,27 a 0,57. Nel mio caso, tutti i valori dei dati sono positivi, ma la misurazione stessa si basa su un rapporto di valori di riflettanza che può variare da -1 a +1. I grafici rappresentano i valori di NDVI , un indicatore remoto della "produttività" della vegetazione.

La mia intenzione era quella di confrontare la variabilità dei valori di ogni grafico, ma poiché ogni grafico ha una media diversa, ho optato per l'uso del CV per misurare la dispersione relativa dei valori NDVI per diagramma.

Da quello che ho capito, prendere il CV di questi grafici non è kosher perché ogni trama può avere valori sia positivi che negativi. Perché non è appropriato utilizzare il CV in tali casi? Quali sarebbero alcune alternative praticabili (cioè test simili di dispersione relativa, trasformazioni di dati, ecc.)?


1
Qual è lo scopo di confrontare la variabilità? Perché non confrontare semplicemente misure di variabilità effettiva, come SD, MAD, intervallo o altro, invece di una misura relativa come il CV (che qui non ha senso)?
whuber

Sto usando CV per tenere conto delle differenze nei mezzi tra i grafici. Non ha senso perché i valori vanno da -1 a +1 in tutti i grafici? cioè, la "variabilità effettiva" sarebbe più indicativa delle differenze tra i grafici?
Profeta60091,

2
Il CV è una misura relativa della variazione, per definizione. Fornisce risultati senza senso per qualsiasi media negativa (non è possibile interpretare una quantità negativa di dispersione o diffusione). Per mezzi positivi, fa apparire una data quantità di spread molto più grande quando la media è piccola. Quando questo è desiderato, ciò che stai facendo è effettivamente equivalente al confronto dei tuoi dati su una scala logaritmica - e questo non ha senso ogni volta che uno qualsiasi dei dati può essere zero o negativo. È possibile che i tuoi dati possano aver bisogno di una sorta di reespressione per consentire buoni confronti della variabilità; dipende da come vengono generati.
whuber

+1 per spiegazione. Mentre i mezzi dei miei grafici sono tutti positivi, ci possono essere valori negativi all'interno di ciascun diagramma. Sulla base di quanto sopra, e la risposta di Peter in basso, sembrerebbe che l'uso del CV non sia garantito. Esaminerò il potenziale riscalamento dei valori e / o l'utilizzo di misure di variabilità effettiva.
Profeta60091,

1
Se riesci a ridimensionare sensibilmente i tuoi dati aggiungendo una costante, ciò significherebbe anche che CV non è una buona idea. Questo perché l'aggiunta di una costante modifica il CV ma non cambia la variazione.
Peter Flom

Risposte:


11

Pensa al CV: rapporto tra deviazione standard e media. Ma se la variabile può avere valori positivi e negativi, la media potrebbe essere molto vicina a 0; quindi, CV non fa più ciò che dovrebbe fare: Cioè, dare un'idea di quanto sia grande la SD, rispetto alla media.

EDIT: In un commento, ho detto che se si potesse aggiungere sensibilmente una costante alla variabile, CV non era buono. Ecco un esempio:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2 è semplicemente x + 10. Penso che sia intuitivamente chiaro che sono ugualmente variabili; ma CV è diverso.

Un esempio di vita reale di questo sarebbe se x fosse la temperatura in gradi C e x2 la temperatura in gradi K (anche se si potrebbe sostenere che K è la scala corretta, poiché ha uno 0 definito).


grazie! Quindi la preoccupazione è più di avere una media vicino allo zero e non avere necessariamente valori positivi e negativi nei tuoi dati. In tal caso, quanto vicino a una media di zero è considerato "molto vicino"? Nel mio caso, direi che sono ben lungi dall'essere il mio mezzo vicino allo zero. C'è un modo definitivo per determinarlo?
Profeta60091,

No, la preoccupazione è che il CV non faccia più ciò che dovrebbe fare, anche se c'è solo 1 valore negativo. Se hai valori negativi, non usare CV. Inoltre, se i tuoi valori sono su scala arbitraria, non utilizzare CV.
Peter Flom

Per completezza, potresti fornire qualche spiegazione in più sul perché l'utilizzo di una scala arbitraria invalida l'uso del CV? Grazie!
Profeta60091,

In tutta onestà, penso che @whuber non stia sostenendo il confronto tra dati trasformati e dati non trasformati, ma il tuo punto è ancora preso: il ridimensionamento influirà sul CV, quando si potrebbe pensare che i risultati dovrebbero rimanere gli stessi. +1 per il codice giocattolo R!
Profeta60091,

Non ho alcun argomento con i commenti di @whuber su questa discussione.
Peter Flom

0

Penso a questi come a diversi modelli di variazione. Esistono modelli statistici in cui il CV è costante. Laddove lavorano, è possibile segnalare un CV. Esistono modelli in cui la deviazione standard è una funzione di potenza della media. Esistono modelli in cui la deviazione standard è costante. Di norma, un modello CV costante è un'ipotesi iniziale migliore rispetto a un modello SD costante, per le variabili della scala del rapporto. Puoi speculare sul perché ciò sia vero, forse in base alla prevalenza di interazioni moltiplicative piuttosto che additive.

La modellazione a CV costante è spesso associata alla trasformazione logaritmica. (Un'eccezione importante è una risposta non negativa che a volte è zero.) Ci sono un paio di modi per vederlo. Innanzitutto, se il CV è costante, i log sono la trasformazione convenzionale di stabilizzazione della varianza. In alternativa, se il tuo modello di errore è lognormale con costante SD nella scala del registro, il CV è una semplice trasformazione di quella SD. Il CV è circa uguale alla scala SD del log quando entrambi sono piccoli.

Due metodi per applicare metodi statistici 101 come una deviazione standard sono i dati nel modo in cui li hai acquisiti o (specialmente se quelli sono in scala di rapporto) nei loro registri. Fai la prima ipotesi migliore che puoi sapere che la natura potrebbe essere piuttosto complicata e che ulteriori studi potrebbero essere in ordine. Prendi in considerazione ciò che la gente ha precedentemente trovato produttivo con il tuo tipo di dati.

Ecco un caso in cui questa roba è importante. Le concentrazioni chimiche sono talvolta riassunte con CV o modellate in scala logaritmica. Tuttavia, il pH è una concentrazione di log.


3
Grazie per il tuo contributo e benvenuto nel nostro sito! Potresti chiarire come la tua risposta affronta la domanda sulla validità dell'utilizzo di un CV per caratterizzare i dati che possono avere valori negativi? Tale situazione sembrerebbe non essere coperta da nessuna delle vostre osservazioni.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.