Quale distanza usare? ad esempio, manhattan, euclideo, Bray-Curtis, ecc


11

Non sono un ecologo della comunità, ma in questi giorni sto lavorando su dati di ecologia della comunità.

Ciò che non riuscivo a capire, a parte la matematica di queste distanze, sono i criteri per ciascuna distanza da utilizzare e in quali situazioni può essere applicata. Ad esempio, cosa utilizzare con i dati di conteggio? Come convertire un angolo di inclinazione tra due posizioni in una distanza? O la temperatura o la pioggia in due posizioni? Quali sono i presupposti per ciascuna distanza e quando ha senso?


Il modo affidabile per comprendere le metriche della distanza, i loro presupposti, il significato e l'applicabilità è meditare sulle loro formule. Sai, l'anatomia comparata ha permesso di prevedere come vivono e si comportano diversi animali. Inoltre, leggi libri / articoli sulle metriche della distanza.
ttnphns,

2
Nota pedante: Bray – Curtis non è una distanza ma una dissomiglianza.
Franck Dernoncourt,

Risposte:


13

Sfortunatamente, nella maggior parte dei casi non esiste una risposta chiara alla tua domanda. Cioè, per ogni data applicazione, ci sono sicuramente molte metriche di distanza che produrranno risposte simili e accurate. Considerando che ci sono dozzine, e probabilmente centinaia, di metriche di distanza valide utilizzate attivamente, l'idea che sia possibile trovare la distanza "giusta" non è un modo produttivo di pensare al problema di selezionare una metrica di distanza appropriata.

Mi concentrerei invece sul non scegliere la metrica della distanza sbagliata . Desideri che la tua distanza rifletta "magnitudo assoluta" (ad esempio, sei interessato a utilizzare la distanza per identificare titoli che hanno valori medi simili) o a riflettere la forma generale della risposta (ad esempio, i prezzi delle azioni che fluttuano in modo simile nel tempo, ma può avere valori grezzi completamente diversi)? Il primo scenario indicherebbe distanze come Manhattan ed Euclide, mentre il secondo indicherebbe la distanza di correlazione, per esempio.

Se conosci la struttura della covarianza dei tuoi dati, la distanza di Mahalanobis è probabilmente più appropriata. Per dati puramente categorici ci sono molte distanze proposte, ad esempio la distanza corrispondente. Infatti, la distanza di Gower, categorica e continua, è popolare (anche se a mio avviso in qualche modo insoddisfacente).

Infine, secondo me la tua analisi sarà rafforzata se dimostrerai che i tuoi risultati e le tue conclusioni sono solidi per la scelta della metrica della distanza (ovviamente all'interno del sottoinsieme delle distanze appropriate). Se la tua analisi cambia drasticamente con lievi cambiamenti nella metrica della distanza utilizzata, dovrebbero essere intrapresi ulteriori studi per identificare il motivo dell'incoerenza.


1
Cosa intendi con correlation distance? 1- r ?
ttnphns,

1
@ttnphns sì, è il più comune. Vale la pena notare che per una data metrica di somiglianza ci sono almeno tre formule per la conversione in una dissomiglianza: (1) il metodo di Bhattacharyya , (2) Metodo di Kolmogorov e (3) metodo di Matusita . Questo è un altro settore in cui, in , non penso che la scelta contenga molto, e se lo facesse, sarei preoccupato per la solidità dei miei risultati. ρ [ - 1 , 1 ] c o s - 1 ( ρ ) 1 - ρ 1rρ[1,1]cos1(ρ)1ρ practice22ρpractice
Ahfoss,

Citazione per il mio ultimo commento: Krzanowski (1983). Biometrika, 70 (1), 235--243. Vedi pagina 236.
ahfoss,

1
Ok grazie. Controlla anche questa risposta per favore. Ciò è dovuto al fatto che r è esattamente correlato alla distanza euclidea ottenuta sui dati standardizzati (profili confrontati), che reflect overall shape of the responsesecondo le tue parole.
ttnphns,

1
Buon post. Le due metriche sono effettivamente correlate, come fai notare. Per contestualizzare i tuoi punti alla discussione corrente, la differenza chiave è che nella distanza euclidea le variabili non sono (solitamente) centrate, ma la formula di correlazione centra le variabili e le scale in base alla loro deviazione standard. Pertanto, la correlazione è invariante alle trasformazioni lineari, mentre la distanza euclidea non lo è necessariamente.
Ahfoss,

6

Scegliere la giusta distanza non è un compito elementare. Quando vogliamo fare un'analisi cluster su un set di dati, potrebbero apparire risultati diversi utilizzando distanze diverse, quindi è molto importante fare attenzione a quale distanza scegliere perché possiamo creare un falso buon artefatto che catturi bene la variabilità, ma in realtà senza senso nel nostro problema.

La distanza euclidea è appropriata quando ho variabili numeriche continue e voglio riflettere distanze assolute. Questa distanza tiene conto di ogni variabile e non rimuove le ridondanze, quindi se avessi tre variabili che spiegano la stessa (sono correlate), pondererei questo effetto per tre. Inoltre, questa distanza non è invariante per la scala, quindi generalmente devo ridimensionare in precedenza per usare la distanza.
Esempio ecologia: abbiamo diverse osservazioni da molte località, di cui gli esperti hanno prelevato campioni di alcuni fattori microbiologici, fisici e chimici. Vogliamo trovare modelli negli ecosistemi. Questi fattori hanno un'alta correlazione, ma sappiamo che tutti sono rilevanti, quindi non vogliamo rimuovere questi licenziamenti. Usiamo la distanza euclidea con dati in scala per evitare l'effetto delle unità.

La distanza di Mahalanobis è appropriata quando ho variabili numeriche continue e voglio riflettere distanze assolute, ma vogliamo rimuovere le ridondanze. Se abbiamo ripetute variabili, il loro effetto ripetitivo scomparirà.

La famiglia Hellinger , Species Profile e Chord distance sono appropriate quando vogliamo enfatizzare le differenze tra le variabili, quando vogliamo differenziare i profili. Queste distanze pesano per quantità totali di ciascuna osservazione, in modo tale che le distanze siano piccole quando variabili per variabili gli individui sono più simili, sebbene in grandezza assoluta fosse molto diverso. Attento! Queste distanze riflettono molto bene la differenza tra i profili, ma perdono l'effetto magnitudo. Potrebbero essere molto utili quando abbiamo campioni di dimensioni diverse.
Esempio di ecologia: vogliamo studiare la fauna di molte terre e disponiamo di una matrice di dati di un inventario del gasteropode (posizioni di campionamento in file e nomi di specie in colonne). La matrice è caratterizzata dall'avere molti zeri e magnitudini diverse perché alcune località hanno alcune specie e altre hanno altre specie. Potremmo usare la distanza di Hellinger.

Bray-Curtis è abbastanza simile, ma è più appropriato quando vogliamo differenziare i profili e anche prendere in considerazione le dimensioni relative.


Grazie per differenziare i casi d'uso e gli esempi. Ho trovato questo molto utile nell'applicazione a un modello di classificazione aeronautica.
S3DEV,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.