Quando utilizzare la distanza euclidea ponderata e come determinare i pesi da utilizzare?


16

Ho una serie di dati in cui ogni dato è costituito da misure diverse. Per ogni misura, ho un valore di riferimento. Vorrei sapere quanto vicino ogni dato è al valore di riferimento.n

Ho pensato di usare la distanza euclidea ponderata in questo modo:

dX,B=(Σio=1nwio(Xio-Bio)2))1/2

dove

Xio è il valore dell'i-esima misura per i dati particolari

Bio è il valore di riferimento corrispondente per quella misura.

wio è il valore del peso che all'i-esima misura soggetto a quanto segue:

0<wio<1 eΣio=1n1

Tuttavia, basandomi su questo documento, ho scoperto che il peso da utilizzare è il reciproco della varianza dell'i-esima misura. Non credo che questo tipo di ponderazione spiegherà l'importanza che attribuirò a ciascuna misura.

Perciò:

  1. Esistono metodi per elaborare un insieme di pesi che rifletta l'importanza relativa dell'osservatore di una misura o l'osservatore può assegnare valori arbitrari per i pesi?

  2. È appropriato utilizzare la distanza euclidea ponderata per risolvere questo problema?

Risposte:


16

Pesi per la standardizzazione

L'impostazione che hai è una variante della distanza Mahalanobis . Quindi, quando è il reciproco della varianza di ciascuna misura, si stanno effettivamente mettendo tutte le misure sulla stessa scala. Ciò implica che pensi che la variazione in ciascuno sia ugualmente "importante", ma che alcuni siano misurati in unità che non sono immediatamente comparabili.w

Pesi per importanza

Sei libero di mettere qualsiasi cosa ti piaccia come pesi, comprese le misure di "importanza" (anche se potresti voler standardizzare prima della ponderazione dell'importanza se le unità di misura differiscono).

Un esempio può aiutare a chiarire le questioni: considerare l'idea di stimare le "distanze" ideologiche tra attori politici. In questa applicazione e potrebbe essere la posizione di due attori questione -esimo, e la rilevanza di tale problema. Ad esempio,XBiowioBiopotrebbe essere la posizione di status quo in alcune dimensioni, da cui differiscono le posizioni di vari attori. In questa applicazione si preferirebbe certamente misurare piuttosto che affermare sia salienza che posizione. In entrambi i casi, pesi elevati fanno differenze su questioni non salienti e avranno un effetto minore sulla distanza complessiva tra attori se vengono calcolati secondo la tua prima equazione. Si noti inoltre che in questa versione non assumiamo implicitamente alcuna covarianza rilevante tra le posizioni, il che è un'affermazione abbastanza forte.

Concentrandosi ora sulla domanda 2: Nell'applicazione ho appena descritto la giustificazione per la ponderazione e le distanze motivate nelle ipotesi teoriche di gioco sulle strutture di preferenze transitive e simili. In definitiva, questi sono gli unici motivi per cui è "appropriato" calcolare le distanze in questo modo. Senza di loro abbiamo appena un mucchio di numeri che obbediscono alla disuguaglianza del triangolo.

Pesi come misura implicita

Sul tema della covarianza, potrebbe essere utile pensare al tuo problema come a identificare il sottospazio rilevante entro il quale le distanze hanno un senso sostanziale, supponendo che molte delle misurazioni che hai effettivamente misurino cose simili. Un modello di misurazione, ad esempio l'analisi dei fattori, proietterebbe tutto attraverso una combinazione ponderata in uno spazio comune in cui le distanze potrebbero essere calcolate. Ma, ancora una volta, dovremmo conoscere il contesto della tua ricerca per dire se ciò avrebbe senso.


grazie per preziose informazioni. ma ho dubbi su come calcolare i pesi?
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.