Quantificazione della somiglianza tra due set di dati


12

Riepilogo : cercare di trovare il metodo migliore per riepilogare la somiglianza tra due insiemi di dati allineati utilizzando un singolo valore.

Dettagli :

La mia domanda è meglio spiegata con un diagramma. I grafici seguenti mostrano due diversi set di dati, ciascuno con valori etichettati nfe nr. I punti lungo l'asse x rappresentano il punto in cui sono state eseguite le misurazioni, mentre i valori sull'asse y sono il valore misurato risultante.

Per ogni grafico voglio un singolo numero per riassumere la somiglianza nfe i nrvalori in ciascun punto di misurazione. In questo esempio è visivamente ovvio che i risultati nei primi grafici sono meno simili a quelli nel secondo grafico. Ma ho molti altri dati in cui la differenza è meno evidente, quindi essere in grado di classificarlo quantitativamente sarebbe utile.

Ho pensato che potrebbe esserci una tecnica standard che viene generalmente utilizzata. La ricerca della somiglianza statistica ha dato molti risultati diversi, ma non sono sicuro di cosa sia meglio scegliere o se le cose che sono pronto si applicano al mio problema. Quindi ho pensato che valesse la pena porre questa domanda nel caso in cui ci sia una risposta semplice.

inserisci qui la descrizione dell'immagine


1
Potresti voler dare un'occhiata a questo documento che ha una moltitudine di misure elencate. ( Users.uom.gr/~kouiruki/sung.pdf ) Se il link non funziona la sua chiamata "Comprehensive Indagine sulle misure Distanza / somiglianza tra le funzioni di densità di probabilità" di Sung-Hyuk Cha nel giornale internazionale di modelli matematici e metodi in Scienza applicata che esamina una pletora di misure di somiglianza.
arie64,

Il Dynamic Time Warping viene utilizzato per misurare la somiglianza tra due serie storiche. Questa tecnica può svolgere il compito qui. Controlla questo link: en.wikipedia.org/wiki/Dynamic_time_warping
Aman Anand

Risposte:


6

L'area tra 2 curve può darti la differenza. Quindi la somma (nr-nf) (somma di tutte le differenze) sarà un'approssimazione dell'area tra 2 curve. Se vuoi renderlo relativo, puoi usare sum (nr-nf) / sum (nf). Questi ti daranno un singolo valore che indica la somiglianza tra 2 curve per ciascun grafico.

Modifica: il metodo sopra indicato della somma delle differenze sarà utile anche se si tratta di punti o osservazioni separati e non di linee o curve collegate, ma in tal caso, la media delle differenze può anche essere un indicatore e potrebbe essere migliore poiché prenderebbe in considerazione il numero di osservazioni.


1
Proverò questo e vedrò come funziona. Spero ancora di riuscire a metterlo in relazione con una tecnica più formalizzata. Ho letto di Euclidean Distance e sembra che sia abbastanza simile alla tecnica qui. Inoltre, come nota aggiuntiva anche se il mio grafico ha linee di collegamento, mi preoccupo solo dei singoli punti. Non sto davvero confrontando le curve, ma solo i valori misurati. Non so se fosse chiaro nella mia domanda.
Gabriel Southern

Dovrebbe funzionare anche se i punti non sono collegati.
anche il

1

Devi definire più cosa intendi per "somiglianza". L'importanza è importante? O solo forma?

Se solo la forma è importante, ti consigliamo di normalizzare entrambe le serie storiche per il loro valore massimo (quindi sono entrambe da 0 a 1).

Se stai cercando una correlazione lineare, una semplice correlazione pearson funzionerà bene, che essenzialmente misura la covarianza.

Esistono altre tecniche, ad esempio, che potrebbero adattare una linea o un polinomio alle serie temporali (essenzialmente livellandolo) e quindi confrontando i polinomi lisci.

Se stai cercando una somiglianza periodica (ovvero le serie temporali hanno una certa componente sinusoidale o stagionalità), prendi in considerazione l'uso di una scomposizione delle serie temporali nella tendenza e condividi prima i componenti. O usando qualcosa come FFT per confrontare i dati nel dominio della frequenza.

Questo è tutto ciò che so senza più definizione di ciò che dovrebbe essere "simile". Spero che sia d'aiuto.


0

È possibile utilizzare (nr-nf) per ogni punto di misurazione, più piccolo è il numero (valore assoluto) più simile è il valore. Non è esattamente l'approccio più scientifico, per favore perdonami, non ho una vera formazione formale in questa materia. Se stai solo cercando una rappresentazione numerica del visivo, questo dovrebbe farlo.


1
Grazie per il tuo suggerimento Ci ho pensato anche io, ma il problema è che sarà ponderato dalla differenza assoluta piuttosto che dalla differenza relativa. Nell'esempio che ho incluso i set di dati più simili avevano anche valori assoluti più piccoli, ma se la situazione fosse invertita si potrebbe ottenere un'interpretazione errata usando questa tecnica. Devo riassumere la somiglianza / differenza relativa piuttosto che una differenza assoluta.
Gabriel Southern

(Nr-nf) / nf funzionerebbe? Questo ti renderebbe parente. Sono davvero interessato a vedere la vera risposta dal momento che sto affrontando lo stesso tipo di situazione.
Mike G,

Se sono tutti su una scala comparabile, il fatto che quelli simili siano generalmente più bassi non riguarda i valori relativi, si tratta dell'interpretazione della somiglianza. Se i valori nel secondo grafico fossero compresi tra 101 e 104 cambierebbe l'interpretazione della loro somiglianza? In tal caso, è necessario spiegarlo. Sarebbero necessari maggiori dettagli su cosa sia esattamente la variabile y.
John

@Giovanni è un buon punto. Immagino di aver bisogno di pensarci di più. I valori su y sono valori di accelerazione per un benchmark e sto cercando di confrontare la somiglianza tra una varietà di configurazioni diverse. Quindi immagino che il suggerimento in questa risposta potrebbe funzionare, potrei provarlo solo per vedere come appaiono i numeri. Preferirei comunque utilizzare una tecnica statistica accettata in modo più formale (se ce n'è una per il mio problema).
Gabriel Southern
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.