Comprensione di questo diagramma PCA delle vendite di gelati rispetto alla temperatura


9

Sto prendendo un dato fittizio sulla temperatura rispetto alle vendite di gelati e lo ho classificato usando K Keans (n ​​cluster = 2) per distinguere 2 categorie (totalmente fittizio).

Ora sto facendo un'analisi dei componenti principali su questi dati e il mio obiettivo è capire cosa vedo. So che l'obiettivo della PCA è ridurre la dimensionalità (ovviamente non in questo caso) e mostrare la varianza degli elementi. Ma come leggi la trama di PCA qui sotto, ovvero qual è la storia che puoi raccontare sulla temperatura rispetto al gelato nella trama di PCA? Cosa significano il 1 ° (X) e il 2 ° (Y) PC?

inserisci qui la descrizione dell'immagine


1
Questo dovrebbe essere un commento, ma ho un rappresentante insufficiente. Il link seguente è un eccellente tutorial su PCA. In particolare, l'esempio del giocattolo trova un buon equilibrio tra "abbastanza semplice da capire con un'immagine" e "abbastanza complicato da poter essere usato come un'analogia in problemi futuri". Penso che leggerlo potrebbe aiutare a chiarire cosa PCA può e non può fare per te. cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
Jason

Risposte:


18

So che l'obiettivo dell'APC è ridurre la dimensionalità

k k

ovviamente non in questo caso

Non ne sarei così sicuro! Dal tuo secondo grafico, visivamente sembra che molte delle informazioni dei tuoi dati possano essere proiettate su una linea orizzontale. Quella è 1 dimensione, invece della trama originale che era in 2 dimensioni! Ovviamente perdi alcune informazioni perché stai rimuovendo l'asse Y, ma se questa perdita di informazioni è accettabile per te, è la tua chiamata.

Ci sono un sacco di domande relative a cosa sia il PCA sul sito, quindi ti incoraggio a dare un'occhiata qui , qui , qui o qui . Se dopo hai altre domande, pubblicale e saremo felici di aiutarti.

Come la tua vera domanda:

qual è la storia che puoi raccontare sulla temperatura rispetto al gelato nel grafico PCA?

Poiché i nuovi assi di coordinate sono una combinazione lineare delle coordinate originali, allora ... praticamente niente! PCA ti darà una risposta come (numeri inventati):

PC1=2.5×ice cream3.6×temperaturePC2=1.5×ice cream+0.6×temperature

Ti è utile? Può essere. Ma immagino di no :)

Modificato

Aggiungerò questa risorsa che ritengo utile perché i grafici interattivi sono fantastici.

Modificato di nuovo

k

n>kkk k


6
Inoltre, assicurati di ridimensionare le variabili. Altrimenti le vendite (numeri molto più alti) spiegheranno la maggior parte della varianza. Probabilmente perché le unità nei tuoi PC sono così diverse.
Filipe,

Buona risposta, ma la tua affermazione "... le migliori dimensioni kk che i tuoi dati potrebbero essere rappresentati come ..." sono forse troppo generalizzate. La direzione della varianza massima non è necessariamente utile per separare due classi. In qualche modo, spesso funziona bene, ma non perché PCA fa di tutto per fare le scelte migliori per uno scopo particolare.
Wayne,

"infatti PCA è solo una rappresentazione dei tuoi dati su base ortogonale." Sono costantemente sorpreso dal fatto che molte persone non capiscono questo punto ...
3x89g2

5

Alla buona risposta dell'uomo di Ilan aggiungerei che esiste un'interpretazione abbastanza semplice dei tuoi componenti principali, sebbene in questo semplice caso 2D non si aggiunga molto a ciò che avremmo potuto interpretare solo guardando il grafico a dispersione.

Il primo PC è una somma ponderata (ovvero una combinazione lineare in cui entrambi i coefficienti sono positivi) di consumo di temperatura e gelato. Nella parte destra ci sono giorni caldi in cui viene venduto molto gelato, e nella parte sinistra ci sono giorni più freddi in cui viene venduto meno gelato. Quel PC spiega la maggior parte della tua varianza e i gruppi che hai ottenuto corrispondono a quelle due parti.

Il secondo PC misura il modo in cui il consumo di temperatura e gelato si allontana dalla stretta relazione lineare sottolineata dal primo PC. Nella parte superiore del grafico abbiamo giorni con più gelati venduti rispetto ad altri giorni della stessa temperatura e nei giorni inferiori con meno gelati venduti del previsto in base alla temperatura. Quel PC spiega solo una piccola parte della varianza.

Cioè, possiamo raccontare una storia dai componenti principali, anche se con solo due variabili è la stessa storia che avremmo potuto notare senza PCA. Con più variabili PCA diventa più utile perché racconta storie che altrimenti sarebbe più difficile notare.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.