Spiegazione dell'APC e della percentuale di varianza


90

In generale, cosa si intende dicendo che la frazione della varianza in un'analisi come la PCA è spiegata dal primo componente principale? Qualcuno può spiegarlo in modo intuitivo, ma anche dare una definizione matematica precisa di cosa significa "varianza spiegata" in termini di analisi dei componenti principali (PCA)?X

Per una semplice regressione lineare, il quadrato r della migliore linea di adattamento viene sempre descritto come la proporzione della varianza spiegata, ma non sono nemmeno sicuro di cosa pensare. La proporzione di varianza qui è solo l'estensione della deviazione dei punti dalla linea più adatta?


Risposte:


104

Nel caso della PCA, "varianza" significa varianza sommativa o variabilità multivariata o variabilità complessiva o variabilità totale . Di seguito è riportata la matrice di covarianza di circa 3 variabili. Le loro variazioni sono sulla diagonale e la somma dei 3 valori (3.448) è la variabilità complessiva.

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

Ora, PCA sostituisce le variabili originali con nuove variabili, chiamate componenti principali, che sono ortogonali (cioè hanno zero covariazioni) e hanno varianze (chiamate autovalori) in ordine decrescente. Quindi, la matrice di covarianza tra i componenti principali estratti dai dati sopra è questa:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

Si noti che la somma diagonale è ancora 3.448, il che indica che tutte e 3 le componenti rappresentano tutta la variabilità multivariata. La prima componente principale rappresenta o "spiega" 1.651 / 3.448 = 47,9% della variabilità complessiva; il secondo spiega 1.220 / 3.448 = 35,4% di esso; il terzo spiega .577 / 3.448 = 16,7% di esso.

Quindi, cosa significano quando affermano che " PCA massimizza la varianza " o " PCA spiega la varianza massima "? Ovviamente non si trova la più grande varianza tra tre valori 1.343730519 .619205620 1.485549631, no. PCA trova, nello spazio dati, la dimensione (direzione) con la maggiore varianza rispetto alla varianza complessiva1.343730519+.619205620+1.485549631 = 3.448 . Quella più grande varianza sarebbe 1.651354285. Quindi trova la dimensione della seconda varianza più grande, ortogonale alla prima, al di fuori della 3.448-1.651354285varianza complessiva rimanente . Quella seconda dimensione sarebbe 1.220288343varianza. E così via. L'ultima dimensione rimanente è la .576843142varianza. Vedi anche "Pt3" qui e un'ottima risposta qui spiegando come è stato fatto in modo più dettagliato.

Matematicamente, la PCA viene eseguita tramite funzioni di algebra lineare chiamate decomposizione degli automi o decomposizione svd. Queste funzioni ti restituiranno tutti gli autovalori 1.651354285 1.220288343 .576843142(e gli autovettori corrispondenti) contemporaneamente ( vedi , vedi ).


1
Che cosa intendi con "Nota che la somma diagonale è ancora 3.448, che dice che tutte e 3 le componenti rappresentano tutta la variabilità multivariata" e qual è la differenza tra il tuo metodo e PoV (proporzione di variazione)?
Kamaci,

2
Non suggerisco alcun "metodo". Ho appena spiegato che tutti i PC rappresentano la stessa quantità totale di variabilità delle variabili originali.
ttnphns,

Puoi controllare la mia domanda: stats.stackexchange.com/questions/44464/…
kamaci

Mi dispiace :-( Al momento non posso. Ci sono troppi commenti per sintonizzarsi.
ttnphns

1
se hai appena letto la domanda è sufficiente. Non c'è nulla nei commenti.
Kamaci,

11

@ttnphns ha fornito una buona risposta, forse posso aggiungere alcuni punti. In primo luogo, desidero sottolineare che c'era una domanda rilevante sul CV, con una risposta davvero forte: vuoi assolutamente verificarlo. Di seguito, farò riferimento ai grafici mostrati in quella risposta.

Tutti e tre i grafici mostrano gli stessi dati. Si noti che esiste una variabilità nei dati sia in verticale che in orizzontale, ma possiamo considerare la maggior parte della variabilità come effettivamente diagonale . Nel terzo diagramma, quella lunga linea diagonale nera è il primo autovettore (o il primo componente principale) e la lunghezza di quel componente principale (la diffusione dei dati lungo quella linea - non in realtà la lunghezza della linea stessa, che è appena disegnato sulla trama) è il primo autovalore- è la quantità di varianza spiegata dal primo componente principale. Se dovessi sommare quella lunghezza con la lunghezza del secondo componente principale (che è la larghezza della diffusione dei dati ortogonalmente fuori da quella linea diagonale), e quindi dividere uno degli autovalori per quel totale, otterrai la percentuale della varianza spiegata dal componente principale corrispondente.

D'altra parte, per capire la percentuale della varianza spiegata nella regressione, puoi guardare la trama in alto. In tal caso, la linea rossa è la linea di regressione o l'insieme dei valori previsti dal modello. La varianza spiegata può essere intesa come il rapporto della diffusione verticale della linea di regressione (ovvero, dal punto più basso della linea al punto più alto della linea) alla diffusione verticale dei dati (cioè, dal punto di dati più basso al punto dati più alto). Ovviamente, è solo un'idea libera, perché letteralmente si tratta di intervalli, non di varianze, ma ciò dovrebbe aiutarti a capire il punto.

Assicurati di leggere la domanda. E, sebbene abbia fatto riferimento alla risposta migliore, molte delle risposte fornite sono eccellenti. Vale la pena il tuo tempo per leggerli tutti.


3

C'è una risposta matematica molto semplice, diretta e precisa alla domanda originale.

Y1Y2...YpRio2

un'1un'2...un'pPC1=un'1Y1+un'2Y2++un'pYpΣio=1pRio2(Yio|PC1)

In questo senso, puoi interpretare il primo PC come un massimizzatore di "spiegazione della varianza", o più precisamente, un massimizzatore di "spiegazione della varianza totale".

Bio=c×un'ioc0

Per riferimenti alla letteratura originale e alle estensioni, vedere

Westfall, PH, Arias, AL e Fulton, LV (2017). Insegnamento delle componenti principali mediante correlazioni, ricerca comportamentale multivariata, 52, 648-660.


0

Y=UN+BYUNBYUNBYUNBvun'r(Y)=vun'r(UN)+vun'r(B)+2cov(UN,B)UNB0+B1XBeY=B0+B1X+eYB0+B1X

Y


Dovresti controllare la tua formula per la varianza di Y: non è corretta. Ancora più importante, tuttavia, il tentativo di spiegazione della regressione non caratterizza correttamente la PCA né i modi in cui le persone ci pensano e la usano.
whuber

1
Ty, corretto errore nella formula. La mia risposta è per la seconda parte della domanda relativa alla percentuale di varianza spiegata dalla linea di regressione.
Giovane
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.