Perché la sfericità diagnosticata dal test di Bartlett significa che un PCA è inappropriato?


14

Comprendo che il test di Bartlett si occupa di determinare se i campioni provengono da popolazioni con varianze uguali.

Se i campioni provengono da popolazioni con varianze uguali, non riusciamo a respingere l'ipotesi nulla del test e pertanto un'analisi dei componenti principali è inappropriata.

Non sono sicuro di dove si trovi il problema con questa situazione (avere un set di dati omoschedastici). Qual è il problema con avere un set di dati in cui la distribuzione sottostante di tutti i tuoi dati è la stessa? Non vedo il grosso problema se esiste questa condizione. Perché questo renderebbe inappropriato un PCA?

Non riesco a trovare nessuna buona informazione ovunque online. Qualcuno ha esperienza con l'interpretazione perché questo test è rilevante per un PCA?

Risposte:


15

In risposta al titolo della domanda.

1

Immagina ora che la nuvola multivariata sia perfettamente sferica (cioè la sua matrice di covarianza è proporzionale alla matrice dell'identità). Quindi 1) qualsiasi dimensione arbitraria può servire i componenti principali, quindi la soluzione PCA non è unica; 2) tutti i componenti hanno le stesse varianze (autovalori), quindi PCA non può aiutare a ridurre i dati.

Immagina il secondo caso in cui la nuvola multivariata è ellissoidale con oblungità rigorosamente lungo gli assi delle variabili (cioè la sua matrice di covarianza è diagonale: tutti i valori sono zero tranne la diagonale). Quindi la rotazione implicita dalla trasformazione PCA sarà zero; i componenti principali sono le variabili stesse, riordinate e ripristinate solo in modo decisivo. Questo è un risultato banale: non è stato necessario alcun PCA per scartare alcune dimensioni deboli per ridurre i dati.


1


13

Sembra che ci siano due test chiamati Bartlett . Quello a cui si fa riferimento (1937) determina se i campioni provengono da popolazioni con varianze uguali. Un altro sembra testare se la matrice di correlazione per un insieme di dati è la matrice di identità (1951). Ha più senso che non si esegua PCA su dati con una matrice di correlazione delle identità, poiché si ripristinano le variabili originali poiché non sono già correlate. Confronta, ad es.


2
+1 Questo risolve le confusioni meglio dell'altra risposta.
HelloWorld,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.