È possibile utilizzare la regressione multipla per prevedere un componente principale (PC) da diversi altri PC?


15

Qualche tempo fa un utente nella mailing list di R-help ha chiesto in merito alla validità dell'utilizzo dei punteggi PCA in una regressione. L'utente sta cercando di utilizzare alcuni punteggi del PC per spiegare la variazione in un altro PC (vedere la discussione completa qui ). La risposta è stata che no, questo non è corretto perché i PC sono ortogonali tra loro.

Qualcuno può spiegare un po 'più in dettaglio perché è così?


1
Perché hai inserito il rtag e cosa intendi con "perché è così"? I PC non sono correlati, ovvero sono ortogonali, additivi, non è possibile prevedere un PC con l'altro. Stai cercando una formula?
aL3xa

Mi chiedevo quali fossero i principi alla base della logica (nella mia ricerca per capire l'APC). Ho usato il tag R perché le persone R potrebbero leggere questo e forse mostrare esempi R. :)
Roman Luštrik,

Oh, perché non l'hai detto? Hai visto statmethods.net/advstats/factor.html
aL3xa

Risposte:


11

Un componente principale è una combinazione lineare ponderata di tutti i tuoi fattori (X).

esempio: PC1 = 0,1X1 + 0,3X2

Ci sarà un componente per ogni fattore (sebbene in generale sia selezionato un piccolo numero).

I componenti sono creati in modo tale da avere una correlazione zero (sono ortogonali), in base alla progettazione.

Pertanto, il componente PC1 non dovrebbe spiegare alcuna variazione nel componente PC2.

Potresti voler fare una regressione sulla tua variabile Y e sulla rappresentazione PCA delle tue X, poiché non avranno multi-collinearità. Tuttavia, questo potrebbe essere difficile da interpretare.

Se hai più X delle osservazioni, il che rompe OLS, puoi regredire sui tuoi componenti e selezionare semplicemente un numero più piccolo dei componenti con la variazione più alta.

Principal Component Analysis di Jollife un libro molto approfondito e molto citato sull'argomento

Anche questo è buono: http://www.statsoft.com/textbook/principal-components-factor-analysis/


11

I componenti principali sono ortogonali per definizione, quindi qualsiasi coppia di PC avrà zero correlazione.

Tuttavia, l'APC può essere utilizzato in regressione se esiste un gran numero di variabili esplicative. Questi possono essere ridotti a un numero limitato di componenti principali e utilizzati come predittori in una regressione.


Non sarebbe quindi FA?
Roman Luštrik,

3
No. FA non è regressione. Mi riferisco a una variabile di risposta regredita rispetto ai componenti principali calcolati da un gran numero di variabili esplicative. I componenti principali stessi sono strettamente correlati ai fattori di FA.
Rob Hyndman,

Mi dispiace, avrei dovuto essere più preciso nel mio commento. La tua scrittura secondo cui le variabili esplicative possono essere ridotte a un piccolo numero di PC mi ha suonato la campana dell '"analisi fattoriale".
Roman Luštrik,

Nel set con n variabili, è possibile estrarre n PC, ma è possibile decidere quanti ne si desidera conservare, ad esempio il criterio Guttman-Keizer dice: mantenere tutti i PC con autovalore (varianza) più grandi di 1. Quindi ... .
aL3xa

7

Attenzione ... solo perché i PC sono per costruzione ortogonali tra loro non significa che non esiste un modello o che un PC non può sembrare "spiegare" qualcosa sugli altri PC.

Considera i dati 3D (X, Y, Z) che descrivono un gran numero di punti distribuiti uniformemente sulla superficie di un football americano (è un ellissoide, non una sfera) per coloro che non hanno mai visto il football americano). Immagina che il calcio sia in una configurazione arbitraria in modo che né X né Y né Z si trovino lungo l'asse lungo del calcio.

I componenti principali posizioneranno PC1 lungo l'asse lungo del pallone, l'asse che descrive la maggiore varianza nei dati.

Per qualsiasi punto della dimensione PC1 lungo l'asse lungo del calcio, la sezione planare rappresentata da PC2 e PC3 dovrebbe descrivere un cerchio e il raggio di questa sezione circolare dipende dalla dimensione PC1. È vero che le regressioni di PC2 o PC3 su PC1 dovrebbero dare un coefficiente zero a livello globale, ma non su sezioni più piccole del calcio .... ed è chiaro che un grafico 2D di PC1 e PC2 mostrerebbe un limite "interessante" di limitazione cioè a due valori, non lineare e simmetrico.


3

Se i tuoi dati sono dimensionali e rumorosi e non hai un gran numero di campioni, corri il rischio di un eccesso di adattamento. In tali casi, ha senso utilizzare PCA (che può catturare una parte dominante della varianza dei dati; l'ortogonalità non è un problema) o un'analisi fattoriale (che può trovare le vere variabili esplicative alla base dei dati) per ridurre la dimensionalità dei dati e quindi addestrare un modello di regressione con loro.

Per gli approcci basati sull'analisi fattoriale, vedi questo modello di regressione del fattore bayesiano e una versione bayesiana non parametrica di questo modello che non presuppone che tu conosca a priori il numero "vero" di fattori rilevanti (o componenti principali in caso di PCA).

Aggiungo che in molti casi, la riduzione della dimensionalità controllata (ad es. Fisher Discriminant Analysis ) può apportare miglioramenti rispetto a semplici approcci basati su PCA o FA, poiché è possibile utilizzare le informazioni sull'etichetta mentre si fa la riduzione della dimensionalità.


0

è possibile estrarlo se il punteggio PC previsto è stato estratto da variabili o casi diversi rispetto ai punteggi PC predittore. se questo è il caso previsto e il predittore non sarà ortogonale, o almeno non sarà necessario, la correlazione non è, ovviamente, garantita.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.