Perché tutti i componenti PLS insieme spiegano solo una parte della varianza dei dati originali?


10

Ho un set di dati composto da 10 variabili. Ho eseguito i minimi quadrati parziali (PLS) per prevedere una singola variabile di risposta in base a queste 10 variabili, estratto 10 componenti PLS e quindi calcolato la varianza di ciascun componente. Sui dati originali ho preso la somma delle varianze di tutte le variabili che è 702.

Quindi ho diviso la varianza di ciascuno dei componenti PLS per questa somma per ottenere la percentuale della varianza spiegata dal PLS, e sorprendentemente tutti i componenti insieme spiegano solo il 44% della varianza originale.

Qual è la spiegazione di ciò? Non dovrebbe essere al 100%?


Come so dal lato della risposta (y), ciò che determina il numero di componenti PLS è il numero minimo dell'osservazione. ho 20 osservazioni. D'altra parte, ho solo 10 variabili indipendenti che mi rendono limitato a 10 PLS. La mia domanda è qual è la formula generale per il calcolo della varianza spiegata da ciascun componente (PLS o PCA).
Ress

mathworks.com/help/stats/plsregress.html questo esempio ha solo una variabile sul lato Y e calcola 10 componenti.
Ress

Risposte:


12

La somma delle varianze di tutti i componenti PLS è normalmente inferiore al 100%.

Esistono molte varianti di minimi quadrati parziali (PLS). Quello che hai usato qui, è la regressione PLS di una variabile di risposta univariata su diverse variabili ; questo algoritmo è tradizionalmente noto come PLS1 (a differenza di altre varianti, vedere Rosipal & Kramer, 2006, Panoramica e recenti progressi nei minimi quadrati parziali per una panoramica sintetica). PLS1 è stato successivamente dimostrato essere equivalente a una formulazione più elegante chiamata SIMPLS (vedi riferimento al Jong 1988 a pagamento in Rosipal & Kramer). La vista fornita da SIMPLS aiuta a capire cosa sta succedendo in PLS1.yX

Si scopre che ciò che fa PLS1 è trovare una sequenza di proiezioni lineari , tale che:ti=Xwi

  1. La covarianza tra e è massima;yti
  2. Tutti i vettori di peso hanno lunghezza unitaria, ;wi=1
  3. Ogni due componenti PLS ( come vettori di punteggio) e non sono correlati.titj

Si noti che i vettori di peso non devono essere (e non sono) ortogonali.

Ciò significa che se costituito da variabili e hai trovato componenti PLS, allora hai trovato una base non ortogonale con proiezioni non correlate sui vettori di base. Si può dimostrare che matematicamente in una tale situazione la somma delle varianze di tutte queste proiezioni sarà inferiore alla varianza totale di . Sarebbero uguali se i vettori di peso fossero ortogonali (come ad esempio in PCA), ma in PLS non è così.Xk=1010X

Non so di qualsiasi libro di testo o di carta che discute esplicitamente questo problema, ma ho in precedenza spiegato nel contesto di analisi discriminante lineare (LDA) che produce anche una serie di proiezioni non correlati su vettori di pesatura in unità non ortogonale, vedo qui : Proporzione di varianza spiegata in PCA e LDA .


Grazie e sì, questo ha senso. Non sapevo che i vettori di caricamento (peso) non fossero ortogonali. Quindi non cattura la varianza massima di X. Seguendo l'esempio matlab, mi potete aiutare come posso ottenere matematicamente i valori "PCTVAR" ?.
Rilascia il

Non ne sono sicuro, ma ci posso pensare. La prima colonna in PCTVAR(percentuale di varianza spiegata in X) non è d'accordo con i tuoi calcoli? Oppure stai chiedendo della seconda colonna (percentuale di varianza spiegata in y)? In generale, se vuoi approfondire la matematica con PLS, ti suggerisco di iniziare a leggere l'articolo di Rosipal & Kramer e di seguire i link.
ameba,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.