Differenza tra regressione PLS e modellazione del percorso PLS. Critica del PLS


12

Questa domanda è stata posta qui, ma nessuno ha dato una buona risposta. Quindi penso che sia una buona idea riaverlo e vorrei anche aggiungere altri commenti / domande.

  • La prima domanda è qual è la differenza tra "modellazione del percorso PLS" e "regressione PLS"? Per renderlo più generale, quali sono la modellazione di equazioni strutturali (SEM), la modellazione di percorsi e la regressione? Secondo la mia comprensione, la regressione si concentra maggiormente sulla previsione mentre l'attenzione di SEM è sulla relazione tra risposta e predittori e la modellizzazione del percorso è un caso speciale di SEM?

  • La mia seconda domanda è quanto è affidabile PLS? Recentemente è stato oggetto di molte critiche, come evidenziato in Rönkkö et al. 2016 e Rönkkö et al. 2015 che porta al rifiuto di articoli basati su PLS in riviste di alto livello come Journal of Operations Management ( ecco la nota dell'editore del journal):

    Stiamo respingendo praticamente tutti i manoscritti basati su PLS, poiché abbiamo concluso che PLS è stato senza eccezione l'approccio di modellazione errato nei tipi di modelli utilizzati dai ricercatori OM .

    Dovrei notare che il mio campo è la spettroscopia, né gestione / psicologia né statistica. Negli articoli collegati sopra gli autori parlano di PLS come metodo SEM, ma per me le loro critiche sembrano applicabili anche alla regressione di PLS.


I tuoi collegamenti sono tutti dietro paywalls.
Jeremy Miles,

hai assolutamente ragione! e mi dispiace, ho i PDF ma non sono sicuro di poter caricare o condividere. La scienza dovrebbe essere libera :)
Ress l'

La regressione di PLS è spiegata e discussa in modo abbastanza dettagliato in stats.stackexchange.com/questions/179733 . Sfortunatamente non so quasi nulla di "modellazione di percorsi".
amoeba,

Penso che "modellazione di percorsi" sia solo un altro nome per SEM
rep_ho,

Dal documento del 2016: "La maggior parte dei testi introduttivi sul PLS lucida sugli scopi dei pesi, sostenendo che il PLS è SEM e quindi deve fornire un vantaggio rispetto alla regressione con i compositi (ad esempio Gefen et al., 2011); tuttavia, tali lavori spesso non indicano esplicitamente che lo stesso PLS è semplicemente una regressione con i composti ". è fuorviante. La principale spinta dell'argomento posso vedere se gli autori affermano che SEM deve essere un puro costrutto teorico e disprezzano le equazioni strutturali derivate empiricamente. Ma PLS ha derivato equazioni "strutturate" attraverso la covarianza.
Rinnova il

Risposte:


9

La prima domanda è qual è la differenza tra "modellazione del percorso PLS" e "regressione PLS"?

Nessuno, sono sinonimi.

Per renderlo più generale, quali sono la modellazione di equazioni strutturali (SEM), la modellazione di percorsi e la regressione? Secondo la mia comprensione, la regressione si concentra maggiormente sulla previsione mentre l'attenzione di SEM è sulla relazione tra risposta e predittori e la modellizzazione del percorso è un caso speciale di SEM?

SEM è una forma di regressione. La regressione è un metodo che mette in relazione variabili indipendenti e dipendenti e include metodi che utilizzano più variabili gestite come entità separate. SEM utilizza specificamente le relazioni matematiche tra le variabili per vincolare il modello finale, nel caso di PLS questa è la covarianza. La mia comprensione è che la modellazione del percorso è un termine specifico (non mio, sono uno spettroscopista come te).

La mia seconda domanda è quanto è affidabile PLS? Recentemente è stato oggetto di molte critiche, come evidenziato in Rönkkö et al. 2016 e Rönkkö et al. 2015

Un'ottima confutazione si trova in Henseler et al. 2013 Credenze comuni e realtà sul PLS . Una preoccupazione principale per Rönkkö et al. è che PLS non ha funzionato alla grande in alcune situazioni che assumono un fattore latente comune. PLS è infatti progettato per gestire molteplici fattori latenti, una situazione molto più comune nel mondo reale.

Quanto degno di fiducia? Per la spettroscopia è uno strumento eccellente ma ha i suoi limiti. Corre il rischio di overfitting in quanto può costruire modelli complessi che catturano contributi da più fattori sottostanti. Per questo motivo deve essere usato con cura e sono necessarie appropriate convalide esterne, ma queste avvertenze si applicano a tutti gli strumenti di costruzione del modello. Lavoro principalmente su set di dati del mondo reale per 2 decenni e non ho riscontrato alcun set di dati sperimentale che avesse solo un fattore comune alla base della variabile dipendente (né basato sui dati né sulla teoria scientifica).


1
+1 anche se vorrei che questa risposta avesse maggiori dettagli su Ronkko et al. vs Henseler et al. disaccordo. Non sono affatto uno spettroscopista ma ho una conoscenza relativamente buona del PLS come metodo di regolarizzazione per la regressione lineare (è così che viene presentato in The Elements of Statistical Learning di Hastie et al.). Penso che sia chiamato PLS1 in chemiometria. Qui "performance" si riferisce all'errore di ricostruzione, si può usare la validazione incrociata per scegliere la forza della regolarizzazione, ecc. Questa è un'impostazione molto familiare per chiunque abbia riscontrato regressione della cresta o PCR o qualcosa del genere.
ameba,

[cont.] Sono anche a conoscenza di PLS2 con più variabili dipendenti, ma non sono sicuro di quanto spesso venga utilizzato. Allo stesso tempo, provando a capire cosa Ronkko et al. significa, sembra che il focus di "SEM" sia esclusivamente sulla relazione tra X multipli e Y multipli (è allora PLS2?) e forse più sull'interpretazione della relazione tra X e Y piuttosto che sulla previsione di Y come tale. Non sono nemmeno sicuro di cosa significhino per "performance", e non ho idea di cosa preferiscano usare al posto di PLS quando criticano PLS.
ameba,

Grazie sia ReneBT che l'ameba. Ho pubblicato questa domanda su Reddit qui e qualcuno (soumya_ray) ha risposto che la regressione e la SEM sono fondamentalmente diverse. Non ha spiegato le differenze tecniche. A proposito, la sua risposta è contro ciò che hai detto (la tua risposta ha senso per me).
Rilasciare il

A proposito, faccio la selezione della banda usando PLS. Confermo il tuo punto di vista sulle prestazioni del PLS, mentre ciò potrebbe comportare buone previsioni (sia sul test che sulla calibrazione), ma il modello può essere fondamentalmente sbagliato o almeno molto difficile da interpretare poiché seleziona i predittori come variabili importanti che non hanno nulla a che fare con il variabile di risposta.
Rilasciare il

Un ulteriore commento sulle questioni chiave sollevate dagli autori è "L'algoritmo PLS produce quindi pesi che aumentano la correlazione tra i compositi adiacenti rispetto ai compositi ponderati per unità utilizzati come punto di partenza utilizzando qualsiasi correlazione nei dati, ma ciò non accade non garantire il raggiungimento di alcun ottimale globale ". È una preoccupazione valida, in poche parole ciò che significa che il modello si applicherà solo alle popolazioni con la stessa struttura di covarianza sottostante, ciò non rende invalido il PLS, ma significa che si deve costruire e usare un modello con cura.
Rinnova il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.