Decidere tra un modello di regressione lineare o un modello di regressione non lineare


10

Come si dovrebbe decidere se utilizzare un modello di regressione lineare o un modello di regressione non lineare?

Il mio obiettivo è prevedere Y.

In caso di semplice ed y dataset ho potuto facilmente decidere quale modello di regressione dovrebbe essere utilizzato tracciando un grafico a dispersione.xy

In caso di multi-variante, come ed y . Come posso decidere quale modello di regressione deve essere utilizzato? Cioè, come deciderò di andare con un modello lineare semplice o modelli non lineari come quadric, cubici ecc.x1,x2,...xny

Esiste una tecnica o un approccio statistico o grafici per inferire e decidere quale modello di regressione deve essere utilizzato?


"Modello non lineare" è una categoria piuttosto ampia. Ne avevi in ​​mente uno? Quali sono i tuoi obiettivi di analisi?
Shadowtalker,

Questo dipende dai tuoi obiettivi. Stai creando un modello di previsione / previsione?
Aksakal,

La previsione è il mio obiettivo.
shakthydoss,

1
Se stai cercando qualcosa come l'approccio "traccia i dati" ma per più predittori, ci sono grafici variabili aggiunti che possono essere di qualche valore. Ma se il tuo obiettivo è la previsione, il problema è che stai scegliendo cosa git in base alla visualizzazione dei dati, quindi sembrerà molto meglio sui dati che hai rispetto ad altri dati (e ci sono molti altri problemi che derivano da un tale approccio alla selezione del modello) - per valutare correttamente le capacità predittive del campione, è necessario valutare le cose su un campione di controllo / considerare qualcosa come la convalida incrociata.
Glen_b -Restate Monica

1
Potresti trovare utile una discussione correlata che ho iniziato qualche tempo fa.
Aleksandr Blekh,

Risposte:


10

Questo è un regno di statistiche chiamato selezione del modello. Molte ricerche vengono fatte in questo settore e non esiste una risposta semplice e definitiva.

X1,X2X3X32X1,X2X3X1,X2,X3X32(modello complesso). Nella costruzione del modello hai (almeno) uno dei seguenti due obiettivi principali:

  1. X1YX2,...Xp
  2. YY

Se il tuo obiettivo è il numero 1, allora ti consiglio il Likelihood Ratio Test (LRT). LRT viene utilizzato quando si hanno modelli nidificati e si desidera sapere "i dati sono significativamente più probabili provenire dal modello complesso rispetto al modello parsimono?". Ciò ti consentirà di capire quale modello spiega meglio la relazione tra i tuoi dati.

k


Per favore, potresti rendere / spiegare la differenza tra obiettivi (1) e (2) più pronunciati? Attualmente non c'è molta differenza.
ttnphns,

@ttnphns Ho aggiunto una breve descrizione dei due obiettivi.
TrynnaDoStat,

@ TrynnaDoStat Solo confuso qui dall'istruzione Scegli il modello che fa il miglior lavoro di previsione. Con il miglior modello intendi scegliere tra il modello lineare (parsimonioso) e il modello complesso .... giusto? Poiché ciò che so è k-fold, i CV lasciati in sospeso vengono utilizzati per verificare le prestazioni del modello su dati invisibili. Non vengono utilizzati per la selezione del modello. Sono confuso qui.
tushaR

1

Quando cerco su Google "modello lineare o non lineare di regressione" ottengo alcuni link che portano a questo libro: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Questo libro non è interessante e io non fidati al 100% (per alcuni motivi).

Ho trovato anche questo articolo: http://hunch.net/?p=524 con il titolo: quasi tutti i problemi naturali richiedono non linearità

Ho anche trovato una domanda simile con una spiegazione abbastanza buona: /programming/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro

Sulla base della mia esperienza, quando non sai quale modello utilizzare, usa entrambi e prova un'altra funzionalità.


0

Come si afferma, i modelli lineari sono in genere più semplici dei modelli non lineari, il che significa che funzionano più velocemente (costruendo e predicendo), sono più facili da interpretare e spiegare e di solito sono semplici nelle misurazioni degli errori. Quindi l'obiettivo è scoprire se le ipotesi di una regressione lineare valgono con i tuoi dati (se non riesci a supportare linear, allora vai semplicemente con non linear). Di solito dovresti ripetere il grafico a variabile singola con tutte le variabili singolarmente, mantenendo costanti tutte le altre variabili.

Forse ancora più importante, tuttavia, si desidera sapere se è possibile applicare una sorta di trasformazione, interazione variabile o variabile fittizia per spostare i dati nello spazio lineare. Se sei in grado di convalidare le ipotesi, o se conosci i tuoi dati abbastanza bene da applicare trasformazioni o modifiche ben motivate o altrimenti intelligentemente informate, allora vuoi procedere con quella trasformazione e usare la regressione lineare. Una volta che hai i residui, puoi tracciarli rispetto a valori previsti o variabili indipendenti per decidere ulteriormente se è necessario passare a metodi non lineari.

Vi è un'eccellente ripartizione delle ipotesi di regressione lineare qui a Duke . Vengono elencate le quattro assunzioni principali e ognuna è suddivisa in effetti sul modello, come diagnosticarlo nei dati e potenziali modi per "correggere" (cioè trasformare o aggiungere) i dati per far sì che l'assunzione rimanga valida. Ecco un piccolo estratto dall'alto che riassume le quattro ipotesi affrontate, ma dovresti andare lì e leggere i dettagli.

Esistono quattro ipotesi principali che giustificano l'uso di modelli di regressione lineare a fini di inferenza o previsione:

(i) linearità e additività della relazione tra variabili dipendenti e indipendenti:

(a) Il valore atteso della variabile dipendente è una funzione lineare di ciascuna variabile indipendente, mantenendo le altre fisse.

(b) La pendenza di quella linea non dipende dai valori delle altre variabili.

(c) Gli effetti di diverse variabili indipendenti sul valore atteso della variabile dipendente sono additivi.

(ii) indipendenza statistica degli errori (in particolare, nessuna correlazione tra> errori consecutivi nel caso di dati di serie temporali)

(iii) omoscedasticità (varianza costante) degli errori

(a) rispetto al tempo (nel caso di dati relativi a serie temporali)

(b) rispetto alle previsioni

(c) rispetto a qualsiasi variabile indipendente

(iv) normalità della distribuzione degli errori.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.