Regressione lineare semplice, valori p e AIC


13

Mi rendo conto che questo argomento è emerso diverse volte prima, ad esempio qui , ma non sono ancora sicuro del modo migliore per interpretare il mio output di regressione.

Ho un set di dati molto semplice, composto da una colonna di valori x e una colonna di valori y , suddivisi in due gruppi in base alla posizione (loc). I punti sembrano così

inserisci qui la descrizione dell'immagine

Un collega ha ipotizzato che dovremmo adattare regressioni lineari semplici separate a ciascun gruppo, che ho fatto usando y ~ x * C(loc). L'output è mostrato di seguito.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.873
Model:                            OLS   Adj. R-squared:                  0.866
Method:                 Least Squares   F-statistic:                     139.2
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           3.05e-27
Time:                        14:18:50   Log-Likelihood:                -27.981
No. Observations:                  65   AIC:                             63.96
Df Residuals:                      61   BIC:                             72.66
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
=================================================================================
                    coef    std err          t      P>|t|      [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept         3.8000      1.784      2.129      0.037         0.232     7.368
C(loc)[T.N]      -0.4921      1.948     -0.253      0.801        -4.388     3.404
x                -0.6466      0.230     -2.807      0.007        -1.107    -0.186
x:C(loc)[T.N]     0.2719      0.257      1.057      0.295        -0.242     0.786
==============================================================================
Omnibus:                       22.788   Durbin-Watson:                   2.552
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              121.307
Skew:                           0.629   Prob(JB):                     4.56e-27
Kurtosis:                       9.573   Cond. No.                         467.
==============================================================================

inserisci qui la descrizione dell'immagine

Osservando i valori di p per i coefficienti, la variabile fittizia per posizione e il termine di interazione non sono significativamente diversi da zero, nel qual caso il mio modello di regressione si riduce essenzialmente alla sola linea rossa sul diagramma sopra. Per me, ciò suggerisce che l'adattamento di linee separate ai due gruppi potrebbe essere un errore e un modello migliore potrebbe essere una singola linea di regressione per l'intero set di dati, come mostrato di seguito.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.593
Model:                            OLS   Adj. R-squared:                  0.587
Method:                 Least Squares   F-statistic:                     91.93
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           6.29e-14
Time:                        14:24:50   Log-Likelihood:                -65.687
No. Observations:                  65   AIC:                             135.4
Df Residuals:                      63   BIC:                             139.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept      8.9278      0.935      9.550      0.000         7.060    10.796
x             -1.2446      0.130     -9.588      0.000        -1.504    -0.985
==============================================================================
Omnibus:                        0.112   Durbin-Watson:                   1.151
Prob(Omnibus):                  0.945   Jarque-Bera (JB):                0.006
Skew:                           0.018   Prob(JB):                        0.997
Kurtosis:                       2.972   Cond. No.                         81.9
==============================================================================

inserisci qui la descrizione dell'immagine

Questo mi sembra visivamente corretto, e i valori di p per tutti i coefficienti sono ora significativi. Tuttavia, l'AIC per il secondo modello è molto più alto rispetto al primo.

Mi rendo conto che la scelta del modello è molto più che solo valori P o solo l'AIC, ma non sono sicuro di cosa fare di questo. Qualcuno può offrire qualche consiglio pratico per quanto riguarda l'interpretazione di questo risultato e la scelta di un modello appropriato, per favore ?

A mio avviso, la singola linea di regressione sembra OK (anche se mi rendo conto che nessuno di loro è particolarmente buono), ma sembra che ci sia almeno qualche giustificazione per il montaggio di modelli separati (?).

Grazie!

Modificato in risposta ai commenti

@Cagdas Ozgenc

Il modello a due linee è stato montato utilizzando le statsmodel di Python e il seguente codice

reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()

A quanto ho capito, si tratta essenzialmente di una scorciatoia per un modello come questo

y=β0+β1x+β2l+β3xl

dove è una variabile binaria "fittizia" che rappresenta la posizione. In pratica si tratta essenzialmente solo di due modelli lineari, non è vero? Quando , e il modello si riduce al o c = D l = 0lloc=Dl=0

y=β0+β1x

che è la linea rossa nella trama sopra. Quando , e il modello divental = 1loc=Nl=1

y=(β0+β2)+(β1+β3)x

che è la linea blu sulla trama sopra. L'AIC per questo modello viene riportato automaticamente nel riepilogo statsmodels. Per il modello a una linea ho semplicemente usato

reg = ols(formula='y ~ x', data=df).fit()

Penso che sia ok?

@ user2864849

Non credo che il modello di singola linea è ovviamente meglio, ma mi preoccupo di come mal vincolata la linea di regressione per è. Le due posizioni (D e N) sono molto distanti nello spazio, e non sarei affatto sorpreso se la raccolta di dati aggiuntivi da qualche parte nel mezzo producesse punti che tracciavano approssimativamente tra i cluster rosso e blu che già ho. Non ho ancora dati per eseguire il backup, ma non penso che il modello a linea singola sia troppo terribile e mi piace mantenere le cose il più semplice possibile :-)loc=D

Modifica 2

Solo per completezza, ecco i grafici residui come suggerito da @whuber. Il modello a due linee sembra davvero molto migliore da questo punto di vista.

Modello a due linee

inserisci qui la descrizione dell'immagine

Modello a una riga

inserisci qui la descrizione dell'immagine

Ringrazia tutti!


3
Vuoi spiegare perché la singola linea di regressione ti sembra migliore? Per me vedo due cluster che sono separabili linearmente e la categoria N ha una varianza molto piccola. Pensi che il primo sia peggiore a causa delle bande di confidenza sovrapposte?
Marsenau,

6
x

3
R2

3
@StudentT entrambi i modelli utilizzano tutti i punti dati. Il modello semplice utilizza meno variabili indipendenti. Un punto dati è l'intera tupla.
Cagdas Ozgenc,

5
Se si vuole adottare un approccio basato su ipotesi-test per la scelta del modello, non si deve presumere che perché due predittori sono ogni insignificanti rimozione sia dal modello avrà poca importanza. Il test F per il significato congiunto sarà quello appropriato.
Scortchi - Ripristina Monica

Risposte:


1

Hai provato a utilizzare entrambi i predittori senza l'interazione? Quindi sarebbe:

y ~ x + Loc

L'AIC potrebbe essere migliore nel primo modello perché la posizione è importante. Ma l'interazione non è importante, motivo per cui i valori di P non sono significativi. Lo interpreteresti come l'effetto di x dopo aver controllato per Loc.


1

Penso che tu abbia fatto bene a sfidare l'idea che i valori p e i valori AIC da soli possono determinare la fattibilità di un modello. Sono anche felice che tu abbia scelto di condividerlo qui.

Come hai dimostrato, ci sono vari compromessi mentre consideri vari termini e possibilmente la loro interazione. Quindi una domanda da tenere a mente è lo scopo del modello. Se ti viene richiesto di determinare l'effetto della posizione su y, allora dovresti mantenere la posizione nel modello indipendentemente da quanto debole sia il valore p. Un risultato nullo è esso stesso informazioni significative in quel caso.

A prima vista, sembra chiaro che la Dposizione implica una più grande y. Ma esiste solo un intervallo ristretto xper il quale hai entrambi De Nvalori per la posizione. Rigenerare i coefficienti del modello per questo piccolo intervallo produrrà probabilmente un errore standard molto più grande.

Ma forse non ti interessa la posizione oltre la sua capacità di previsione y. Sono stati i dati che ti è capitato di avere e la codifica a colori sulla trama ha rivelato uno schema interessante. In questo caso potresti essere più interessato alla prevedibilità del modello che all'interpretazione del tuo coefficiente preferito. Sospetto che i valori AIC siano più utili in questo caso. Non ho ancora familiarità con AIC; ma ho il sospetto che possa penalizzare il termine misto perché c'è solo un piccolo intervallo in cui è possibile cambiare posizione per fisso x. C'è molto poco che spiega la posizione che xnon spiega già.


0

È necessario segnalare entrambi i gruppi separatamente (o forse prendere in considerazione la modellazione multilivello). Combinare semplicemente i gruppi viola una delle ipotesi di base della regressione (e la maggior parte delle altre tecniche statistiche inferenziali), l'indipendenza delle osservazioni. O, per dirla in altro modo, la variabile di raggruppamento (posizione) è una variabile nascosta a meno che non venga presa in considerazione nell'analisi.

In un caso estremo, ignorare una variabile di raggruppamento può portare al paradosso di Simpson. In questo paradosso, puoi avere due gruppi in entrambi i quali esiste una correlazione positiva, ma se li combini hai una correlazione negativa (falsa, errata). (O viceversa, ovviamente.) Vedi http://www.theregister.co.uk/2014/05/28/theorums_3_simpson/ .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.