comprensione del valore p nella regressione lineare multipla


12

Per quanto riguarda il valore p dell'analisi di regressione lineare multipla, di seguito viene presentata l'introduzione dal sito Web di Minitab .

Il valore p per ogni termine verifica l'ipotesi nulla che il coefficiente sia uguale a zero (nessun effetto). Un valore p basso (<0,05) indica che è possibile rifiutare l'ipotesi nulla. In altre parole, è probabile che un predittore con un valore p basso sia un'aggiunta significativa al modello poiché le modifiche nel valore del predittore sono correlate alle modifiche nella variabile di risposta.

Ad esempio, ho un modello MLR risultante come . e l'out put è mostrato sotto. Quindi una può essere calcolata usando questa equazione.y=0.46753X10.2668X2+1.6193X3+4.5424X4+14.48y

            Estimate      SE        tStat       pValue  
               ________    ______    _________    _________

(Intercept)      14.48     5.0127       2.8886    0.0097836
x1             0.46753     1.2824      0.36458      0.71967
x2             -0.2668     3.3352    -0.079995      0.93712
x3              1.6193     9.0581      0.17877      0.86011
x4              4.5424     2.8565       1.5902       0.1292

Sulla base dell'introduzione di cui sopra, l'ipotesi nulla è che il coefficiente sia uguale a 0. La mia comprensione è che il coefficiente, ad esempio il coefficiente di , verrà impostato come 0 e un altro y verrà calcolato come . Quindi viene condotto un test t accoppiato per e , ma il valore p di questo test t è 6.9e-12 che non è uguale a 0,1292 (valore p del coefficiente di .X4y2=0.46753X10.2668X2+1.6193X3+0X4+14.48yy2X4

Qualcuno può aiutare sulla comprensione corretta? Grazie molto!


puoi mostrare l'output della routine di regressione?
Aksakal,

La tua descrizione del calcolo del valore p non è standard. Perché pensi che dovrebbe essere calcolato nel modo in cui descrivi? Il valore p nell'output viene calcolato dalla matrice di parametri Var-Cov. Se vuoi eseguire il test di restrizione, come Wald, non è il modo in cui descrivi. Dovresti rivalutare il modello con 3 variabili, ottenere loglikelihood ecc.
Aksakal,

1
Secondo questa introduzione, hai solo una variabile "significativa" - l '"intercetta" - perché solo il suo valore p è piccolo. Per andare oltre la pratica ingenua e fuorviante della citazione, è necessario conoscere meglio la regressione multipla. Per vedere cosa si può imparare a questo proposito, prendere in considerazione l' esplorazione dei thread pertinenti sul nostro sito .
whuber

2
Controlla le risposte a queste due domande: - stats.stackexchange.com/questions/5135/… e - stats.stackexchange.com/questions/126179/… Mi hanno aiutato a capire come vengono calcolati i valori p, spero che li troverai utile anche.
Giacomo,

Risposte:


7

Questo non è corretto per un paio di motivi:

  1. Il modello "senza" X4 non avrà necessariamente le stesse stime di coefficiente per gli altri valori. Montare il modello ridotto e vedere di persona.

  2. Il test statistico per il coefficiente non riguarda i valori "medi" di Y ottenuti da 2 previsioni. La prevista avrà sempre la stessa media generale, quindi avrà un valore p dal test t pari a 0,5. Lo stesso vale per i residui. Il tuo t-test aveva un valore errato per il punto sopra.Y

  3. Il test statistico condotto per la significatività statistica del coefficiente è un test t di un campione. Ciò è confuso poiché non abbiamo un "campione" di coefficienti multipli per X4, ma abbiamo una stima delle proprietà distributive di un tale campione usando il teorema del limite centrale. L'errore medio e standard descrivono la posizione e la forma di tale distribuzione limitante. Se prendi la colonna "Est" e dividi per "SE" e confronti con una distribuzione normale standard, questo ti dà i valori p nella 4a colonna.

  4. Un quarto punto: una critica alla pagina di aiuto di minitab. Un simile file di aiuto non potrebbe, in un paragrafo, sintetizzare anni di formazione statistica, quindi non ho bisogno di confrontarmi con il tutto. Ma dire che un "predittore" è "un contributo importante" è vago e probabilmente errato. La logica per scegliere quali variabili includere in un modello multivariato è sottile e si basa sul ragionamento scientifico e non sull'inferenza statistica.


0

La tua interpretazione iniziale dei valori p appare corretta, ovvero che solo l'intercetta ha un coefficiente significativamente diverso da 0. Noterai che la stima del coefficiente per x4 è ancora abbastanza alta, ma c'è abbastanza errore che non è significativamente diverso da 0.

Il test t accoppiato di y1 e y2 suggerisce che i modelli sono diversi l'uno dall'altro. Questo è prevedibile, in un modello hai incluso un coefficiente ampio ma impreciso che contribuisce un po 'al tuo modello. Non c'è motivo di pensare che il valore p di questi modelli differendo l'uno dall'altro dovrebbe essere uguale al valore p del coefficiente di x4 diverso da 0.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.