Confronto tra due modelli di regressione lineare


12

Vorrei confrontare due modelli di regressione lineare che rappresentano i tassi di degradazione di un mRNA nel tempo in due diverse condizioni. I dati per ciascun modello raccolti in modo indipendente.

Ecco il set di dati.

Registro del tempo (ore) (trattamento A) registro (trattamento B)
0 2,02 1,97
0 2,04 2,06
0 1,93 1,96
2 2,02 1,91
2 2,00 1,95
2 2,07 1,82
4 1,96 1,97
4 2,02 1,99
4 2,02 1,99
6 1,94 1,90
6 1,94 1,97
6 1,86 1,88
8 1,93 1,97
8 2.12 1.99
8 2,06 1,93
12 1,71 1,70
12 1,96 1,73
12 1,71 1,76
24 1,70 1,46
24 1,83 1,41
24 1,62 1,42

Questi sono i miei modelli:

Exp1.A.lm<-lm(Exp1$Time~Exp1$(Treatment A))
Exp1.B.lm<-lm(Exp1$Time~Exp1$(Treatment B))
Chiamata:
lm (formula = Exp1 $ Tempo ~ Exp1 $ (Trattamento A))

residui:
    Min 1Q Mediana 3Q Max 
-6,8950 -1,2322 0,2862 1,2494 5,2494 

coefficienti:
                   Stima std. Valore t errore Pr (> | t |)    
(Intercetta) 74,68 6,27 11,91 2,94e-10 ***
Exp1 $ (trattamento A) -36,14 3,38 -10,69 1,77e-09 ***
---
Signif. codici: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '' 1

Errore standard residuo: 2,97 su 19 gradi di libertà
Quadrato R multiplo: 0,8575, Quadrato R rettificato: 0,85 
Statistica F: 114,3 su 1 e 19 DF, valore p: 1.772e-09

Chiamata:
lm (formula = Exp1 $ Time ~ Exp1 $ (Trattamento B))

residui:
   Min 1Q Mediana 3Q Max 
-7.861 -3.278 -1.444 3.222 11.972 

coefficienti:
                      Stima std. Valore t errore Pr (> | t |)    
(Intercetta) 88.281 16.114 5.478 2.76e-05 ***
Exp1 $ (Trattamento B) -41.668 8.343 -4.994 8.05e-05 ***
---
Signif. codici: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '' 1

Errore standard residuo: 5.173 su 19 gradi di libertà
Quadrato R multiplo: 0,5676, Quadrato R rettificato: 0,5449 
Statistica F: 24,94 su 1 e 19 DF, valore p: 8,052e-05

Per confrontare questi due modelli, ho usato questo codice seguente.

anova(Exp1.A.lm,Exp1.B.lm)
Analisi della tabella di varianza

Modello 1: Exp1 $ Time ~ Exp1 $ Exp1 $ (Trattamento A)
Modello 2: Exp1 $ Time ~ Exp1 $ Exp1 $ (Trattamento B)
  Res.Df RSS Df Sum of Sq F Pr (> F)
1 19 167,60                      
2 19 508,48 0 -340,88

La mia domanda è: perché l'analisi ANOVA non mostra statistiche F e p.val. Mi scuso se questa è una domanda ingenua.

Sulla base di pendenze diverse, il tasso di degrado è diverso in questi due modelli, ma vorrei sapere quanto sia statisticamente significativa questa differenza. Spero che abbia senso.


2
Si può notare che la tabella ANOVA elenca i gradi di libertà associati all'analisi come 0 ; hai lo stesso numero di variabili in entrambi i modelli, per questo motivo non è possibile calcolare valori F o p.
gung - Ripristina Monica

5
Non mi preoccuperei di confrontare questi modelli fino a dopo aver verificato la loro bontà di adattamento. Penso che troverai nel secondo che né la risposta né il suo logaritmo sono funzioni lineari del tempo. Ciò mette in discussione (seriamente) qualsiasi confronto delle stime della pendenza.
whuber

Risposte:


11

Se imposti i dati in una lunga colonna con A e B come nuova colonna, puoi eseguire il tuo modello di regressione come GLM con una variabile temporale continua e una variabile nominale "esperimento" (A, B). L'output di ANOVA ti darà il significato della differenza tra i parametri. "intercetta" è l'intercettazione comune e il fattore "esperimento" rifletterà le differenze tra le intercettazioni (in realtà medie complessive) tra gli esperimenti. il fattore "Tempo" sarà la pendenza comune e l'interazione è la differenza tra gli esperimenti rispetto alla pendenza.

Devo ammettere che imbroglio (?) Ed eseguo i modelli separatamente prima per ottenere i due set di parametri e i loro errori, quindi eseguo il modello combinato per acquisire le differenze tra i trattamenti (nel tuo caso A e B) ...


3
Questo è un approccio intelligente. Quando "imbrogliate", controllate che le varianze di errore siano approssimativamente le stesse in ogni modello? E se appaiono sostanzialmente diversi, in che modo ciò influisce sui tuoi consigli?
whuber

Il GLM è un buon approccio e, per esplorare i dati, l'adattamento di modelli separati è un buon modo per giudicare la varianza degli errori tra gli esperimenti. Se uno fosse veramente preoccupato, potrebbe estendere il modello GLM per includere varianze di errore specifiche del gruppo piuttosto che l'ipotesi implicita di una varianza di errore comune per tutti i dati sperimentali.
prince_of_pears,

Un'altra cosa che viene in mente è se OP è interessato a negoziare se i tassi di degrado tra gli esperimenti sono semplicemente diversi l'uno dall'altro (ignorando il tasso assoluto) o se questi tassi sono anche statisticamente (o praticamente) diversi da zero. Il primo equivale a una verifica dell'ipotesi che il coefficiente di interazione tra trattamento e tempo sia uguale a zero. Il secondo è quello di eseguire due test separati (o un test di ipotesi congiunto) che ogni tasso è diverso da zero. Potrei essere più interessato a testare il secondo prima del primo.
prince_of_pears,

5

L'analisi ANOVA non mostra una statistica F e un valore p. Poiché entrambi i modelli hanno gli stessi gradi di libertà residua (cioè 19) e se si prende la differenza, sarebbe zero! Dovrebbe esserci almeno un grado di libertà dopo aver preso la differenza per eseguire il test F.


Non sono sicuro di aver capito la tua risposta. C'è una ragione per cui i gradi residui di libertà sono uguali? Qualche suggerimento su un approccio alternativo per confrontare le piste?
Rooz,

Si C'è. In entrambi i tuoi modelli hai 21 osservazioni cioè . Nella regressione lineare con una variabile casuale esplicativa (ovvero Exp1 (Trattamento B)), il grado di libertà per i regressori è uno. Il grado totale di libertà è . Si noti che . Quindi in entrambi i modelli, quindi non puoi usare il test F qui. ( T r e a t m e n t A ) o r E x p 1 d f T = n - 1 = 20 d f T = d f e r r o r + d f r e g r e s s o r s d f e r r o rn=21(TreatmentA)orExp1dfT=n1=20dfT=dferror+dfregressorsdferror=19
Stat

Esistono molti modi per confrontarli oltre all'F-test. Il più semplice è usare il R-quadrato multiplo e il R-rettificato regolato come nei riepiloghi. Il modello con R-quadrato più alto o R-quadrato rettificato è migliore. Qui il modello migliore sembra essere quello con Exp1 $ (trattamento A). Ma ricorda, dovresti controllare i residui del tuo modello per verificare l'adeguatezza del modello montato. Personalmente non consiglio di fare affidamento solo su criteri R-quadrati e dovresti controllare anche altri presupposti nel modello lineare. Soprattutto vedere se i residui sono autocorrelati o meno.
Stat
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.