Questo non è un problema specifico di R. R utilizza una visualizzazione convenzionale dei coefficienti.
Quando leggi questo output di regressione (in un documento, un libro di testo o da un software statistico), devi sapere quali variabili sono "continue" e quali "categoriche":
Quelli "continui" sono esplicitamente numerici e i loro valori numerici sono stati usati così come sono nel raccordo di regressione.
Le variabili "categoriche" possono essere di qualsiasi tipo, comprese quelle numeriche! Ciò che li rende categorici è che il software li ha trattati come "fattori": vale a dire, ogni valore distinto che viene trovato è considerato un indicatore di qualcosa di distinto.
La maggior parte dei software considera i valori non numerici (come le stringhe) come fattori. La maggior parte dei software può essere persuasa a trattare anche i valori numerici come fattori. Ad esempio, un codice di servizio postale (codice postale negli Stati Uniti) sembra un numero ma in realtà è solo un codice per un set di cassette postali; non avrebbe senso aggiungere, sottrarre e moltiplicare i codici postali per altri numeri! (Questa flessibilità è la fonte di un errore comune: se non stai attento o inconsapevole, il tuo software potrebbe trattare una variabile che ritieni categorica come continua o viceversa. Fai attenzione!)
Tuttavia, le variabili categoriali devono essere rappresentate in qualche modo come numeri per applicare gli algoritmi di adattamento. Esistono molti modi per codificarli . I codici vengono creati utilizzando "variabili fittizie". Scopri di più sulla codifica delle variabili fittizie cercando su questo sito; i dettagli non contano qui.
Nella domanda ci viene detto che h
e f
sono valori categoriali ( "discreti"). Per impostazione predefinita, log(d)
e a
sono continui. Questo è tutto ciò che dobbiamo sapere. Il modello è
y= - 0.679695+ 1.791294 log ( d)+ 0.870735- 0.447570+ 0,542033+ 0,037362 a - 0,588362+ 0.816825+ 0,534440- 0,085658 a - 0,034970 a - 0,040637 a se h = h1 se h = h2 se h = h3 se f= f1 se f= f2 se f= f3 se h = h1 se h = h2 se h = h3
Le regole applicate qui sono:
Il termine "intercetta", se appare, è una costante additiva (prima riga).
Le variabili continue sono moltiplicati per i loro coefficienti, anche in "interazioni" , come la h1:a
, h2:a
e h3:a
condizioni. (Questo risponde alla domanda originale.)
Qualsiasi variabile (o fattore) categoriale è inclusa solo per i casi in cui appare il valore di quel fattore.
log( d) = 2h = h3a = - 1f= f2
y^= - 0,6797 + 1,77913 × ( 2 ) + 0,5420 + 0,0374 × ( - 1 ) + 0,8168 - 0,0406 × ( - 1 ) .
h
h1h2h3( 0.870735 , - 0.447570 , 0.542033 )h
( - 0,085658 , - 0,034970 , - 0,040637 )a
h:a
interazione; allo stesso modo, si applica un solo coefficiente f
in ogni caso particolare.
g1