Espandere un po 'la risposta di @ ken-butler. Aggiungendo sia la variabile continua (ore) sia una variabile indicatore per un valore speciale (ore = 0 o non allattamento), si pensa che ci sia un effetto lineare per il valore "non speciale" e un salto discreto nel risultato previsto al valore speciale. Aiuta (almeno per me) a guardare un grafico. Nell'esempio seguente modelliamo il salario orario in funzione delle ore settimanali in cui gli intervistati (tutte le femmine) lavorano e riteniamo che ci sia qualcosa di speciale nello "standard" 40 ore settimanali:
Il codice che ha prodotto questo grafico (in Stata) può essere trovato qui: http://www.stata.com/statalist/archive/2013-03/msg00088.html
Quindi in questo caso abbiamo assegnato alla variabile continua un valore 40 anche se volevamo che fosse trattata diversamente dagli altri valori. Allo stesso modo, daresti alle tue settimane l'allattamento al seno il valore 0 anche se pensi che sia qualitativamente diverso dagli altri valori. Di seguito interpreto il tuo commento secondo cui pensi che questo sia un problema. Questo non è il caso e non è necessario aggiungere un termine di interazione. In effetti, quel termine di interazione verrà abbandonato a causa della perfetta collinearità se ci provi. Questa non è una limitazione, ti dice solo che i termini di interazione non aggiungono nuove informazioni.
Dì che la tua equazione di regressione è simile alla seguente:
y^=β1weeks_breastfeeding+β2non_breastfeeding+⋯
Dove è il numero di settimane allattamento (compreso il valore 0 per coloro che non allattare) e n o n _ b r e una s t f e e d i n g è una variabile indicatore che è 1 quando qualcuno non allattare e 0 altrimenti.weeks_breastfeedingn o n _ b r e a s t fe e di n g
Considera cosa succede quando qualcuno sta allattando. L'equazione di regressione semplifica a:
y^= β1weeks_breastfeeding+β20+⋯=β1weeks_breastfeeding+⋯
Quindi β1 è solo un effetto lineare del numero di settimane di allattamento per coloro che allattano.
Considera cosa sta succedendo quando qualcuno non sta allattando:
y^=β10+β21+⋯=β2+⋯
Quindi ti dà l'effetto di non allattare e il numero di settimane di allattamento diminuisce dall'equazione.β2
Puoi vedere che non è utile aggiungere un termine di interazione, poiché quel termine di interazione è già (implicitamente) lì dentro.
C'è comunque qualcosa di strano in , poiché misura l'effetto dell'allattamento al seno confrontando il risultato atteso di coloro che non allattano con quelli che allattano ma lo fanno solo 0 settimane ... In un certo senso ha senso in un "confronto come con "tipo di strada", ma l'utilità pratica non è immediatamente ovvia. Potrebbe avere più senso confrontare i "non allattatori" con quelle donne che allattavano per 12 settimane (circa 3 mesi). In questo caso basta dare i "non Breastfeeders" il valore 12 per w e e k s _ b r e una s t f e e d i n gβ2weeks_breastfeeding. Quindi, il valore che si assegna a per i "non Breastfeeders" non influenzare il coefficiente di regressione β 2 , nel senso che essa determina con la quale il "non -breastfeeders "vengono confrontati. Invece di un problema, questo è in realtà qualcosa che può essere abbastanza utile.weeks_breastfeedingβ2