I valori insignificanti delle variabili nidificate non devono influire sul modello:
il desiderio cruciale con questo tipo di analisi dei dati è che la nested
variabile non deve influire sul modello se la explanatory
variabile originale non lo ammette come variabile significativa. In altre parole, il modello deve essere di una forma che ignora i valori insignificanti della variabile nidificata . Questo è un requisito fondamentale per un modello valido con variabili nidificate, poiché garantisce che l'output del modello non sia influenzato da scelte di codifica arbitrarie.
Modellazione con variabili nidificate: questo requisito viene raggiunto inserendo la nested
variabile nel modello solo come interazione con la explanatory
variabile originale , senza includerla come effetto principale. (Più specificamente, la variabile nidificata deve essere interagita con un'istruzione logica sulla variabile esplicativa che indica che si tratta di una variabile significativa.) Si noti che questa è un'eccezione alla regola generale che i termini non dovrebbero essere inclusi come interazioni senza un termine con effetto principale .
Considera il caso generale in cui la nested
variabile è significativa solo quando la explanatory
variabile si trova in un set di valori A
. In tal caso, useresti un modulo modello come questo:
response ~ 1 + explanatory + (explanatory %in% A):nested + ...
Nel caso comune in cui la vostra explanatory
variabile è una variabile indicatore (con un valore di una che dà origine a una variabile nidificata significativa), questo modulo modello semplifica a questo:
response ~ 1 + explanatory + explanatory:nested + ...
Si noti che in queste dichiarazioni del modello non esiste un termine effetto principale per la nested
variabile. Questo è di progettazione --- la variabile nidificata non dovrebbe avere un termine con effetto principale, poiché non è una variabile significativa in assenza di una condizione sulla variabile esplicativa. Con questo tipo di modulo modello otterrai una stima per l'effetto della variabile esplicativa e un'altra stima per l'effetto della variabile nidificata.
Codifica delle variabili nidificate nei dati: quando si ha a che fare con frame di dati che elencano le variabili per la regressione, è buona norma nested
codificare i valori della variabile come NA
nei casi in cui non deriva in modo significativo dalla variabile esplicativa. Questo dice al lettore che non esiste una variabile significativa qui. Alcuni analisti codificano queste variabili con altri valori, come zero, ma questa è generalmente una cattiva pratica, poiché può essere scambiata per una quantità significativa.
Matematicamente, se moltiplichi un numero reale per zero, ottieni zero. Tuttavia, se stai inserendo un codice, R
devi fare attenzione qui perché il programma si moltiplica 0:NA
per dare NA
invece di 0
. Ciò significa che potrebbe essere necessario ricodificare i NA
valori a zero ai fini dell'adattamento del modello o costruire la matrice di progettazione per il modello in modo che tali valori siano impostati su zero.
Casi in cui la variabile di base è una funzione della variabile nidificata: una situazione che si presenta occasionalmente nell'analisi di regressione che coinvolge variabili nidificate è il caso in cui la variabile nidificata ha una quantità sufficiente di dettagli da determinare completamente la variabile esplicativa iniziale da cui deriva - - ovvero, la variabile esplicativa originale è una funzione della variabile nidificata. Un esempio di ciò si verifica in questa domanda , in cui l'analista ha una variabile indicatore DrugA
per sapere se è stato assunto o meno un farmaco e una variabile nidificata DrugA_Conc
per la concentrazione del farmaco. In questo esempio, quest'ultima variabile consente un valore di concentrazione pari a zero, che equivale al fatto che il farmaco non viene assunto, e quindi DrugA
equivale a DrugA_Conc != 0
.
In questi tipi di casi, il termine di interazione tra la variabile esplicativa e la variabile nidificata è funzionalmente equivalente alla variabile nidificata, quindi è possibile (e di solito desiderabile) rimuovere del tutto la variabile esplicativa iniziale dal modello e usare semplicemente il variabile nidificata da sola. Ciò è legittimo in questo caso, poiché i valori nella variabile nidificata determinano il valore della variabile esplicativa iniziale. Abbiamo notato sopra che spesso è appropriato codificare le variabili nidificate come NA
quando le condizioni per esse non sono applicabili. Se la condizione deriva da una variabile esplicativa che è un indicatore e l'indicatore corrisponde all'uso della variabile nidificata, allora l'evento nested != NA
è equivalente aexplanatory
. In tali casi, è possibile ricodificare la variabile nidificata in modo che la variabile esplicativa iniziale non sia affatto richiesta nel modello.
Si noti che è necessario prestare attenzione quando si guarda questa situazione. Anche nel caso in cui si stia utilizzando una variabile esplicativa iniziale che è una variabile indicatore, può essere utile a fini interpretativi non unire la variabile esplicativa e la variabile nidificata. Inoltre, nei casi in cui la variabile esplicativa non è una variabile indicatore, di solito conterrà informazioni non contenute nella variabile nidificata e quindi non può essere rimossa.