Tempo trascorso in un'attività come variabile indipendente


14

Voglio includere il tempo impiegato a fare qualcosa (settimane di allattamento al seno, ad esempio) come variabile indipendente in un modello lineare. Tuttavia, alcune osservazioni non coinvolgono affatto il comportamento. Codificarli come 0 non è proprio giusto, perché 0 è qualitativamente diverso da qualsiasi valore> 0 (cioè le donne che non allattano possono essere molto diverse dalle donne che lo fanno, anche quelle che non lo fanno per molto tempo). Il meglio che posso inventare è una serie di manichini che categorizza il tempo trascorso, ma questo è uno spreco di informazioni preziose. Anche qualcosa come Poisson gonfiato a zero sembra una possibilità, ma non riesco esattamente a capire come sarebbe in questo contesto. Qualcuno ha qualche suggerimento?

Risposte:


16

Espandere un po 'la risposta di @ ken-butler. Aggiungendo sia la variabile continua (ore) sia una variabile indicatore per un valore speciale (ore = 0 o non allattamento), si pensa che ci sia un effetto lineare per il valore "non speciale" e un salto discreto nel risultato previsto al valore speciale. Aiuta (almeno per me) a guardare un grafico. Nell'esempio seguente modelliamo il salario orario in funzione delle ore settimanali in cui gli intervistati (tutte le femmine) lavorano e riteniamo che ci sia qualcosa di speciale nello "standard" 40 ore settimanali:

inserisci qui la descrizione dell'immagine

Il codice che ha prodotto questo grafico (in Stata) può essere trovato qui: http://www.stata.com/statalist/archive/2013-03/msg00088.html

Quindi in questo caso abbiamo assegnato alla variabile continua un valore 40 anche se volevamo che fosse trattata diversamente dagli altri valori. Allo stesso modo, daresti alle tue settimane l'allattamento al seno il valore 0 anche se pensi che sia qualitativamente diverso dagli altri valori. Di seguito interpreto il tuo commento secondo cui pensi che questo sia un problema. Questo non è il caso e non è necessario aggiungere un termine di interazione. In effetti, quel termine di interazione verrà abbandonato a causa della perfetta collinearità se ci provi. Questa non è una limitazione, ti dice solo che i termini di interazione non aggiungono nuove informazioni.

Dì che la tua equazione di regressione è simile alla seguente:

y^=β1weeks_breastfeeding+β2non_breastfeeding+

Dove è il numero di settimane allattamento (compreso il valore 0 per coloro che non allattare) e n o n _ b r e una s t f e e d i n g è una variabile indicatore che è 1 quando qualcuno non allattare e 0 altrimenti.weeks_breastfeedingnon_Breun'Stfeediong

Considera cosa succede quando qualcuno sta allattando. L'equazione di regressione semplifica a:

y^=β1weeks_breastfeeding+β20+=β1weeks_breastfeeding+

Quindi β1 è solo un effetto lineare del numero di settimane di allattamento per coloro che allattano.

Considera cosa sta succedendo quando qualcuno non sta allattando:

y^=β10+β21+=β2+

Quindi ti dà l'effetto di non allattare e il numero di settimane di allattamento diminuisce dall'equazione.β2

Puoi vedere che non è utile aggiungere un termine di interazione, poiché quel termine di interazione è già (implicitamente) lì dentro.

C'è comunque qualcosa di strano in , poiché misura l'effetto dell'allattamento al seno confrontando il risultato atteso di coloro che non allattano con quelli che allattano ma lo fanno solo 0 settimane ... In un certo senso ha senso in un "confronto come con "tipo di strada", ma l'utilità pratica non è immediatamente ovvia. Potrebbe avere più senso confrontare i "non allattatori" con quelle donne che allattavano per 12 settimane (circa 3 mesi). In questo caso basta dare i "non Breastfeeders" il valore 12 per w e e k s _ b r e una s t f e e d i n gβ2weeks_breastfeeding. Quindi, il valore che si assegna a per i "non Breastfeeders" non influenzare il coefficiente di regressione β 2 , nel senso che essa determina con la quale il "non -breastfeeders "vengono confrontati. Invece di un problema, questo è in realtà qualcosa che può essere abbastanza utile.weeks_breastfeedingβ2


1
Apprezzo la risposta (e le altre), ma non riesco ad accettarla. Se includo 1: 0 e la variabile del tempo continuo, devo ancora assegnare ai non allattatori un valore per il tempo (altrimenti cadono per una co-variata mancante). Anche condizionatamente alla variabile 1: 0, non vedo come l'inclusione dei non allattatori come time = 0 non influenzi il coefficiente di regressione. Forse anche l'aggiunta del termine di interazione tra i due prodotti avrebbe più senso?
DL Dahly,

@DLDahly ho modificato la mia risposta per affrontare questi dubbi
Maarten Buis,

Ok, è molto utile. Lascia che ti chieda un altro rapido follow-up ... se ti sto capendo correttamente, il valore stimato per B1 dovrebbe essere lo stesso indipendentemente dal valore temporale che do alle persone B2 = 1. È giusto?
DL Dahly,

1
Molto bella risposta Maarten. Ecco una domanda / risposta simile sul sito che mostra una situazione simile nell'includere una variabile indipendente che riguarda solo un particolare sottogruppo .
Andy W

1
@ GavinM.Jones Non ho mai pensato alla necessità di nominarlo o di citarlo: è solo una semplice applicazione di variabili continue e indicatrici. Di conseguenza non ho un buon riferimento per te. La cosa che potrei rapidamente scavare è Treiman, DJ (2009): Quantitative Data Analysis. Fare ricerca sociale per testare idee. San Francisco: Jossey-Bass. , il capitolo 7 ha discusso di qualcosa di simile. Il modello contiene una costante.
Maarten Buis,

6

Qualcosa di semplice: rappresenta la tua variabile con un indicatore 1/0 per qualsiasi / nessuno e il valore effettivo. Metti entrambi nella regressione.


4

Se si inserisce un indicatore binario per qualsiasi tempo trascorso (= 1) rispetto a nessun tempo trascorso (= 0) e quindi si ha la quantità di tempo trascorso come variabile continua, il diverso effetto di "0" volte sarà " raccolto "dall'indicatore 0-1


2

Puoi usare modelli a effetti misti con un raggruppamento basato su tempo 0 vs tempo diverso da zero e mantenere la tua variabile indipendente


Potresti per favore ampliare un po 'questo? Grazie molto.
DL Dahly,

un modello a effetti misti presuppone che vi sia un fattore che divide i dati in diversi (eterogenei) bucket, in ognuno dei quali potremmo avere una relazione diversa tra variabili esplicative e dipendenti (sia in termini di intercettazione o intercettazione sia di pendenza / coefficiente). en.wikipedia.org/wiki/Mixed_model
rezakhorshidi

Quindi usa gli individui, nidificati nello stato di allattamento e poi una pendenza casuale sull'allattamento al seno per settimane? Potrei farlo abbastanza facilmente come SEM e testare alcuni vincoli. Grazie +1
DL Dahly,

1

Se stai usando Random Forest o Neural Network mettendo questo numero come 0 è OK, perché saranno in grado di capire che 0 è nettamente diverso dagli altri valori (se in realtà è diverso). Un altro modo per aggirare è l'aggiunta di una variabile categoriale sì / no oltre alla variabile temporale.

Ma tutto sommato, in questo caso particolare non vedo un vero problema: 0,1 settimane di allattamento al seno sono vicine a 0 e l'effetto sarà molto simile, quindi mi sembra una variabile abbastanza continua con 0 che non si distingue come qualcosa distinto.


3
+1 per il primo paragrafo, ma trattando di scienze sociali o dati medici, l'effetto di 0 contro 0,1 settimane di qualcosa non è la preoccupazione principale. Il punto è che le donne che non tentano o segnalano di allattare al seno potrebbero essere sistematicamente diverse sotto molti aspetti (problemi di salute, reddito, situazione familiare, capacità di rimanere senza lavoro, accesso ai servizi sanitari, dove hanno ottenuto informazioni su genitorialità, ecc.) Non c'è davvero alcun motivo per credere che queste donne siano molto simili alle madri che provano ad allattare e lo interrompono rapidamente.
Galà,

1
Da un punto di vista statistico, sarebbe meglio inserire queste altre variabili in modo esplicito nel proprio modello, ma ha senso fare attenzione a supporre che non ci sia nulla di speciale in corso a 0, penso.
Galà,

0

Il modello Tobit è quello che vuoi, credo.


5
I tabacco sono usati quando il risultato è censurato sopra o sotto una certa soglia. Ad esempio, non osserviamo alcun salario al di sotto del salario minimo o redditi al di sopra di un valore superiore. Questa applicazione è per una variabile indipendente.
Dimitriy V. Masterov,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.