Spiegazione del modello Tobit


13

Abbiamo 100 partecipanti in due gruppi, n=50in ogni gruppo. Abbiamo utilizzato una valutazione della capacità di funzionamento di base in 4 punti temporali. La valutazione comprende 6 domande, ognuna con punteggio 0 - 5. Non abbiamo punteggi individuali per ogni domanda, ma solo punteggi totali che vanno da 0 a 30. I punteggi più alti indicano un migliore funzionamento. Il problema è che la valutazione è molto semplice e ha un effetto massimale significativo. I risultati sono molto negativi. La maggior parte dei partecipanti ha segnato quasi 30 punti, in particolare nei 3 punti di follow-up. È probabile che non tutti i partecipanti che hanno segnato ai limiti superiori abbiano davvero pari abilità: alcuni dei partecipanti hanno quasi segnato 30 e altri hanno segnato 30 con facilità e avrebbero ottenuto punteggi molto più alti se fosse possibile e quindi i dati sono censurato dall'alto.

Voglio confrontare i due gruppi e nel tempo, ma ovviamente questo è molto difficile data la natura dei risultati. Trasformazioni di qualsiasi tipo non fanno differenza. Sono stato informato che il modello Tobit è il più attrezzato per questa valutazione e posso eseguire l'analisi in R usando esempi tratti dall'articolo di Arne Henningen, Stima dei modelli di regressione censurati in R utilizzando il pacchetto censReg .

Tuttavia, ho solo una conoscenza di base delle statistiche e ho trovato le informazioni sul modello Tobit piuttosto complicate. Devo essere in grado di spiegare questo modello in un linguaggio semplice e non riesco a trovare una spiegazione in parole semplici su cosa faccia effettivamente il modello Tobit e come. Qualcuno può spiegare il modello Tobit o indicarmi la direzione di un riferimento leggibile senza complicate spiegazioni statistiche e matematiche?

Estremamente grato per qualsiasi aiuto

Risposte:


8

Il wiki descrive il modello Tobit come segue:

yi={yiifyi>0 0ifyi0

yi=βxi+ui

uiN(0,σ2)

Adatterò il modello sopra al vostro contesto e offrirò una semplice interpretazione inglese delle equazioni che può essere utile.

yi={ yiifyi3030ifyi>30

yi=βxi+ui

uiN(0,σ2)

In the above set of equations, yi represents a subject's ability. Thus, the first set of equations state the following:

  1. Our measurements of ability is cut-off on the higher side at 30 (i.e., we capture the ceiling effect). In other words, if a person's ability is greater than 30 then our measurement instrument fails to record the actual value but instead records 30 for that person. Note that the model states yi=30ifyi>30.

  2. If on the other hand a person's ability is less than 30 then our measurement instrument is capable of recording the actual measurement. Note that the model states yi=yiifyi30.

  3. We model the ability, yi, as a linear function of our covariates xi and an associated error term to capture noise.

I hope that is helpful. If some aspect is not clear feel free to ask in the comments.


Varty, I very much appreciated your response. It was very helpful, and very quick! Not sure i'd feel comfortable explaining it just yet but I'll keep reading. If you know any readable texts on Tobit please feel free to forward them. Many thanks again
Adam

4

There's an article by Berk in the 1983 edition of American Sociological Review (3rd issue) - that's how I learned about censoring. The explanation is specifically about selection bias but is absolutely relevant to your issue. Selection bias as Berk discusses is just censoring via the sample selection process, in your case the censoring is a result of an insensitive instrument. There's some nice charts that show you exactly how you can expect your regression line to be biased when Y is censored in different ways. In general the article is logical and intuitive rather than mathematical (yes I treat them as separate, preferring the former). Tobit is discussed as one solution to the problem.

More generally, it sounds like tobit is the right tool for the job at hand. Basically, the way it works is by estimating the probability of being censored and then incorporating that into the equation predicting the score. There is another approach proposed by Heckman using probit and the inverse mills' ratio which is basically the same thing but allows you to have different variables predicting the likelihood of censoring and the score on the test - obviously that would not be apposite for the situation you have.

Un'altra raccomandazione: potresti prendere in considerazione un modello gerarchico di tobit in cui le osservazioni sono nidificate all'interno degli individui. Ciò spiegherebbe correttamente la tendenza ad associare errori all'interno degli individui. O se non usi un modello gerarchico, almeno assicurati di regolare i tuoi errori standard per il raggruppamento delle osservazioni all'interno degli individui. So che tutto può essere fatto in Stata e sono fiducioso che R con tutta la sua versatilità possa farlo anche lui. Ma come avido utente di Stata non posso fornirti alcuna guida su come procedere in R.


Suppongo che questa sia la citazione completa dell'articolo a cui si riferirà @Will: Berk, RA (1983). Un'introduzione al bias di selezione dei campioni nei dati sociologici. American Sociological Review, 48, 386-398. doi: 10.2307 / 2095230 Esistono diverse versioni liberamente disponibili di questo documento, che troverai su Google Scholar, ad es.
crsh
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.