Trattare con valori 0,1 in una regressione beta


20

Ho alcuni dati in [0,1] che vorrei analizzare con una regressione beta. Ovviamente bisogna fare qualcosa per accogliere i valori di 0,1. Non mi piace modificare i dati per adattarli a un modello. inoltre non credo che l'inflazione zero e 1 sia una buona idea perché credo che in questo caso si debbano considerare gli 0 come valori positivi molto piccoli (ma non voglio dire esattamente quale valore sia appropriato. Una scelta ragionevole Credo che sarebbe scegliere piccoli valori come .001 e .999 e adattarlo al modello usando la dist cumulativa per la beta. Quindi per le osservazioni y_i la probabilità logaritmica LL_dovrebbe essere

 if  y_i < .001   LL+=log(cumd_beta(.001))
 else if y_i>.999  LL+=log(1.0-cum_beta(.999))
 else LL+=log(beta_density(y_i))

Quello che mi piace di questo modello è che se il modello di regressione beta è valido anche questo modello è valido, ma rimuove un po 'di sensibilità ai valori estremi. Tuttavia, questo sembra essere un approccio così naturale che mi chiedo perché non trovo alcun riferimento ovvio in letteratura. Quindi la mia domanda è invece di modificare i dati, perché non modificare il modello. La modifica dei dati pregiudica i risultati (in base al presupposto che il modello originale sia valido), mentre la modifica del modello mediante il superamento dei valori estremi non pregiudica i risultati.

Forse c'è un problema che sto trascurando?


1
Non è davvero possibile dare una buona risposta a questa domanda senza sapere di più sul problema specifico. La domanda chiave è se gli zeri e quelli esatti sono generati da un processo diverso da quello che genera i dati in (0,1). Un esempio classico è la pioggia, dove ci sono zeri esatti che riflettono i giorni in cui non piove. Nella tua applicazione gli zeri e quelli "speciali" in qualche modo?
Dikran Marsupial,

Risposte:


16

Secondo questo documento , una trasformazione appropriata è

X'=X(N-1)+SN

"dove N è la dimensione del campione e s è una costante compresa tra 0 e 1. Dal punto di vista bayesiano, s si comporta come se prendessimo in considerazione un precedente. Una scelta ragionevole per s sarebbe .5."

[0,1](0,1)


1
+1 .. Ma potresti correggere il primo link o almeno citare il documento in modo da poterlo trovare in modo indipendente?
whuber

1
Ma questo non risponde alla mia domanda. Sono ben consapevole che si possono trasformare i dati. Le mie domande sono: perché non trasformare invece il modello?
Dave Fournier,

1
Dave, quindi modifica la tua domanda per riflettere questo: attualmente, sembra che tu stia cercando un modo per trasformare i dati . Nel processo ti sarebbe utile indicare quale pensi che sia la differenza tra una trasformazione dei dati e un cambio di modello, perché se ce n'è uno, è sottile.
whuber

@davefournier, Se leggi i siti Cam di carta, in parte risolve la tua domanda. Offrono anche raccomandazioni su modelli alternativi (vedi pagina 69) e parte delle raccomandazioni dipendono dalla natura dei dati. La tua probabilità adattata assomiglia al "processo misto discreto-continuo" (menzionato verso la fine di pagina 69). Può anche accadere che il modello Tobit sia soddisfacente dati i tuoi dati, anche se sarebbe meglio vedere altri riferimenti per l'adeguatezza del modello Tobit, come il libro di Scott Long sulla regressione categorica.
Andy W,

1
Ma non adottano questo approccio. Propongono un modello diverso, un processo continuo discreto misto. Questo è molto diverso dal binning dei valori estremi. Come ho detto prima, se il modello beta è valido, il modello di binning è valido. Se il modello continuo discreto è valido, il modello beta non è valido. Sospetto che siano stati principalmente guidati nella loro analisi dai tipi di modelli misti che potevano adattarsi al loro software. Il modello misto beta unito è un po 'più difficile da adattare.
Dave Fournier,

3

Dave,

Un approccio comune a questo problema è quello di adattare 2 modelli di regressione logistica per prevedere se un caso è 0 o 1. Quindi, viene utilizzata una regressione beta per quelli nell'intervallo (0,1).


potresti fornire un esempio? o un articolo che ne discute in modo più dettagliato?
user1607

2

(log(X),log(1-X))

X(X,X2)

Credo che entrambi siano facilmente stimabili in modo bayesiano in quanto sono entrambe famiglie esponenziali. Questa è una modifica del modello come speravi.


1

Penso che la vera risposta "corretta" a questa domanda sia la regressione beta zero gonfiata. Questo è progettato per gestire dati che variano continuamente nell'intervallo [0,1] e consente a molti 0 e 1 reali di essere nei dati. Questo approccio si adatta a tre modelli separati in un contesto bayesiano, simile a quello proposto da @B_Miner.

Modello 1: un valore è un discreto 0/1 o è il valore in (0,1)? Misura con una distribuzione di bernoulli.

Modello 2: adatta un sottoinsieme discreto con una distribuzione di bernoulli.

Modello 3: sottoinsieme Fit (0,1) con regressione beta.

Per la previsione, i risultati del primo modello possono essere utilizzati per ponderare le previsioni dei modelli 2 e 3. Questo può essere implementato all'interno del zoibpacchetto R o preparato in casa in BUGS / JAGS / STAN / ecc.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.