Come modellare questa distribuzione di forma strana (quasi un reverse-J)


25

La mia variabile dipendente mostrata di seguito non si adatta a nessuna distribuzione di titoli che io conosca. La regressione lineare produce residui in qualche modo non normali, inclinati a destra che si riferiscono alla Y prevista in modo strano (2 ° diagramma). Qualche suggerimento per trasformazioni o altri modi per ottenere risultati più validi e la migliore precisione predittiva? Se possibile, vorrei evitare la categorizzazione goffa in, diciamo, 5 valori (ad es. 0, lo%, med%, hi%, 1).

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine


7
Faresti meglio a parlarci di questi dati e da dove provengono: qualcosa ha bloccato una distribuzione che si estende naturalmente oltre l' intervallo . È possibile che tu abbia utilizzato un metodo di misurazione o una procedura statistica che non è del tutto appropriato per i tuoi dati. Cercare di correggere un simile errore con sofisticate tecniche di adattamento della distribuzione, re-espressioni non lineari, binning, ecc., Aggraverebbe l'errore, quindi sarebbe bello aggirare del tutto il problema. [0,1]
whuber

2
@whuber - Una buona idea, ma la variabile è stata creata attraverso un complesso sistema burocratico che purtroppo è incastonato nella pietra. Non sono libero di rivelare la natura delle variabili coinvolte qui.
rolando2,

1
Ok, valeva la pena provare. Sto pensando che invece di trasformare i dati, potresti ancora voler riconoscere il meccanismo di bloccaggio sotto forma di una procedura ML per fare la regressione: sarebbe simile a vederli come dati che sono entrambi censurati a sinistra ea destra .
whuber

Prova la distribuzione beta con parametri inferiori all'unità, en.wikipedia.org/wiki/File:Beta_distribution_pdf.svg
Alecos Papadopoulos

2
Questo tipo di vasca da bagno o distribuzione a forma di U è comune nei lettori di riviste in cui molte persone leggono un singolo numero di una pubblicazione, ad esempio in uno studio medico, oppure sono abbonati che vedono ogni problema con un'infarinatura di lettori nel mezzo. Numerosi commenti e risposte hanno indicato la distribuzione beta come una possibile soluzione. La letteratura che conosco indica il beta-binomio come opzione più adatta.
Mike Hunter,

Risposte:


47

I metodi di regressione censurata possono gestire dati come questo. Assumono che i residui si comportino come nella normale regressione lineare ma sono stati modificati in modo tale

  1. (Censura di sinistra): non sono stati quantificati tutti i valori inferiori a una soglia bassa, indipendente dai dati (ma che può variare da un caso all'altro); e / o

  2. (Censura corretta): non sono stati quantificati tutti i valori superiori a una soglia elevata, che è indipendente dai dati (ma può variare da un caso all'altro).

"Non quantificato" significa che sappiamo se un valore scende al di sotto (o al di sopra) della sua soglia, ma questo è tutto.

I metodi di adattamento utilizzano in genere la massima probabilità. Quando il modello per la risposta corrispondente a un vettore X è nella formaYX

YXβ+ε

con iid con una distribuzione comune F σ con PDF f σ (dove σ sono sconosciuti "parametri di disturbo"), quindi - in assenza di censura - la probabilità logaritmica delle osservazioni ( x i , y i ) èεFσfσσ(xi,yi)

Λ=i=1nlogfσ(yixiβ).

Con la censura presente possiamo dividere i casi in tre classi (possibilmente vuote): per gli indici a n 1 , y i contiene i valori di soglia più bassi e rappresentano i dati censurati a sinistra ; per gli indici i = n 1 + 1 a n 2 , y i sono quantificati; e per i restanti indici, y i contiene i valori di soglia superiore e rappresentano il diritto censuratoi=1n1yii=n1+1n2yiyidati. La probabilità del registro è ottenuta come prima: è il registro del prodotto delle probabilità.

Λ=i=1n1logFσ(yixiβ)+i=n1+1n2logfσ(yixiβ)+i=n2+1nlog(1Fσ(yixiβ)).

Questo è massimizzato numericamente in funzione di .(β,σ)

Nella mia esperienza, tali metodi possono funzionare bene quando meno della metà dei dati viene censurata; in caso contrario, i risultati potrebbero essere instabili.


Ecco un semplice Resempio usando il censRegpacchetto per illustrare come OLS e risultati censurati possono differire (molto) anche con molti dati. Riproduce qualitativamente i dati nella domanda.

library("censReg")
set.seed(17)
n.data <- 2960
coeff  <- c(-0.001, 0.005)
sigma  <- 0.005
x      <- rnorm(n.data, 0.5)
y      <- as.vector(coeff %*% rbind(rep(1, n.data), x) + rnorm(n.data, 0, sigma))
y.cen           <- y
y.cen[y < 0]    <- 0
y.cen[y > 0.01] <- 0.01
data = data.frame(list(x, y.cen))

Le cose chiave da notare sono i parametri: la pendenza vera è , l' intercetta vera è - 0,001 e l' errore vero SD è 0,005 .0.0050.0010.005

Usiamo entrambi lme censRegper adattare una linea:

fit <- censReg(y.cen ~ x, data=data, left=0.0, right=0.01)
summary(fit)

I risultati di questa regressione censurata, dati da print(fit), sono

(Intercept)           x       sigma 
  -0.001028    0.004935    0.004856 

0.0010.0050.005

fit.OLS <- lm(y.cen ~ x, data=data)
summary(fit.OLS)

La misura OLS, data da print(fit.OLS), è

(Intercept)            x  
   0.001996     0.002345  

summary0.002864

Per confronto, limitiamo la regressione ai dati quantificati:

fit.part <- lm(y[0 <= y & y <= 0.01] ~ x[0 <= y & y <= 0.01])
summary(fit.part)

(Intercept)  x[0 <= y & y <= 0.01]  
   0.003240               0.001461  

Persino peggio!

Alcune immagini riassumono la situazione.

lineplot <- function() {
  abline(coef(fit)[1:2], col="Red", lwd=2)
  abline(coef(fit.OLS), col="Blue", lty=2, lwd=2)
  abline(coef(fit.part), col=rgb(.2, .6, .2), lty=3, lwd=2)
}
par(mfrow=c(1,4))
plot(x,y, pch=19, cex=0.5, col="Gray", main="Hypothetical Data")
lineplot()
plot(x,y.cen, pch=19, cex=0.5, col="Gray", main="Censored Data")
lineplot()
hist(y.cen, breaks=50, main="Censored Data")
hist(y[0 <= y & y <= 0.01], breaks=50, main="Quantified Data")

Terreni

00.01 nel primo sono stati spostati alle rispettive soglie per produrre il secondo diagramma. Di conseguenza, puoi vedere i dati censurati tutti allineati nella parte inferiore e superiore.

Y0.00320.0037


ottima risposta (+1). Se dovessimo rimuovere visivamente le due spie di censura, mi sembra che la variabile dipendente abbia qualcosa di simile a una distribuzione esponenziale, come se i dati sottostanti fossero la lunghezza di qualche processo. È qualcosa da tenere in considerazione?
user603

@ user603 Ho simulato i valori quantificati con parte del braccio di un gaussiano, in realtà :-). Dobbiamo prenderci cura qui, perché il modello di probabilità pertinente riguarda i residui e non la variabile di risposta stessa. Sebbene sia un po 'complicato, si possono fare trame residue censurate e persino trame di probabilità censurate per valutare la bontà di adattamento a qualche ipotetica distribuzione.
whuber

il mio punto è che con un gaussiano doppiamente censurato, l'istogramma dei suoi valori senza censura dovrebbe essere in qualche modo piatto, ma sembrano diminuire delicatamente mentre ci allontaniamo da 0.
user603

1
@ user603 Ah, no, non è così: dai un'occhiata all'istogramma dei valori quantificati. Appariranno inclinati quasi linearmente verso il basso, esattamente come nella domanda.
whuber

2
Ho provato la regressione censurata sul mio set di dati e i risultati sono stati incrociati meglio di quelli di OLS. Una bella aggiunta al mio toolkit - grazie.
rolando2,

9

I valori sono sempre compresi tra 0 e 1?

In tal caso, potresti prendere in considerazione una distribuzione beta e una regressione beta.

Ma assicurati di riflettere sul processo che porta ai tuoi dati. Potresti anche fare un modello gonfiato 0 e 1 (0 modelli gonfiati sono comuni, probabilmente dovrai estendere a 1 gonfiato da te stesso). La grande differenza è se quei picchi rappresentano un gran numero di 0 e 1 esatti o solo valori vicini a 0 e 1.

Potrebbe essere meglio consultare uno statistico locale (con un accordo di non divulgazione in modo da poter discutere i dettagli della provenienza dei dati) per elaborare l'approccio migliore.


2
"Pensare attraverso il processo" è un buon consiglio. Sebbene la beta sia un modello allettante basato su un'ispezione qualitativa dell'istogramma, penso che se osservi attentamente i valori tra0 e 1scoprirai che si discostano sostanzialmente da qualsiasi distribuzione beta.
whuber

Sì, sempre nell'intervallo dallo 0% all'1% ... E questi picchi sono effettivamente esattamente allo 0% e all'1%. I modelli con zero o zero e uno gonfiato sono applicabili a dati non conteggiati come questi?
rolando2,

1
C'è uno zero gonfiato normale, ma questo non si applica qui.
Peter Flom - Ripristina Monica

Con gli esatti 0 e 1 ma continui tra di loro sembra che ci possa essere una distribuzione continua sottostante con valori al di fuori di quella regione arrotondati a 0 o 1. Questo sarebbe un caso doppiamente censurato e i modelli potrebbero essere adatti usando quell'idea.
Greg Snow,

4

In accordo con il consiglio di Greg Snow, ho sentito che i modelli beta sono utili anche in tali situazioni (vedi Smithson & verkuilen, 2006, A Better Lemon Squeezer ), così come la regressione quantile ( Bottai et al., 2010 ), ma questi sembrano così pronunciati effetti sul pavimento e sul soffitto che potrebbero essere inappropriati (specialmente la regressione beta).

Un'altra alternativa sarebbe quella di considerare tipi di modelli di regressione censurati, in particolare il modello di Tobit , in cui consideriamo i risultati osservati generati da una variabile latente sottostante che è continua (e presumibilmente normale). Non ho intenzione di dire che questo modello continuo sottostante è ragionevole dato il tuo istogramma, ma puoi trovare un po 'di supporto quando vedi che la distribuzione (ignorando il pavimento) ha una densità più alta a valori più bassi dello strumento e lentamente si sposta verso l'alto valori.

Buona fortuna, tuttavia, che la censura è così drammatica che è difficile immaginare di recuperare molte informazioni utili all'interno dei secchi estremi. Mi sembra che quasi la metà del campione rientri nei contenitori del pavimento e del soffitto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.