Come calcolare la durata media di aderenza al vegetarianismo quando disponiamo solo di dati di sondaggi sugli attuali vegetariani?


16

È stato esaminato un campione di popolazione casuale. È stato chiesto loro se seguivano una dieta vegetariana. Se hanno risposto di sì, è stato anche chiesto loro di specificare da quanto tempo hanno seguito una dieta vegetariana senza interruzione. Voglio usare questi dati per calcolare la durata media di aderenza al vegetarismo. In altre parole, quando qualcuno diventa vegetariano, voglio sapere che in media rimangono vegetariani. Supponiamo che:

  • Tutti gli intervistati hanno dato risposte corrette e accurate
  • Il mondo è stabile: la popolarità del vegetarismo non sta cambiando, neanche la durata media dell'adesione.

Il mio ragionamento finora

Ho trovato utile analizzare un modello di giocattolo del mondo, dove all'inizio di ogni anno due persone diventano vegetariane. Ogni volta, uno di loro rimane vegetariano per 1 anno e un altro per 3 anni. Ovviamente, la durata media dell'adesione in questo mondo è (1 + 3) / 2 = 2 anni. Ecco un grafico che illustra l'esempio. Ogni rettangolo rappresenta un periodo di vegetarismo:

un'illustrazione

Diciamo che facciamo un sondaggio a metà anno 4 (linea rossa). Otteniamo i seguenti dati:

un tavolo

Otterremmo gli stessi dati se accettassimo il sondaggio in qualsiasi anno, a partire dall'anno 3. Se calcoliamo solo la media delle risposte otteniamo:

(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25

Sottovalutiamo perché supponiamo che tutti abbiano smesso di essere vegetariani subito dopo il sondaggio, il che è ovviamente errato. Per ottenere una stima più vicina ai tempi medi reali in cui questi partecipanti rimarrebbero vegetariani, possiamo supporre che in media abbiano riportato un tempo circa a metà del loro periodo di vegetarismo e moltiplicato le durate riportate per 2. In un ampio sondaggio che disegna a caso dalla popolazione (come quello che sto analizzando), penso che questo sia un presupposto realistico. Almeno darebbe un valore atteso corretto. Tuttavia, se il raddoppio è l'unica cosa che facciamo, otteniamo una media di 2,5, il che è una sopravvalutazione. Questo perché la persona più a lungo rimane vegetariana, più è probabile che sarà nel campione degli attuali vegetariani.

Ho quindi pensato che la probabilità che qualcuno fosse nel campione degli attuali vegetariani è proporzionale alla loro lunghezza di vegetarismo. Per tenere conto di questo pregiudizio, ho cercato di dividere il numero degli attuali vegetariani per la durata prevista di aderenza:

ancora un altro tavolo

Tuttavia, ciò fornisce anche una media errata:

(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2.533333 = 1.579 anni

Darebbe la stima corretta se il numero di vegetariani fosse diviso per la loro corretta lunghezza di aderenza:

(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 anni

Ma non funziona se uso le lunghezze di aderenza previste e sono tutto ciò che ho nella realtà. Non so cos'altro provare. Ho letto un po 'di analisi di sopravvivenza, ma non sono sicuro di come applicarlo in questo caso. Idealmente, vorrei anche essere in grado di calcolare un intervallo di confidenza del 90%. Eventuali suggerimenti sarebbero molto apprezzati.

EDIT: è possibile che la domanda sopra non abbia risposta. Ma c'è stato anche un altro studio che ha chiesto a un campione casuale di persone se sono / erano vegetariani e quante volte sono stati vegetariani in passato. Conosco anche l'età di tutti in entrambi gli studi e alcune altre cose. Forse queste informazioni possono essere utilizzate insieme al sondaggio degli attuali vegetariani per ottenere la media in qualche modo. In realtà, lo studio di cui ho parlato è solo un pezzo del puzzle, ma molto importante e voglio trarne di più.


1
Questa non è un'opzione atm. Questi dati forniscono sicuramente alcune prove della durata dell'adesione, semplicemente non so come usarli.
Saulius Šimčikas,

1
Almeno una delle tue immagini sembra essere scomparsa (errore 403 quando utilizzo l'URL).
Barrycarter,

2
@kjetilbhalvorsen Per il problema non importa se i vegetariani continuano a essere vegetariani per la vita. Ad un certo punto, smetteranno di essere vegetariani, mangiando carne o morendo.
Pere,

4
@kjetil Il tuo commento "veri vegetariani" suona un po 'come un No True Scotsman . La definizione ordinaria di vegetariano non dice nulla su ciò che potrebbe accadere in futuro, né sul perché qualcuno è vegetariano, ma solo sul loro comportamento nel momento in cui l'attributo viene preso in considerazione. Se una persona è vegetariana adesso, è vegetariana adesso, per qualunque motivo capiti di esserlo. Non penso che i nostri sentimenti personali sull'idea di mangiare carne o sui motivi per cui potremmo sentirci se lo facciamo sia in tema qui; appartengono altrove.
Glen_b -Restate Monica

2
Poiché le persone che sono vegetariane più a lungo hanno maggiori probabilità di essere selezionate per apparire nel campione, ciò significa che la funzione di densità di probabilità dei dati del campione è proporzionale a meno la funzione di distribuzione cumulativa delle lunghezze di aderenza. Per fare un esempio dal tuo esempio, la distribuzione delle lunghezze è [0, 0,5, 0, 0,5] (il 50% dura 1 anno, il 50% per 3 anni), dando un CDF di [0, 0,5, 0,5, 1 ], con un meno quello [1, 0,5, 0,5, 0] che è proporzionale ai conteggi [2, 1, 1, 0] del campione.
PhiNotPi

Risposte:


10

fX(x)XEX=0xfX(x)dx

SXX

fX|S(x)=xfX(x)xfX(x)dx=xfX(x)EX.
ZXS
fZ|X=x(z)=1x,0<z<x.
Z
fZ(z)=zfZ|X=x(z)fX|S(x)dx=z1xxfX(x)EXdx=1FX(z)EX,
FX(z)XXFX(0)=P(X0)=0fZ(0)=1/EX

EXfZ(z)z1,z2,,znz=0fZ(z)z=0f^Z(0)fZ(z)z=0EXEX^=1/f^Z(0)

inserisci qui la descrizione dell'immagine

Questo metodo non parametrico non è l'ideale tuttavia poiché non sfrutta il fatto che fZ(z)fX(0)=FX(0)>0fZ(0)EXEX in tali situazioni senza fare più ipotesi sembra difficile, essenzialmente perché i brevi tempi di aderenza presenti in questa situazione difficilmente si manifestano nei dati osservati a causa del campionamento parziale.

fX(x)

L(θ)=i=1n1FX(zi;θ)EX(θ)

Codice R che simula i dati e implementa entrambi i metodi:

# Simulate lognormal duration length in population
set.seed(1)
n <- 1e+4
x <- rlnorm(n,mean=2,sd=.2)
# Biased sampling
x.given.S <- sample(x, size=n/10, prob=x, replace=TRUE)
# Duration at time of sampling
z <- runif(length(x.given.S),min=0, max=x.given.S)
hist(z,prob=TRUE,main="")

# Compute kernel density estimate with reflection around z=0
to <- max(x) + 3
fhat <- density(z,from = -to, to=to)
m <- length(fhat$y)
fhat$y <- fhat$y[(m/2+1):m] + fhat$y[(m/2):1]
fhat$x <- fhat$x[(m/2+1):m]
lines(fhat,col="red")
# Estimate of EX
1/fhat$y[1]
# True value (mean of above lognormal)
exp(2+.2^2/2)

# Maximum likelihood
nll <- function(theta, z) {
  - sum(plnorm(z, theta[1], theta[2], log.p=TRUE, lower.tail = FALSE)) + length(z)*(theta[1] + theta[2]^2/2)
}
fit <- optim(c(0,1),nll,z=z)
fit$par
EXhat <- exp(fit$par[1]+fit$par[2]^2/2) # MLE of EX
EXhat
curve(plnorm(z, fit$par[1], fit$par[2], lower.tail=FALSE)/EXhat, xname="z", col="blue",add=TRUE)

1
Ehi, grazie mille per aver risposto, non ho ancora avuto il tempo di capire tutto, volevo solo aggiungere che conosco la distribuzione generale di quell'altro studio. (l'unico problema con l'altro studio è che ha indotto le persone a scegliere tra le opzioni per quanto tempo sono state vegetariane e una delle opzioni era "Più di 10 anni" e la media dipende quasi interamente da quanto più a lungo di 10 anni le persone rimanere vegetariano)
Saulius Šimčikas il

Ok, spero che non ci siano grossi difetti nel mio ragionamento. Vedo che @PhiNotPi arriva allo stesso pdf nel suo commento all'OP.
Jarle Tufto,

@Saulius Se hai accesso al secondo set di dati censurati a destra e le distribuzioni sottostanti possono essere considerate identiche, la soluzione ideale sarebbe quella di combinare la probabilità per quel set di dati (che è semplice da annotare se è solo alcuni campioni censurati a destra) e quindi massimizzare la probabilità congiunta.
Jarle Tufto,

quello non è giusto censurato: imgur.com/U8ofZ3A Ora mi rendo conto che dovevo menzionarlo all'inizio ma ho pensato che il mio problema avesse una soluzione più semplice ...
Saulius Šimčikas

@Saulius Questi dati sono censurati per intervallo. Ancora una volta, è semplice calcolare la probabilità.
Jarle Tufto,

0

(Ho cercato di aggiungere questo, come sembra che @JarleTufto abbia già dato un buon approccio matematico; tuttavia non sono abbastanza intelligente da capire la sua risposta, e ora sono curioso se è esattamente lo stesso approccio, o se l'approccio che descrivo di seguito ha sempre i suoi usi.)

Quello che farei è indovinare una lunghezza media e indovinare alcune distribuzioni attorno ad essa, quindi, per ciascuna, fare una simulazione della mia popolazione e campionarla regolarmente.

Hai detto di supporre che la popolazione totale di vegetariani non stia cambiando, quindi ogni volta che il mio modello fa fermare qualcuno, viene creato un vegetariano nuovo di zecca. Dobbiamo eseguire il modello per diversi anni simulati per assicurarci che si sia stabilizzato, prima di poter iniziare a campionare. Successivamente, penso che puoi prelevare campioni ogni mese simulato (*) fino a quando non avrai abbastanza per formare il tuo intervallo di confidenza al 90%.

*: o qualunque risoluzione funzioni con i tuoi dati. Se le persone hanno dato la loro risposta all'anno più vicino, il campionamento ogni 6 mesi è abbastanza buono.

Tra tutte le tue ipotesi, scegli la media e la distribuzione che (in media su tutti i campioni che hai preso) ti dà il risultato più vicino a ciò che il tuo sondaggio nella vita reale ha dato.

Vorrei ripetere alcune volte le mie ipotesi, per restringere la partita migliore.

La migliore distribuzione potrebbe non essere a picco singolo. Gli ex-vegetariani a cui personalmente riesco a pensare si sono fermati a causa di importanti cambiamenti nello stile di vita (tipicamente sposarsi / vivere con un paese non vegetariano, o trasferirsi, o ammalarsi gravemente e un medico che suggerisce che potrebbe essere una dieta); dall'altra parte c'è il potere dell'abitudine: più a lungo sei vegetariano, più è probabile che tu continui a esserlo. Se i tuoi dati avessero richiesto l'età e lo stato della relazione, potremmo anche lanciarlo nella simulazione sopra.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.