È stato esaminato un campione di popolazione casuale. È stato chiesto loro se seguivano una dieta vegetariana. Se hanno risposto di sì, è stato anche chiesto loro di specificare da quanto tempo hanno seguito una dieta vegetariana senza interruzione. Voglio usare questi dati per calcolare la durata media di aderenza al vegetarismo. In altre parole, quando qualcuno diventa vegetariano, voglio sapere che in media rimangono vegetariani. Supponiamo che:
- Tutti gli intervistati hanno dato risposte corrette e accurate
- Il mondo è stabile: la popolarità del vegetarismo non sta cambiando, neanche la durata media dell'adesione.
Il mio ragionamento finora
Ho trovato utile analizzare un modello di giocattolo del mondo, dove all'inizio di ogni anno due persone diventano vegetariane. Ogni volta, uno di loro rimane vegetariano per 1 anno e un altro per 3 anni. Ovviamente, la durata media dell'adesione in questo mondo è (1 + 3) / 2 = 2 anni. Ecco un grafico che illustra l'esempio. Ogni rettangolo rappresenta un periodo di vegetarismo:
Diciamo che facciamo un sondaggio a metà anno 4 (linea rossa). Otteniamo i seguenti dati:
Otterremmo gli stessi dati se accettassimo il sondaggio in qualsiasi anno, a partire dall'anno 3. Se calcoliamo solo la media delle risposte otteniamo:
(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25
Sottovalutiamo perché supponiamo che tutti abbiano smesso di essere vegetariani subito dopo il sondaggio, il che è ovviamente errato. Per ottenere una stima più vicina ai tempi medi reali in cui questi partecipanti rimarrebbero vegetariani, possiamo supporre che in media abbiano riportato un tempo circa a metà del loro periodo di vegetarismo e moltiplicato le durate riportate per 2. In un ampio sondaggio che disegna a caso dalla popolazione (come quello che sto analizzando), penso che questo sia un presupposto realistico. Almeno darebbe un valore atteso corretto. Tuttavia, se il raddoppio è l'unica cosa che facciamo, otteniamo una media di 2,5, il che è una sopravvalutazione. Questo perché la persona più a lungo rimane vegetariana, più è probabile che sarà nel campione degli attuali vegetariani.
Ho quindi pensato che la probabilità che qualcuno fosse nel campione degli attuali vegetariani è proporzionale alla loro lunghezza di vegetarismo. Per tenere conto di questo pregiudizio, ho cercato di dividere il numero degli attuali vegetariani per la durata prevista di aderenza:
Tuttavia, ciò fornisce anche una media errata:
(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2.533333 = 1.579 anni
Darebbe la stima corretta se il numero di vegetariani fosse diviso per la loro corretta lunghezza di aderenza:
(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 anni
Ma non funziona se uso le lunghezze di aderenza previste e sono tutto ciò che ho nella realtà. Non so cos'altro provare. Ho letto un po 'di analisi di sopravvivenza, ma non sono sicuro di come applicarlo in questo caso. Idealmente, vorrei anche essere in grado di calcolare un intervallo di confidenza del 90%. Eventuali suggerimenti sarebbero molto apprezzati.
EDIT: è possibile che la domanda sopra non abbia risposta. Ma c'è stato anche un altro studio che ha chiesto a un campione casuale di persone se sono / erano vegetariani e quante volte sono stati vegetariani in passato. Conosco anche l'età di tutti in entrambi gli studi e alcune altre cose. Forse queste informazioni possono essere utilizzate insieme al sondaggio degli attuali vegetariani per ottenere la media in qualche modo. In realtà, lo studio di cui ho parlato è solo un pezzo del puzzle, ma molto importante e voglio trarne di più.