Test di ipotesi su dati continui a zero inflazionato


10

Gradirei molto i tuoi consigli sul seguente problema:

Ho un ampio set di dati continuo con molti zeri (~ 95%) e ho bisogno di trovare il modo migliore per testare se alcuni sottoinsiemi sono "interessanti", cioè non sembrano essere tratti dalla stessa distribuzione di il riposo. L'inflazione zero deriva dal fatto che ogni punto dati si basa su una misurazione del conteggio con zeri sia reali che di campionamento, ma il risultato è continuo in quanto tiene conto di alcuni altri parametri ponderati dal conteggio (e quindi se il conteggio è zero, il risultato è anche zero).

Quale sarebbe il modo migliore per farlo? Ho la sensazione che Wilcoxon e persino i test di permutazione della forza bruta siano inadeguati quando sono distorti da questi zeri. Concentrarsi su misurazioni diverse da zero rimuove anche i veri zeri che sono estremamente importanti. I modelli a zero zero per i dati di conteggio sono ben sviluppati, ma non adatti al mio caso.

Ho preso in considerazione l'idea di adattare una distribuzione Tweedie ai dati e quindi di inserire un glm in response = f (subset_label). Teoricamente, questo sembra fattibile, ma mi chiedo se (a) sia eccessivo e (b) supporterebbe ancora implicitamente che tutti gli zeri sono zeri campione, cioè sarebbero distorti allo stesso modo (nella migliore delle ipotesi) come una permutazione?

Intuitivamente, sembra che abbia una sorta di disegno gerarchico che combina una statistica binomiale basata sulla proporzione di zeri e, diciamo, una statistica di Wilcoxon calcolata su valori diversi da zero (o, meglio ancora, valori diversi da zero integrati con una frazione di zeri basati su alcuni precedenti). Sembra una rete bayesiana ...

Spero di non essere il primo ad avere questo problema, quindi sarei molto grato se potessi indicarmi idonee tecniche esistenti ...

Grazie molto!


Aggiornare. Finora, ho trovato questo documento su un problema simile al mio: maths.otago.ac.nz/home/downloads/david_fletcher/…
a11msp

Mi chiedo se questa approssimazione estremamente semplificata avrebbe senso, dato che gli zeri formano la maggioranza assoluta: 1) trova la proporzione di zeri in ciascun sottoinsieme. 2) supponiamo che nel sottoinsieme con il minor numero di zeri siano veri tutti gli zeri. 3) da ciascun sottoinsieme, rimuovere la proporzione di zeri uguale alla proporzione di zeri nel set di dati più "ricco di zero". 4) eseguire statistiche standard non parametriche su questo set di dati modificato.
a11msp

Il collegamento ipertestuale al documento nel tuo primo commento sembra essere morto. Puoi fornire una citazione invece?
coip

1
Grazie per averlo segnalato
a11msp

Risposte:


9

@msp, penso che tu stia guardando un modello a due stadi in quell'allegato (non ho avuto il tempo di leggerlo), ma i dati continui a zero inflazione sono il tipo con cui lavoro molto. Per adattare un modello parametrico a questi dati (per consentire i test di ipotesi) è possibile inserire due stadi ma poi si hanno due modelli (Y è il bersaglio e X sono covariate): P (Y = 0 | X) e P (Y | X; Y> 0). Devi usare la simulazione per "riunirli" insieme. Il libro di Gelmans (e il pacchetto arm in R) mostra questo processo per questo modello esatto (usando la regressione logistica e la regressione lineare ordinaria con un collegamento log).

L'altra opzione che ho visto e che mi piace di più è quella di adattare una regressione gamma gonfiata zero, che è la stessa di sopra (ma gamma dell'errore anziché guassiano) e puoi riunirli per test di ipotesi su P (Y | X) . Non so come farlo in R, ma puoi farlo in SAS NLMIXED. Vedi questo post , funziona bene.


@B_Miner, grazie mille per la tua risposta, scusa non ho abbastanza voti per votarti ... Daremo un'occhiata ai link! La mia unica preoccupazione per i modelli condizionali è che postulano che gli zeri non possono appartenere al secondo componente (continuo), vero? La mia impostazione non sembra un po 'più simile a un modello misto? Cosa ne pensi?
a11msp

Ora ho replicato l'approccio a due stadi proposto nel libro di Gelman. Se subset_factor (con 25 livelli) funge da etichetta del sottoinsieme, il primo passo è fit1 = glm (response ~ subset_factor, family = binomial); e il secondo passo è fit2 = lm (response ~ subset_factor, subset = response> 0). Posso quindi eseguire simulazioni mentre descrivono per ottenere la distribuzione dei valori di risposta adattati per ciascun livello di fattore. Tuttavia, non sono ancora sicuro di come tradurre questo in ciò di cui ho bisogno, che è (a) la probabilità che i coefficienti non siano zero e (b) il significato della differenza tra coefficienti a diversi livelli di fattore.
a11msp

L'approccio a due fasi (metodo Gelman di due modelli separati) presuppone due popolazioni, quelle a zero e quelle sopra.
B_Miner

... quindi sarebbe appropriato dire semplicemente che se l'impatto di un certo livello di fattore è significativo (e significativamente diverso da quello di un altro livello di fattore) in uno dei due modelli nel metodo Gelman, allora è complessivamente significativo?
a11msp

1
Sì, l'approccio a due stadi (metodo Gelman di due modelli separati) presuppone due popolazioni, quelle a zero e quelle> 0. Per quanto riguarda i test di ipotesi, puoi inquadrarli in termini di valori previsti per livelli variabili degli input e costruire empirici intervalli di confidenza relativi alle simulazioni per ciascuno? Per i test di ipotesi per il coefficiente! = 0, è necessario testarlo separatamente per entrambi i modelli.
B_Miner

2

Un approccio simile alla carta di Fletcher viene utilizzato nei test di marketing, in cui possiamo arbitrariamente separare gli effetti degli interventi (come la pubblicità) in (a) una variazione del numero di acquisto del marchio (ovvero la proporzione di zero) e (b) a cambiamento nella frequenza di acquisto della banda (le vendite date le vendite si verificano affatto). Questo è un approccio solido e concettualmente significativo nel contesto di marketing e nel contesto ecologico di cui Fletcher discute. In effetti, questo può essere esteso a (c) una modifica delle dimensioni di ogni acquisto.


Grazie! Mi chiedo se sei a conoscenza di un'implementazione esistente di questo?
a11msp,

1

È possibile trattare il numero esatto di zeri sconosciuto, ma vincolato tra 0 e il numero osservato di zeri. Questo può sicuramente essere gestito usando una formulazione bayesiana del modello. Forse un metodo di imputazione multipla può anche essere modificato per variare appropriatamente i pesi (tra 0 e 1) delle osservazioni zero ...

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.