Gradirei molto i tuoi consigli sul seguente problema:
Ho un ampio set di dati continuo con molti zeri (~ 95%) e ho bisogno di trovare il modo migliore per testare se alcuni sottoinsiemi sono "interessanti", cioè non sembrano essere tratti dalla stessa distribuzione di il riposo. L'inflazione zero deriva dal fatto che ogni punto dati si basa su una misurazione del conteggio con zeri sia reali che di campionamento, ma il risultato è continuo in quanto tiene conto di alcuni altri parametri ponderati dal conteggio (e quindi se il conteggio è zero, il risultato è anche zero).
Quale sarebbe il modo migliore per farlo? Ho la sensazione che Wilcoxon e persino i test di permutazione della forza bruta siano inadeguati quando sono distorti da questi zeri. Concentrarsi su misurazioni diverse da zero rimuove anche i veri zeri che sono estremamente importanti. I modelli a zero zero per i dati di conteggio sono ben sviluppati, ma non adatti al mio caso.
Ho preso in considerazione l'idea di adattare una distribuzione Tweedie ai dati e quindi di inserire un glm in response = f (subset_label). Teoricamente, questo sembra fattibile, ma mi chiedo se (a) sia eccessivo e (b) supporterebbe ancora implicitamente che tutti gli zeri sono zeri campione, cioè sarebbero distorti allo stesso modo (nella migliore delle ipotesi) come una permutazione?
Intuitivamente, sembra che abbia una sorta di disegno gerarchico che combina una statistica binomiale basata sulla proporzione di zeri e, diciamo, una statistica di Wilcoxon calcolata su valori diversi da zero (o, meglio ancora, valori diversi da zero integrati con una frazione di zeri basati su alcuni precedenti). Sembra una rete bayesiana ...
Spero di non essere il primo ad avere questo problema, quindi sarei molto grato se potessi indicarmi idonee tecniche esistenti ...
Grazie molto!