Non definirei "esponenziale" particolarmente fortemente distorto. Il suo registro è chiaramente inclinato a sinistra, per esempio, e la sua inclinazione al momento è solo 2.
1) Usando il t-test con dati esponenziale e vicino 500 è n soddisfacente :
a) Il numeratore della statistica di prova dovrebbe andare bene: se i dati sono esponenziali indipendenti con scala comune (e non sostanzialmente più pesante di quello), allora le loro medie sono distribuite gamma con parametro di forma uguale al numero di osservazioni. La sua distribuzione sembra molto normale per un parametro di forma maggiore di circa 40 o giù di lì (a seconda di quanto lontano hai bisogno di precisione nella coda).
Questo è capace di prove matematiche, ma la matematica non è scienza. Puoi verificarlo empiricamente tramite simulazione, ovviamente, ma se sbagli sull'esponenzialità potresti aver bisogno di campioni più grandi. Ecco come appare la distribuzione delle somme di esempio (e quindi dei mezzi di campionamento) di dati esponenziali quando n = 40:
Leggermente inclinato. Questa asimmetria diminuisce come radice quadrata della dimensione del campione. Quindi a n = 160, è la metà di inclinazione. A n = 640 è un quarto di inclinazione:
Che questo sia effettivamente simmetrico può essere visto capovolgendolo sulla media e tracciandolo sopra:
Il blu è l'originale, il rosso è capovolto. Come vedi, sono quasi casuali.
-
b) Ancora più importante, la differenza di due di tali variabili distribuite gamma (come si otterrebbe con mezzi esponenziali) è più quasi normale, e sotto lo zero (che è dove ne hai bisogno) l'asimmetria sarà zero. Ecco che per :n = 40
Cioè, il numeratore della statistica t è molto vicino alla norma con dimensioni del campione molto inferiori a .n = 500
-
c) Ciò che conta davvero, tuttavia, è la distribuzione dell'intera statistica sotto il nulla. La normalità del numeratore non è sufficiente per fare in modo che la statistica t abbia una distribuzione t. Tuttavia, nel caso dei dati esponenziali, anche questo non è un grosso problema:
La curva rossa è la distribuzione della statistica t con df = 78, l'istogramma è ciò che ti dà il test t di Welch su campioni esponenziali (sotto il valore nullo della media uguale; l'attuale gradi di libertà di Welch-Satterthwaite in un dato campione tenderà ad essere leggermente più piccolo di 78). In particolare, le aree di coda nella regione del tuo livello di significatività dovrebbero essere simili (a meno che tu non abbia dei livelli di significatività molto insoliti, lo sono). Ricorda, questo è , non . È molto meglio a .n = 40n = 500n = 500
Si noti, tuttavia, che per i dati effettivamente esponenziali, la deviazione standard sarà diversa solo se i mezzi sono diversi. Se la presunzione esponenziale è il caso, quindi sotto il nulla, non è necessario preoccuparsi delle diverse variazioni della popolazione, poiché si verificano solo in alternativa. Quindi un test t per la varianza uguale dovrebbe ancora essere corretto (nel qual caso la buona approssimazione sopra riportata nell'istogramma potrebbe anche essere leggermente migliore).
2) Prendere i registri può comunque permetterti di dargli un senso
Se il valore nullo è vero e hai distribuzioni esponenziali, stai testando l'uguaglianza dei parametri di scala. La verifica della posizione dei mezzi dei registri verificherà l'uguaglianza dei registri dei parametri di scala rispetto a un'alternativa di spostamento della posizione nei registri (modifica della scala nei valori originali). Se concludi che in un test di posizione nei log, è logicamente lo stesso che concludere che . Quindi testare i log con un test t funziona perfettamente come test dell'ipotesi originale .logλ1≠ logλ2λ1≠ λ2
[Se si esegue quel test nei registri, sarei propenso a suggerire di fare un test di uguale varianza in quel caso.]
Quindi - con il semplice intervento di forse una o due frasi che giustificano la connessione, simile a quello che ho sopra - dovresti essere in grado di scrivere le tue conclusioni non sul registro della metrica di partecipazione, ma sulla metrica di partecipazione stessa.
3) Ci sono molte altre cose che puoi fare!
a) è possibile eseguire un test adatto a dati esponenziali. È facile ricavare un test basato sul rapporto di verosimiglianza. Come accade, per i dati esponenziali si ottiene un test F di piccolo campione (basato su un rapporto di mezzi) per questa situazione in un caso a coda singola; il LRT a due code non avrebbe generalmente una proporzione uguale in ciascuna coda per campioni di piccole dimensioni. (Questo dovrebbe avere una potenza migliore rispetto al test t, ma il potere per il test t dovrebbe essere abbastanza ragionevole e mi aspetto che non ci sia molta differenza nelle dimensioni del campione.)
b) puoi fare un test di permutazione - se vuoi, basalo anche sul test t. Quindi l'unica cosa che cambia è il calcolo del valore p. Oppure potresti fare qualche altro test di ricampionamento come un test basato su bootstrap. Questo dovrebbe avere un buon potere, anche se dipenderà in parte dalla statistica test che scegli in relazione alla distribuzione che hai.
c) è possibile eseguire un test non parametrico basato sul rango (come Wilcoxon-Mann-Whitney). Se si presume che se le distribuzioni differiscono, differiscono solo per un fattore di scala (appropriato per una varietà di distribuzioni distorte, incluso l'esponenziale), è anche possibile ottenere un intervallo di confidenza per il rapporto dei parametri di scala.
[A tale scopo, suggerirei di lavorare sulla scala dei registri (lo spostamento della posizione nei registri è il registro dello spostamento della scala). Non cambierà il valore p, ma ti permetterà di esponenziare la stima del punto e i limiti CI per ottenere un intervallo per lo spostamento della scala.]
Anche questo dovrebbe tendere ad avere un buon potere se ti trovi in una situazione esponenziale, ma probabilmente non è buono come usare il test t.
Un riferimento che considera una serie considerevolmente più ampia di casi per l' alternativa di spostamento di posizione (con varianza ed eterogeneità di asimmetria sotto il nulla, per esempio) è
Fagerland, MW e L. Sandvik (2009),
"Esecuzione di cinque test di localizzazione a due campioni per distribuzioni distorte con varianze ineguali",
Contemporary Clinical Trials , 30 , 490–496
In genere tende a raccomandare il test U Welch (uno in particolare tra i numerosi test considerati da Welch e l'unico testato). Se non stai usando esattamente la stessa statistica Welch, le raccomandazioni possono variare leggermente (anche se probabilmente non di molto). [Nota che se le tue distribuzioni sono esponenziali sei interessato a un'alternativa di scala a meno che tu non prenda registri ... nel qual caso non avrai varianze disuguali.]