Dovrei usare il test t su dati altamente distorti? Prova scientifica, per favore?


15

Ho campioni di un set di dati altamente distorto (che assomiglia a una distribuzione esponenziale) sulla partecipazione degli utenti (ad esempio: numero di post), che hanno dimensioni diverse (ma non meno di 200) e voglio confrontare la loro media. Per questo, sto usando t-test non accoppiati a due campioni (e t-test con il fattore di Welch, quando i campioni avevano varianze diverse). Come ho sentito, per campioni molto grandi, non importa che il campione non sia distribuito normalmente.

Qualcuno, rivedendo quello che ho fatto, ha affermato che i test che sto usando non erano adatti ai miei dati. Mi hanno suggerito di trasformare i miei campioni in log prima di usare i test t.

Sono un principiante, quindi mi sembra davvero confuso rispondere alle mie domande di ricerca con "registro della metrica di partecipazione".

Si sbagliano? Ho sbagliato? Se si sbagliano, c'è un libro o un articolo scientifico che potrei citare / mostrare loro? Se sbaglio, quale test dovrei usare?


1
Il test T ha una normale ipotesi di distribuzione csic.cornell.edu/Elrod/t-test/t-test-assumptions.html . Potresti pensare a quella distribuzione t che si avvicina alla normalità quando il campione è sufficientemente grande.
rdorlearn,

6
Che cosa significa "prova scientifica" in questo contesto?
Glen_b -Restate Monica

1
Ho pensato che il presupposto fosse che tutti i mezzi di tutti i possibili campioni di una certa popolazione dovrebbero essere normali. Quindi, dal CLT, sarebbe vero anche per il mio set di dati.
Milena Araujo,

1
prova scientifica = qualcosa di rilevante dal punto di vista accademico: un libro, un documento, ecc.
Milena Araujo,

Risposte:


36

Non definirei "esponenziale" particolarmente fortemente distorto. Il suo registro è chiaramente inclinato a sinistra, per esempio, e la sua inclinazione al momento è solo 2.

1) Usando il t-test con dati esponenziale e vicino 500 è n soddisfacente :

a) Il numeratore della statistica di prova dovrebbe andare bene: se i dati sono esponenziali indipendenti con scala comune (e non sostanzialmente più pesante di quello), allora le loro medie sono distribuite gamma con parametro di forma uguale al numero di osservazioni. La sua distribuzione sembra molto normale per un parametro di forma maggiore di circa 40 o giù di lì (a seconda di quanto lontano hai bisogno di precisione nella coda).

Questo è capace di prove matematiche, ma la matematica non è scienza. Puoi verificarlo empiricamente tramite simulazione, ovviamente, ma se sbagli sull'esponenzialità potresti aver bisogno di campioni più grandi. Ecco come appare la distribuzione delle somme di esempio (e quindi dei mezzi di campionamento) di dati esponenziali quando n = 40:

inserisci qui la descrizione dell'immagine

Leggermente inclinato. Questa asimmetria diminuisce come radice quadrata della dimensione del campione. Quindi a n = 160, è la metà di inclinazione. A n = 640 è un quarto di inclinazione:

inserisci qui la descrizione dell'immagine

Che questo sia effettivamente simmetrico può essere visto capovolgendolo sulla media e tracciandolo sopra:

inserisci qui la descrizione dell'immagine

Il blu è l'originale, il rosso è capovolto. Come vedi, sono quasi casuali.

-

b) Ancora più importante, la differenza di due di tali variabili distribuite gamma (come si otterrebbe con mezzi esponenziali) è più quasi normale, e sotto lo zero (che è dove ne hai bisogno) l'asimmetria sarà zero. Ecco che per :n=40

inserisci qui la descrizione dell'immagine

Cioè, il numeratore della statistica t è molto vicino alla norma con dimensioni del campione molto inferiori a .n=500

-

c) Ciò che conta davvero, tuttavia, è la distribuzione dell'intera statistica sotto il nulla. La normalità del numeratore non è sufficiente per fare in modo che la statistica t abbia una distribuzione t. Tuttavia, nel caso dei dati esponenziali, anche questo non è un grosso problema:

inserisci qui la descrizione dell'immagine

La curva rossa è la distribuzione della statistica t con df = 78, l'istogramma è ciò che ti dà il test t di Welch su campioni esponenziali (sotto il valore nullo della media uguale; l'attuale gradi di libertà di Welch-Satterthwaite in un dato campione tenderà ad essere leggermente più piccolo di 78). In particolare, le aree di coda nella regione del tuo livello di significatività dovrebbero essere simili (a meno che tu non abbia dei livelli di significatività molto insoliti, lo sono). Ricorda, questo è , non . È molto meglio a .n=40n=500n=500

Si noti, tuttavia, che per i dati effettivamente esponenziali, la deviazione standard sarà diversa solo se i mezzi sono diversi. Se la presunzione esponenziale è il caso, quindi sotto il nulla, non è necessario preoccuparsi delle diverse variazioni della popolazione, poiché si verificano solo in alternativa. Quindi un test t per la varianza uguale dovrebbe ancora essere corretto (nel qual caso la buona approssimazione sopra riportata nell'istogramma potrebbe anche essere leggermente migliore).


2) Prendere i registri può comunque permetterti di dargli un senso

Se il valore nullo è vero e hai distribuzioni esponenziali, stai testando l'uguaglianza dei parametri di scala. La verifica della posizione dei mezzi dei registri verificherà l'uguaglianza dei registri dei parametri di scala rispetto a un'alternativa di spostamento della posizione nei registri (modifica della scala nei valori originali). Se concludi che in un test di posizione nei log, è logicamente lo stesso che concludere che . Quindi testare i log con un test t funziona perfettamente come test dell'ipotesi originale .logλ1logλ2λ1λ2

[Se si esegue quel test nei registri, sarei propenso a suggerire di fare un test di uguale varianza in quel caso.]

Quindi - con il semplice intervento di forse una o due frasi che giustificano la connessione, simile a quello che ho sopra - dovresti essere in grado di scrivere le tue conclusioni non sul registro della metrica di partecipazione, ma sulla metrica di partecipazione stessa.


3) Ci sono molte altre cose che puoi fare!

a) è possibile eseguire un test adatto a dati esponenziali. È facile ricavare un test basato sul rapporto di verosimiglianza. Come accade, per i dati esponenziali si ottiene un test F di piccolo campione (basato su un rapporto di mezzi) per questa situazione in un caso a coda singola; il LRT a due code non avrebbe generalmente una proporzione uguale in ciascuna coda per campioni di piccole dimensioni. (Questo dovrebbe avere una potenza migliore rispetto al test t, ma il potere per il test t dovrebbe essere abbastanza ragionevole e mi aspetto che non ci sia molta differenza nelle dimensioni del campione.)

b) puoi fare un test di permutazione - se vuoi, basalo anche sul test t. Quindi l'unica cosa che cambia è il calcolo del valore p. Oppure potresti fare qualche altro test di ricampionamento come un test basato su bootstrap. Questo dovrebbe avere un buon potere, anche se dipenderà in parte dalla statistica test che scegli in relazione alla distribuzione che hai.

c) è possibile eseguire un test non parametrico basato sul rango (come Wilcoxon-Mann-Whitney). Se si presume che se le distribuzioni differiscono, differiscono solo per un fattore di scala (appropriato per una varietà di distribuzioni distorte, incluso l'esponenziale), è anche possibile ottenere un intervallo di confidenza per il rapporto dei parametri di scala.

[A tale scopo, suggerirei di lavorare sulla scala dei registri (lo spostamento della posizione nei registri è il registro dello spostamento della scala). Non cambierà il valore p, ma ti permetterà di esponenziare la stima del punto e i limiti CI per ottenere un intervallo per lo spostamento della scala.]

Anche questo dovrebbe tendere ad avere un buon potere se ti trovi in ​​una situazione esponenziale, ma probabilmente non è buono come usare il test t.


Un riferimento che considera una serie considerevolmente più ampia di casi per l' alternativa di spostamento di posizione (con varianza ed eterogeneità di asimmetria sotto il nulla, per esempio) è

Fagerland, MW e L. Sandvik (2009),
"Esecuzione di cinque test di localizzazione a due campioni per distribuzioni distorte con varianze ineguali",
Contemporary Clinical Trials , 30 , 490–496

In genere tende a raccomandare il test U Welch (uno in particolare tra i numerosi test considerati da Welch e l'unico testato). Se non stai usando esattamente la stessa statistica Welch, le raccomandazioni possono variare leggermente (anche se probabilmente non di molto). [Nota che se le tue distribuzioni sono esponenziali sei interessato a un'alternativa di scala a meno che tu non prenda registri ... nel qual caso non avrai varianze disuguali.]


4
Bella risposta! Sono rimasto davvero sbalordito da quante informazioni hai raccolto in un singolo post
Christian Sauer il

@Glen_b, questa è una risposta fantastica! Grazie mille. Ancora un'altra domanda: i miei campioni provengono dallo stesso set di dati. Voglio confrontare i campioni di utenti con la caratteristica X e gli utenti con le caratteristiche Y. I campioni per gli utenti X sono circa ~ 500 e i campioni per gli utenti Y sono circa ~ 10000. C'è un'enorme differenza nelle dimensioni, ma non sembra avere una grande differenza nella loro forma (guardando i grafici di densità e probabilità). Sarebbe comunque un problema usare i test t?
Milena Araujo,

Quando dici "enorme differenza nelle dimensioni" stai parlando della dimensione del campione (10000 vs 500) o dei valori tipici all'interno di ciascun gruppo? (Per inciso, sono continui o discreti? Quanto sono piccoli i valori minimi tipici per questo tipo di dati? I registri hanno una forma simile - ovvero è solo uno spostamento di scala che stiamo prendendo in considerazione?)
Glen_b -Reinstate Monica

1
Potresti stare meglio con una tabella per dati del genere. Le informazioni critiche sono che non è solo discreto ma che quasi tutti i valori sono nel numero più basso di domande. Se traccia un istogramma, disegnalo senza le oscillazioni e assicurati che tutti i valori bassi siano separati (barre per ciascuno di 0, 1, 2, non combinandole). È meglio tagliare la destra e allargare maggiormente la sinistra (dove si trovano quasi tutti i dati), purché si chiarisca che c'è più sulla destra se si taglia via. Includi informazioni su cosa stai misurando e cosa stai cercando di ottenere ... (ctd)
Glen_b -Reinstate Monica

1
@ScottH parte 1.c della mia risposta affronta esplicitamente questo aspetto e guarda quanto conta nel caso in discussione (distribuzione esponenziale approssimativa a campioni simili)
Glen_b -Reinstate Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.