Verifica la differenza tra 2 distribuzioni empiriche discrete


14

Ho dati di test in cui ho diversi campioni di grandi dimensioni da distribuzioni discrete che sto usando come distribuzioni empiriche. Voglio verificare se le distribuzioni sono effettivamente diverse e quale sia la differenza nei mezzi per quelle distribuzioni che sono effettivamente diverse.

Dato che sono distribuzioni discrete, la mia comprensione è che il test di Kolmogorov-Smirnov non è valido a causa del presupposto di distribuzione continua sottostante. Il test Chi-Squared sarebbe il test corretto per stabilire se le distribuzioni sono effettivamente diverse?

Quale test dovrei usare per la differenza di mezzi? Un approccio migliore sarebbe quello di campionare dalle distribuzioni e prendere la differenza e quindi eseguire analisi sulla distribuzione della differenza?


Sì, il test è quello corretto. La risposta accettata a questa domanda approfondisce ciò. distribuzione 1 = urna 1 e distribuzione 2 = urna 2 . Lì, i valori delle variabili casuali sono colori e nel tuo caso probabilmente qualcos'altro, ad esempio numeri discreti. χ2
Georg Schnabel,

Grazie per il feedback. Esiste un test per cosa significa la differenza quando il test chi-quadrato conferma che le distribuzioni sono diverse?
Wallhood

Un approccio migliore sarebbe quello di campionare dalle distribuzioni e prendere la differenza e quindi eseguire analisi sulla differenza?
Wallhood

Risposte:


13

1) Il Kolmogorov-Smirnov può ancora essere usato, ma se si usano i valori critici tabulati sarà conservativo (il che è solo un problema perché abbassa la curva di potenza). Meglio ottenere la distribuzione delle permutazioni della statistica, in modo che i livelli di significatività siano quelli che scegli di essere. Questo farà una grande differenza solo se ci sono molti legami. Questo cambiamento è davvero facile da implementare. (Ma il test KS non è il solo possibile tale confronto; se si stanno comunque calcolando le distribuzioni di permutazione, ci sono altre possibilità.)

2) bontà chi-quadro di vaniglia dei test di adattamento per dati discreti è generalmente, a mio avviso, una pessima idea. Se la potenziale perdita di potenza sopra menzionata ti ha impedito di usare il test KS, il problema con il chi-quadrato è spesso molto peggio - elimina le informazioni più critiche, che è l'ordinamento tra le categorie (i valori di osservazione), sgonfiando la sua potenza diffondendolo su alternative che non considerano l'ordinamento, quindi è peggio nel rilevare alternative fluide, come ad esempio uno spostamento di posizione e scala). Anche con i cattivi effetti dei legami pesanti sopra, il test KS in molti casi ha ancora una potenza migliore (pur riducendo il tasso di errore di tipo I).

Il chi-quadrato può anche essere modificato per tener conto dell'ordinamento (suddividere il chisquare in componenti lineari, quadratici, cubici ecc. Tramite polinomi ortogonali e utilizzare solo pochi termini di ordine inferiore: da 4 a 6 sono scelte comuni). Gli articoli di Rayner e Best (e altri) discutono di questo approccio, che nasce dai test regolari di Neyman-Barton. Questo è un buon approccio, ma se non si ha accesso al software per questo, potrebbe richiedere una piccola configurazione.

Entrambi gli approcci modificati dovrebbero andare bene, ma se non modificherai nessuno dei due approcci, non è necessariamente il caso in cui il chi-quadro sarà migliore del test KS - in alcune situazioni potrebbe essere migliore ... oppure potrebbe essere sostanzialmente peggio.

Se i legami non sono pesanti (cioè ci sono molti valori diversi presi dai dati), considererei il KS così com'è. Se sono moderati, cercherei di calcolare la distribuzione della permutazione. Se sono molto pesanti (ovvero i dati assumono solo pochi valori diversi), il semplice chi-quadrato può essere competitivo.


Grazie per l'avvertimento. Lo prenderò in considerazione quando deciderò di usare il test KS o il Chi-Squared
Wallhood
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.