Test di Kolmogorov – Smirnov vs. test t


14

Sto incontrando qualche difficoltà a comprendere l'interpretazione del test KS a 2 campioni e come sia diverso da un test t regolare tra 2 gruppi.

Diciamo che ho maschi e femmine che svolgono un compito e raccolgo alcuni punteggi da quel compito. Il mio obiettivo finale è determinare se maschi e femmine svolgono in modo diverso quel compito

Quindi una cosa che potrei fare è eseguire il test tra i 2 gruppi. Un'altra cosa che potrei fare è calcolare l'ECDF per maschi e femmine, tracciarli e condurre il test KS a 2 campioni. Vorrei ottenere qualcosa del genere:

inserisci qui la descrizione dell'immagine

Test KS

L'ipotesi nulla per il test KS è che i 2 set di distribuzioni di punteggi continui provengano dalla stessa popolazione

Quando eseguo il test KS, ottengo: D = 0,18888, valore p = 0,04742

Innanzitutto, voglio verificare che la mia interpretazione dei risultati sia corretta. Qui, respingerei l'ipotesi nulla e direi che le distribuzioni di punteggi maschili e femminili provengono da popolazioni diverse. O in altre parole, la distribuzione dei punteggi maschili e femminili è diversa l'una dall'altra.

Più specificamente, i maschi tendono ad avere una maggiore probabilità di ottenere punteggi più bassi in questo compito, e questa è la differenza tra i 2 sessi mentre interpreto dalla trama

T-test

Ora al test testerà la differenza tra media maschile e femminile sulla variabile del punteggio.

Immaginiamo il caso in cui le prestazioni maschili sono peggiori delle femmine in questo compito. In tal caso, la distribuzione dei punteggi maschili sarà centrata su una media bassa, mentre la distribuzione dei punteggi femminili sarà centrata su una media alta. Questo scenario sarebbe in linea con la trama sopra, poiché i maschi avranno una maggiore probabilità di ottenere punteggi più bassi

Se il test t risulta essere significativo, vorrei concludere che il punteggio delle femmine, in media, è significativamente più alto rispetto ai maschi. O in termini di popolazione, i punteggi femminili sono tratti da una popolazione la cui media è superiore alla popolazione maschile, il che sembra molto simile alla conclusione KS secondo cui provengono da popolazioni diverse.

Qual è la differenza?

Quindi la conclusione che vorrei trarre in entrambi i casi di test KS e t è la stessa. I maschi si comportano male rispetto alle femmine. Quindi, qual è il vantaggio di utilizzare un test rispetto all'altro? Ci sono nuove conoscenze che puoi ottenere usando il test KS?

Per come la vedo io, i maschi con una distribuzione centrata su una media bassa e le femmine che centrano una media alta è ciò che causa il test t significativo. Ma per lo stesso fatto , i maschi avranno una maggiore probabilità di segnare valori più bassi, il che farebbe apparire la trama come sopra e dare un test KS significativo. Quindi i risultati di entrambi i test hanno la stessa causa sottostante, ma forse si potrebbe sostenere che un test KS prende in considerazione più del semplice mezzo delle distribuzioni e considera anche la forma della distribuzione, ma è possibile analizzare la causa del significativo test KS solo dai risultati del test?

Quindi qual è il valore nell'esecuzione di un test KS al test? E supponiamo che io possa soddisfare i presupposti del test t per questa domanda


Il t-test classico è in gran parte inferiore all'analisi dei dati bayesiani, controlla "La stima bayesiana di John Kruschke sostituisce il test t" indiana.edu/~kruschke/BEST/BEST.pdf
Vladislavs Dovgalecs

Non sono sicuro di come il test KS si collega ai metodi bayesiani ...?
Simon,

Basta smettere di usare KS e t-test
Vladislavs Dovgalecs il

4
@xeon Se hai intenzione di fare dichiarazioni così forti, è meglio supportarle. Il tuo consiglio non servirebbe a cogliere il tipo di differenza nell'esempio nella mia risposta. Perché si dovrebbe abbandonare un approccio che funzioni chiaramente nell'identificare questa differenza nelle distribuzioni a favore di una che non lo fa?
Glen_b

1
@Glen_b Ecco perché a ha scritto un commento, non una risposta. Può darsi che OP non abbia letto il documento che è ottimo tra l'altro; Volevo solo suggerirlo. Ma sono d'accordo sul fatto che ho fatto una dichiarazione troppo forte e mi sono comportato un po 'snob. Mi scuso per essere stato un po 'maleducato. Non succederà più.
Vladislavs Dovgalecs,

Risposte:


18

Come esempio del motivo per cui si desidera utilizzare i due test di Kolmogorov-Smirnov di esempio:

Immagina che i mezzi della popolazione fossero simili ma che le variazioni fossero molto diverse. Il test di Kolmogorov-Smirnov potrebbe rilevare questa differenza ma il test t non può.

Oppure immagina che le distribuzioni abbiano mezzi e sd simili ma i maschi hanno una distribuzione bimodale (rossa) mentre le femmine (blu) no:

inserisci qui la descrizione dell'immagine

I maschi e le femmine si comportano diversamente? Sì, i maschi tendono a segnare da qualche parte intorno a 7,5-8 o 12,5-13, mentre le femmine tendono più spesso a segnare più verso il centro (circa 10 o giù di lì) ma sono molto meno raggruppate su quel valore rispetto ai due valori i maschi tendono a segnare vicino a.

Quindi il Kolmogorov-Smirnov può trovare differenze di distribuzione molto più generali rispetto al t-test.


Ah, ha senso. Potrei estendere quella logica e dire che se un test t è significativo, allora anche il test KS sarà probabilmente significativo, tuttavia potrebbe essere dovuto alla differenza media e / o qualsiasi altra differenza nella distribuzione, rendendo così l'interpretazione del KS test difficile? Quindi un test KS è davvero utile solo nel caso in cui non ci sia differenza media tra 2 gruppi?
Simon,

Il test t è più sensibile alle differenze nella media (in particolare se le distribuzioni delle popolazioni sono vicine alla normale con una deviazione standard simile). Il test KS può essere più difficile da interpretare, ma non sarei d'accordo con la tua ultima frase. Potresti avere una piccola differenza nei mezzi che è accompagnata da altre differenze; il test t ha solo la differenza nei mezzi per informarlo, mentre il test KS può essere informato da altri tipi di differenze. Immagina l'esempio sopra, ma dove c'è anche un piccolo cambiamento nei mezzi; il test t potrebbe non rilevare la differenza con la stessa facilità del test KS.
Glen_b

@Glen_b: è quindi giusto dire che KS verifica se le distribuzioni sono uguali mentre il test t verifica se le distribuzioni hanno la stessa media?

@fcop Sì e no; dati i presupposti, e sotto il valore nullo, il t-test della varianza uguale ordinaria in realtà sta testando anche l'identità delle distribuzioni - è la generalità dell'alternativa (combinata con i presupposti) che li rende davvero diversi. Naturalmente possiamo (e generalmente fare) usare i test quando i loro presupposti non si applicano del tutto e quindi guardiamo più al loro comportamento sotto il nullo e l'alternativa; il t-test tenderà ad essere sensibile a un cambiamento di media in alternativa, mentre il KS è piuttosto sensibile a una classe molto ampia di alternative.
Glen_b
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.