Come applicare correttamente il test post-hoc Nemenyi dopo il test di Friedman


11

Sto confrontando le prestazioni di più algoritmi su più set di dati. Poiché non è garantito che tali misurazioni delle prestazioni siano distribuite normalmente, ho scelto il Friedman Test con il test post-hoc Nemenyi basato su Demšar (2006) .

Ho quindi trovato un altro documento che, oltre a suggerire altri metodi come il test Quade con il successivo test post-hoc di Shaffer, applicano il test Nemenyi in modo diverso.

Come posso applicare correttamente il test post-hoc Nemenyi?

1. Utilizzando la statistica dell'intervallo studentizzato?

Nel documento di Demšar si dice che rifiuta l'ipotesi nulla (nessuna differenza di prestazioni di due algoritmi) se la differenza di rango media è maggiore del CD della distanza critica con

CD=qαk(k+1)6N

"dove i valori critici qα si basano sulla statistica dell'intervallo studentizzato divisa per 2. "

Dopo alcuni scavi ho scoperto che è possibile cercare quei "valori critici" per determinati alfa, ad esempio in una tabella per α=0.05 , per infiniti gradi di libertà (nella parte inferiore di ogni tabella).

2. o stai usando la distribuzione normale?

Proprio quando pensavo di sapere cosa fare, ho trovato un altro documento che mi ha confuso di nuovo, perché stavano usando solo la distribuzione normale. Demšar afferma una cosa simile a pagina 12:

Le statistiche del test per confrontare l'i-esimo e il j-esimo classificatore usando questi metodi sono Il valore z viene utilizzato per trovare la probabilità corrispondente dalla tabella della distribuzione normale, che viene quindi confrontata con un appropriato . I test differiscono nel modo in cui regolano il valore di per compensare confronti multipli.

z=(RiRj)k(k+1)6N
αα

A questo paragrafo stava parlando di confrontare tutti gli algoritmi con un algoritmo di controllo, ma l'osservazione "differiscono nel modo in cui si adattano ... per compensare i confronti multipli" suggerisce che ciò dovrebbe valere anche per il test Nemenyi.

Quindi ciò che mi sembra logico è calcolare il valore p in base alla statistica test , che è normalmente distribuita, e correggerlo dividendo per .zk(k1)/2

Tuttavia, ciò produce differenze di rango completamente diverse in base alle quali rifiutare l'ipotesi nulla. E ora sono bloccato e non so quale metodo applicare. Sono fortemente incline a quello che usa la distribuzione normale , perché per me è più semplice e logico. Inoltre, non ho bisogno di cercare valori nelle tabelle e non sono legato a determinati valori di significatività.

D'altra parte, non ho mai lavorato con la statistica dell'intervallo studentizzato e non lo capisco.

Risposte:


5

Ho anche appena iniziato a guardare questa domanda.

Come accennato in precedenza, quando utilizziamo la distribuzione normale per calcolare i valori p per ciascun test, questi valori p non tengono conto di più test. Per correggerlo e controllare il tasso di errore a livello familiare, abbiamo bisogno di alcune modifiche. Bonferonni, ovvero dividere il livello di significatività o moltiplicare i valori p grezzi per il numero di test, è solo una possibile correzione. Esistono molte altre correzioni multiple del valore p dei test che in molti casi sono meno conservative.

Queste correzioni del valore p non tengono conto della struttura specifica dei test di ipotesi.

Conosco meglio il confronto a coppie dei dati originali invece dei dati trasformati di rango come nei test di Kruskal-Wallis o Friedman. In quel caso, che è il test Tukey HSD, la statistica del test per il confronto multiplo viene distribuita in base alla distribuzione dell'intervallo studentizzato, che è la distribuzione per tutti i confronti a coppie sotto l'ipotesi di campioni indipendenti. Si basa sulle probabilità della distribuzione normale multivariata che potrebbero essere calcolate mediante integrazione numerica ma di solito sono utilizzate dalle tabelle.

La mia ipotesi, dal momento che non conosco la teoria, è che la distribuzione degli intervalli studentizzata può essere applicata al caso dei test di rango in modo simile a quello dei confronti HSD Tukey a coppie.

Pertanto, l'utilizzo della (2) distribuzione normale più il collaudo multiplo delle correzioni del valore p e l'uso della (1) distribuzione dell'intervallo studentizzato sono due modi diversi per ottenere una distribuzione approssimativa delle statistiche del test. Tuttavia, se i presupposti per l'uso della distribuzione dell'intervallo studentizzato sono soddisfatti, allora dovrebbe fornire una migliore approssimazione poiché è progettato per il problema specifico di tutti i confronti a coppie.


1

Per quanto ne so, confrontando solo 2 algoritmi, Demšar suggerisce il test di rango firmato Wilcoxon piuttosto che Friedman + posthoc. Purtroppo, sono confuso quanto te quando si tratta di decifrare cosa dovrebbe significare la divisione di Demšar per k-1.


1
La divisione per (k-1) avviene quando si confrontano più algoritmi con un metodo di controllo. Ma questo è uno contro uno, quindi NxN. La parte di divisione che posso capire, ma la relazione con la distribuzione del raggio Studentized è oltre la mia comprensione.
Sentinella,

@Sentry: qui devi moltiplicare per il fattore di aggiustamento, non moltiplicare. Si prega di vedere la mia risposta sopra.
Chris,

0

Mi sono anche imbattuto nella questio se calcolare il valore p da una distribuzione t normale o studentizzata. Sfortunatamente, non riesco ancora a rispondere, perché documenti diversi comunicano metodi diversi.

Tuttavia, per calcolare i valori p corretti, è necessario moltiplicare il valore p non corretto per il fattore di regolazione, ad esempio p * (k-1) in caso di confronto con un metodo di controllo o p * ((k * (k-1 )) / 2) per confronti di nxn.

Quello che dovresti dividere per il fattore di aggiustamento è il valore alfa, se confrontato con i p non aggiustati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.