Sto confrontando le prestazioni di più algoritmi su più set di dati. Poiché non è garantito che tali misurazioni delle prestazioni siano distribuite normalmente, ho scelto il Friedman Test con il test post-hoc Nemenyi basato su Demšar (2006) .
Ho quindi trovato un altro documento che, oltre a suggerire altri metodi come il test Quade con il successivo test post-hoc di Shaffer, applicano il test Nemenyi in modo diverso.
Come posso applicare correttamente il test post-hoc Nemenyi?
1. Utilizzando la statistica dell'intervallo studentizzato?
Nel documento di Demšar si dice che rifiuta l'ipotesi nulla (nessuna differenza di prestazioni di due algoritmi) se la differenza di rango media è maggiore del CD della distanza critica con
"dove i valori critici qα si basano sulla statistica dell'intervallo studentizzato divisa per "
Dopo alcuni scavi ho scoperto che è possibile cercare quei "valori critici" per determinati alfa, ad esempio in una tabella per , per infiniti gradi di libertà (nella parte inferiore di ogni tabella).
2. o stai usando la distribuzione normale?
Proprio quando pensavo di sapere cosa fare, ho trovato un altro documento che mi ha confuso di nuovo, perché stavano usando solo la distribuzione normale. Demšar afferma una cosa simile a pagina 12:
Le statistiche del test per confrontare l'i-esimo e il j-esimo classificatore usando questi metodi sono Il valore z viene utilizzato per trovare la probabilità corrispondente dalla tabella della distribuzione normale, che viene quindi confrontata con un appropriato . I test differiscono nel modo in cui regolano il valore di per compensare confronti multipli.
A questo paragrafo stava parlando di confrontare tutti gli algoritmi con un algoritmo di controllo, ma l'osservazione "differiscono nel modo in cui si adattano ... per compensare i confronti multipli" suggerisce che ciò dovrebbe valere anche per il test Nemenyi.
Quindi ciò che mi sembra logico è calcolare il valore p in base alla statistica test , che è normalmente distribuita, e correggerlo dividendo per .
Tuttavia, ciò produce differenze di rango completamente diverse in base alle quali rifiutare l'ipotesi nulla. E ora sono bloccato e non so quale metodo applicare. Sono fortemente incline a quello che usa la distribuzione normale , perché per me è più semplice e logico. Inoltre, non ho bisogno di cercare valori nelle tabelle e non sono legato a determinati valori di significatività.
D'altra parte, non ho mai lavorato con la statistica dell'intervallo studentizzato e non lo capisco.