Temo che le domande correlate non abbiano risposto alle mie. Valutiamo le prestazioni di> 2 classificatori (apprendimento automatico). La nostra ipotesi nulla è che le prestazioni non differiscano. Eseguiamo test parametrici (ANOVA) e non parametrici (Friedman) per valutare questa ipotesi. Se sono significativi, vogliamo scoprire quali classificatori differiscono in una ricerca post-hoc.
La mia domanda è duplice:
1) È necessaria una correzione dei valori di p dopo test comparativi multipli? Il sito Wikipedia tedesco su "Alphafehler Kumulierung" afferma che il problema si verifica solo se vengono verificate più ipotesi sugli stessi dati. Quando si confrontano i classificatori (1,2), (1,3), (2,3), i dati si sovrappongono solo parzialmente. È ancora necessario correggere i valori p?
2) La correzione del valore P viene spesso utilizzata dopo il test a coppie con un test t. È necessario anche quando si eseguono test specialistici post-hoc, come il test Nemenyi (non parametrico) o HSD di Tukey? Questa risposta dice "no" per l'HSD di Tukey: il test HSD di Tukey è corretto per confronti multipli? . Esiste una regola o devo cercarla per ogni potenziale test post-hoc?
Grazie!