Ad esempio, le persone spesso scelgono di usare un test non parametrico quando alcuni altri test suggeriscono che i residui non sono normalmente distribuiti. Questo approccio sembra abbastanza ampiamente accettato ma non sembra concordare con la prima frase di questo paragrafo. Speravo solo di avere chiarimenti su questo problema.
Sì, molte persone fanno questo genere di cose e cambiano il loro secondo test in uno che può affrontare l'eteroschedasticità quando rifiutano l'uguaglianza di varianza, e così via.
Solo perché qualcosa è comune, non significa che sia necessariamente saggio.
In effetti, in alcuni luoghi (non nominerò le discipline più offensive) viene in effetti insegnata molta di questa verifica formale di ipotesi dipendente da altre prove formali di ipotesi.
Il problema nel farlo è che le tue procedure non hanno le loro proprietà nominali, a volte nemmeno vicine. (D'altra parte, supporre che cose del genere senza alcuna considerazione per una violazione potenzialmente estrema potrebbe essere anche peggio.)
Diversi articoli suggeriscono che per il caso eteroschedastico, stai meglio semplicemente comportandoti come se le varianze non siano uguali che provarlo e fare qualcosa al riguardo sul rifiuto.
Nel caso della normalità è meno chiaro. Almeno in grandi campioni, in molti casi la normalità non è poi così cruciale (ma ironicamente, con campioni di grandi dimensioni, è molto più probabile che il test di normalità venga respinto), purché la non normalità non sia troppo selvaggia. Un'eccezione è per gli intervalli di previsione, in cui hai davvero bisogno che la tua ipotesi distributiva sia vicina alla destra.
In parte, un problema è che i test di ipotesi rispondono a una domanda diversa da quella a cui è necessario rispondere. Non hai davvero bisogno di sapere "i dati sono veramente normali" (quasi sempre, non sarà esattamente normale a priori ). La domanda è piuttosto: "quanto la portata della non normalità avrà un impatto sulla mia inferenza".
Il secondo problema di solito è indipendente dalla dimensione del campione o in realtà migliora con l'aumento della dimensione del campione, ma i test di ipotesi saranno quasi sempre respinti a grandi dimensioni del campione.
Ci sono molte situazioni in cui esistono procedure solide o addirittura senza distribuzione che sono molto vicine alla piena efficienza anche al normale (e potenzialmente molto più efficienti in alcune partenze abbastanza modeste da esso) - in molti casi sembrerebbe sciocco non prendere il stesso approccio prudente.