Il test di ipotesi è simile a un problema di classificazione. Quindi, diciamo, abbiamo 2 possibili etichette per un'osservazione (soggetto): colpevole contro non colpevole. Lascia che il non colpevole sia l'ipotesi nulla. Se considerassimo il problema dal punto di vista della classificazione, formeremmo un classificatore che predirebbe la probabilità del soggetto appartenente a ciascuna delle 2 classi, dati i dati. Vorremmo quindi scegliere la Classe con la massima probabilità. In tal caso 0,5 probabilità sarebbe la soglia naturale. Potremmo variare la soglia nel caso in cui abbiamo assegnato costi diversi a errori Falso positivo o Falso negativo. Ma raramente saremmo così estremi come impostare la soglia a 0,05, cioè assegnare il soggetto alla Classe "Colpevole" solo se la probabilità è 0,95 o superiore. Ma se capisco bene, questo è ciò che stiamo facendo come pratica standard quando consideriamo lo stesso problema di un test di ipotesi. In quest'ultimo caso, non assegneremo l'etichetta "Non colpevole" - equivalente all'assegnazione dell'etichetta "Colpevole" - solo se la probabilità di essere "Non colpevole" è inferiore al 5%. E forse questo potrebbe avere senso se vogliamo davvero evitare di condannare persone innocenti. Ma perché questa regola dovrebbe prevalere in tutti i domini e in tutti i casi?
Decidere quale ipotesi da adottare equivale a definire uno stimatore della verità dati i dati. Nella stima della massima verosimiglianza accettiamo l'ipotesi che è più probabile dato i dati - non necessariamente sebbene in modo schiacciante più probabile. Vedi il grafico qui sotto:
Usando un approccio di massima verosimiglianza favoriremmo l'ipotesi alternativa in questo esempio se il valore del predittore fosse superiore a 3, ad esempio 4, sebbene la probabilità che questo valore fosse derivato dall'ipotesi nulla sarebbe stata maggiore di 0,05.
E mentre l'esempio con cui ho iniziato il post è forse emotivamente carico, potremmo pensare ad altri casi, ad esempio un miglioramento tecnico. Perché dovremmo dare un tale vantaggio allo Status Quo quando i Dati ci dicono che la probabilità che la nuova soluzione sia un miglioramento è maggiore della probabilità che non lo sia?