Perché rifiutiamo l'ipotesi nulla a livello 0,05 e non a livello 0,5 (come facciamo nella classificazione)


11

Il test di ipotesi è simile a un problema di classificazione. Quindi, diciamo, abbiamo 2 possibili etichette per un'osservazione (soggetto): colpevole contro non colpevole. Lascia che il non colpevole sia l'ipotesi nulla. Se considerassimo il problema dal punto di vista della classificazione, formeremmo un classificatore che predirebbe la probabilità del soggetto appartenente a ciascuna delle 2 classi, dati i dati. Vorremmo quindi scegliere la Classe con la massima probabilità. In tal caso 0,5 probabilità sarebbe la soglia naturale. Potremmo variare la soglia nel caso in cui abbiamo assegnato costi diversi a errori Falso positivo o Falso negativo. Ma raramente saremmo così estremi come impostare la soglia a 0,05, cioè assegnare il soggetto alla Classe "Colpevole" solo se la probabilità è 0,95 o superiore. Ma se capisco bene, questo è ciò che stiamo facendo come pratica standard quando consideriamo lo stesso problema di un test di ipotesi. In quest'ultimo caso, non assegneremo l'etichetta "Non colpevole" - equivalente all'assegnazione dell'etichetta "Colpevole" - solo se la probabilità di essere "Non colpevole" è inferiore al 5%. E forse questo potrebbe avere senso se vogliamo davvero evitare di condannare persone innocenti. Ma perché questa regola dovrebbe prevalere in tutti i domini e in tutti i casi?

Decidere quale ipotesi da adottare equivale a definire uno stimatore della verità dati i dati. Nella stima della massima verosimiglianza accettiamo l'ipotesi che è più probabile dato i dati - non necessariamente sebbene in modo schiacciante più probabile. Vedi il grafico qui sotto:

inserisci qui la descrizione dell'immagine

Usando un approccio di massima verosimiglianza favoriremmo l'ipotesi alternativa in questo esempio se il valore del predittore fosse superiore a 3, ad esempio 4, sebbene la probabilità che questo valore fosse derivato dall'ipotesi nulla sarebbe stata maggiore di 0,05.

E mentre l'esempio con cui ho iniziato il post è forse emotivamente carico, potremmo pensare ad altri casi, ad esempio un miglioramento tecnico. Perché dovremmo dare un tale vantaggio allo Status Quo quando i Dati ci dicono che la probabilità che la nuova soluzione sia un miglioramento è maggiore della probabilità che non lo sia?


1
Fondamentalmente si basa sulla visione di RA Fisher delle statistiche come uno strumento scientifico (credete a un'ipotesi alla volta, fino a quando non avrete prove sufficienti contro di essa) e la sua esperienza secondo cui deviazioni standard sembravano fornire un utile equilibrio tra il rifiuto troppo frequente dell'ipotesi nulla e non abbastanza spesso2
Henry,

1
L'OP ha ragione sul fatto che la premessa è imperfetta qui, non c'è nulla nella classica procedura NHST che ci richiede di respingere al 5%. Questo è un fenomeno culturale di valore discutibile.
Matthew Drury,

1
@Matthew Drury: "scegliere le persone alte per le squadre di basket" non è imperfetto come strategia solo perché non include l' altezza come regola precisa. Sebbene ci siano molti altri problemi, come sai, consentire all'utente di scegliere dove tracciare la linea è probabilmente una caratteristica di NHST. La mia avversione al rischio non escludeva i recenti viaggi a Parigi o Londra, ma escludeva le visite in molti paesi: altre persone avrebbero tracciato la linea in modo diverso. Concordo sul fatto che esiste un fenomeno culturale [sic] in quanto gruppi diversi hanno convenzioni diverse su quando rifiutare le ipotesi.
Nick Cox,

Non sono sicuro di cosa stai leggendo nel mio commento Nick. Suppongo che avrei dovuto essere più chiaro. Vorrei solo che la gente pensasse di più a stabilire soglie specifiche del problema.
Matthew Drury,

Sembra che tu stia dicendo che NHST è difettoso perché non implica un livello di rifiuto specifico. Sono d'accordo con te su soglie specifiche del problema.
Nick Cox,

Risposte:


17

Di 'che finisci in tribunale e non l'hai fatto. Pensi che sia giusto che tu abbia ancora il 50% di probabilità di essere dichiarato colpevole? Una probabilità del 50% di essere innocente è "colpevole oltre ogni ragionevole dubbio"? Pensi che sia giusto che tu abbia avuto una probabilità del 5% di essere dichiarato colpevole anche se non l'hai fatto? Se fossi in tribunale considererei il 5% non abbastanza conservatore.

Hai ragione che il 5% è arbitrario. Potremmo anche scegliere il 2%, o l'1%, o se sei nerd % o %. Ci sono persone che sono disposte ad accettare il 10%, ma il 50% non sarà mai accettabile.eπe


In risposta alla modifica della domanda:

La tua idea sarebbe ragionevole se tutte le ipotesi fossero uguali. Tuttavia, non è così. In genere ci preoccupiamo dell'ipotesi alternativa, quindi rafforziamo la nostra argomentazione se scegliamo un basso . In tal senso, l'esempio che hai scelto in origine illustra bene questo punto.α


6
+1 "il 5% è arbitrario". Statistico in Academia: "insegniamo perché è quello che usano nell'industria". Statistico nell'industria: "usiamo perché è quello che ci è stato insegnato all'università". α = 0,05α=0.05α=0.05
Knrumsey,

8

È come dici tu - dipende da quanto sono importanti gli errori Falso positivo e Falso negativo.

Nell'esempio che usi, come ha già risposto Maarten Buis, essere condannato se c'è una probabilità del 50% di essere innocente non è giusto.

Quando lo applichi alla ricerca, guarda in questo modo: immagina di voler sapere se un certo nuovo farmaco aiuta contro una determinata malattia. Supponi di trovare una differenza tra il tuo gruppo di trattamento e il tuo gruppo di controllo a favore del trattamento. Grande! La medicina deve funzionare, vero? È possibile rifiutare l'ipotesi nulla che il farmaco non funzioni. Il tuo valore p è 0.49! C'è una maggiore possibilità che l'effetto che hai trovato fosse basato sulla verità piuttosto che per caso!
Ora considera questo: il farmaco ha effetti negativi negativi. Vuoi prenderlo solo se sei convinto che funzioni. E sei tu? No, perché c'è ancora una probabilità del 51% che la differenza che hai trovato tra i due gruppi fosse puramente casuale.

Posso immaginare che ci siano domini in cui sei soddisfatto, ad esempio il 10%. Ho visto articoli in cui è accettato il 10%. Ho visto anche articoli in cui hanno scelto il 2%. Dipende da quanto sia importante che tu sia convinto che il rifiuto dell'ipotesi nulla si baserà sulla verità e non sul caso. Riesco a malapena a immaginare una situazione in cui sei soddisfatto con una probabilità del 50% che la differenza che hai trovato fosse basata sulla pura fortuna.


5

Altre risposte hanno sottolineato che tutto dipende da come si valutano relativamente i diversi possibili errori e che in un contesto scientifico è potenzialmente abbastanza ragionevole, anche un criterio ancora più rigoroso è potenzialmente abbastanza ragionevole, ma che è improbabile che essere ragionevole. Questo è tutto vero, ma permettetemi di prendere questo in una direzione diversa e sfidare il presupposto che sta dietro la domanda. .50.05.50


Prendi "[h] test di ipotesi [per essere] affine a un problema di classificazione". L'apparente somiglianza qui è solo superficiale; questo non è veramente vero in un senso significativo.

In un problema di classificazione binaria, ci sono davvero solo due classi; che può essere stabilito assolutamente e a priori. I test di ipotesi non sono così. La tua figura mostra un'ipotesi nulla e alternativa in quanto sono spesso disegnate per illustrare un'analisi di potenza o la logica del test di ipotesi in una classe Stats 101. La figura implica che v'è un'ipotesi nulla e un'ipotesi alternativa. Mentre è (di solito) vero che esiste un solo null, l'alternativa non è fissata per essere un solo valore in punti della differenza media (dire). Quando pianificano uno studio, i ricercatori spesso selezionano un valore minimo che vogliono essere in grado di rilevare. Diciamo che in alcuni studi particolari si tratta di uno spostamento medio di.67.67SDS. Quindi progettano e alimentano il loro studio di conseguenza. Ora immagina che il risultato sia significativo, ma non sembra essere un valore probabile. Bene, non si allontanano solo! I ricercatori concludono comunque che il trattamento fa la differenza, ma adeguano la loro convinzione sull'entità dell'effetto in base alla loro interpretazione dei risultati. Se ci sono più studi, una meta-analisi aiuterà a perfezionare il vero effetto man mano che i dati si accumulano. In altre parole, l'alternativa che viene offerta durante la pianificazione dello studio (e che viene disegnata nella tua figura) non è in realtà un'alternativa singolare in modo tale che i ricercatori debbano scegliere tra esso e il null come uniche opzioni. .67

Andiamo su questo in un modo diverso. Si potrebbe dire che è abbastanza semplice: o l'ipotesi nulla è vera o è falsa, quindi ci sono davvero solo due possibilità. Tuttavia, il valore null è in genere un valore punto (vale a dire , e il valore null è falso significa semplicemente che qualsiasi valore diverso da esattamente è il valore vero. Se ricordiamo che un punto non ha larghezza, sostanzialmente il della linea numerica corrisponde all'alternativa vera. Pertanto, a meno che il risultato osservato non sia (ovvero da zero a decimali infiniti), il risultato sarà più vicino a un valore diverso da rispetto a (ovvero,0 100 % 0. ˉ 0 0 0 p < .500100%0.0¯00p<.5). Di conseguenza, finiresti sempre per concludere che l'ipotesi nulla sia falsa. Per rendere esplicito questo, la premessa errata nella tua domanda è che esiste una sola linea blu significativa (come illustrato nella tua figura) che può essere utilizzata come suggerisci.

Quanto sopra non deve essere sempre il caso. A volte capita che ci sono due teorie che fanno previsioni diverse su un fenomeno in cui le teorie sono sufficientemente ben matematizzate per produrre stime puntuali precise e probabili distribuzioni campionarie. Quindi, un esperimento critico può essere ideato per differenziarli. In tal caso, nessuna delle due teorie deve essere considerata come nulla e il rapporto di verosimiglianza può essere preso come il peso delle prove a favore dell'una o dell'altra teoria. Tale utilizzo sarebbe analogo a prendere come alfa. Non vi è alcuna ragione teorica che questo scenario non possa essere il più comune in campo scientifico, succede solo che è molto raro che ci siano due di queste teorie in molti campi in questo momento. .50


3

Per aggiungere alle ottime risposte precedenti: Sì, il 5% è arbitrario, ma indipendentemente dalla soglia specifica scelta, deve essere ragionevolmente piccolo, altrimenti il ​​test delle ipotesi ha poco senso.

Stai cercando un effetto e vuoi assicurarti che i risultati non siano puramente dovuti al caso. In tal senso, si imposta un livello di significatività che dice sostanzialmente "Se non ci fosse effettivamente alcun effetto (l'ipotesi nulla è vera), questa sarebbe la probabilità di ottenere tali risultati (o più estremi) per puro caso" . L'impostazione di un valore troppo alto comporterà molti falsi positivi e comprometterà la tua capacità di ottenere una risposta significativa alla tua domanda di ricerca.

Come sempre, c'è un compromesso, quindi la comunità di ricerca ha elaborato questa linea guida del 5%. Ma è diverso in diversi campi. Nella fisica delle particelle, è più simile allo 0,00001% o qualcosa del genere.


0

Classificazione e test di ipotesi sono diversi e sono stati utilizzati in modo diverso . Nella maggior parte dei casi, le persone usano

  • "Classificazione" "per svolgere il compito di" classificare qualcosa in base a qualità o caratteristiche condivise ".
  • E usa il "test delle ipotesi" per verificare alcune "scoperte significative".

Si noti che, nel test delle ipotesi, l '"ipotesi nulla" è "buon senso", ma se possiamo rifiutare le ipotesi null allora abbiamo una pausa.

Questo è il motivo per cui abbiamo criteri più severi nel test delle ipotesi. Pensa all'esempio dello sviluppo di nuovi drag, vogliamo stare molto attenti a dire che è significativo ed efficace.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.