Qual è l'ipotesi nulla? Conflitto tra teoria scientifica, logica e statistica?


20

Sto incontrando difficoltà nel comprendere la logica sottostante nel fissare l' ipotesi nulla . In questa risposta si afferma la proposizione ovviamente generalmente accettata che l'ipotesi nulla è l'ipotesi che non ci sarà alcun effetto, tutto rimarrà lo stesso, cioè niente di nuovo sotto il sole, per così dire.

L'ipotesi alternativa è quindi ciò che si tenta di dimostrare, ad esempio che un nuovo farmaco mantenga le sue promesse.

Ora, arrivando dalla teoria della scienza e dalla logica generale, sappiamo che possiamo solo falsificare proposizioni, non possiamo provare qualcosa (nessun numero di cigni bianchi può dimostrare che tutti i cigni sono bianchi ma un cigno nero può smentirlo). Questo è il motivo per cui proviamo a confutare l'ipotesi nulla, che non equivale a dimostrare l'ipotesi alternativa - ed è qui che inizia il mio scetticismo - Faccio un semplice esempio:

Diciamo che voglio scoprire che tipo di animale c'è dietro una tenda. Purtroppo non posso osservare direttamente l'animale ma ho un test che mi dà il numero di zampe di questo animale. Ora ho il seguente ragionamento logico:

Se l'animale è un cane, avrà 4 zampe.

Se eseguo il test e scopro che ha 4 zampe, questa non è una prova del fatto che sia un cane (può essere un cavallo, un rinoceronte o qualsiasi altro animale a 4 zampe). Ma se io scoprire che ha non 4 gambe questa è una prova definitiva che può non essere un cane (assumendo un animale sano).

Tradotto in efficacia farmacologica Voglio scoprire se il farmaco dietro il sipario è efficace. L'unica cosa che otterrò è un numero che mi dà l'effetto. Se l'effetto è positivo, nulla è dimostrato (4 gambe). Se non ci sono effetti, confondo l'efficacia del farmaco.

Detto questo, penso - contrariamente alla saggezza comune - l'unica ipotesi nulla valida deve essere

Il farmaco è efficace (cioè: se il farmaco è efficace vedrai un effetto).

perché questa è l'unica cosa che posso confutare - fino al prossimo round in cui cerco di essere più specifico e così via. Quindi è l'ipotesi nulla che afferma l'effetto e l'ipotesi alternativa è il default ( nessun effetto ).

Perché i test statistici sembrano averlo indietro?

PS : Non puoi nemmeno negare l'ipotesi di cui sopra per ottenere un'ipotesi equivalente valida, quindi non puoi dire "Il farmaco non è efficace" come un'ipotesi nulla perché l'unica forma logicamente equivalente sarebbe "se non vedi alcun effetto il farmaco non sarà efficace "che non ti porta da nessuna parte perché ora la conclusione è ciò che vuoi scoprire!

PPS : solo per chiarimenti dopo aver letto le risposte finora: se accetti la teoria scientifica, puoi solo falsificare le affermazioni ma non provarle, l'unica cosa logicamente coerente è scegliere l'ipotesi nulla come nuova teoria - che può quindi essere falsificato. Perché se falsi lo status quo verrai lasciato a mani vuote (lo status quo viene smentito ma la nuova teoria è lungi dall'essere dimostrata!). E se non si riesce a falsificarlo, non ci si trova nemmeno in una posizione migliore.


3
Suggerimento: "Il farmaco è efficace" non è stato sufficientemente quantificato per essere una dichiarazione scientifica o statistica. Come hai intenzione di renderlo quantitativo?
whuber

1
@whuber: Questo è l'ultimo dei miei problemi: basta dire che ad esempio la pressione sanguigna è ridotta del 10%. Io sostengo che questa deve essere l'ipotesi nulla - l'ipotesi alternativa è "Non succede nulla".
vonjd,

9
Al contrario, questo è il nocciolo della domanda. Va benissimo nelle statistiche posizionare un valore nullo che dice che l'effetto è -10%. Il tuo esperimento sarà in grado di respingerlo se produce prove abbastanza forti del contrario. Si noti, tuttavia, che (escludendo straordinarie macchinazioni computazionali e concettuali) è possibile verificare una sola di tali ipotesi per esperimento. Nota anche che è il raro sperimentatore che sa così esattamente quale sarà la dimensione dell'effetto (ma sente ancora la necessità di testarlo!).
whuber

3
Bene, in pratica con gli studi sui farmaci, il valore nullo è generalmente interpretato come "il farmaco non è più efficace dell'attuale trattamento" e l'alternativa è "il farmaco è più efficace dell'attuale trattamento". Ciò ha una dimensione di effetto integrata, per inciso. Con questa formulazione, la prova per l'efficacia del farmaco può rifiutare l'ipotesi nulla. Scambiando le ipotesi, l'evidenza dell'efficacia scoraggia semplicemente uno dal rifiutare l'affermazione che il farmaco è buono. Nel primo caso l'onere della prova è molto più rigoroso.
whuber

1
@vonjd: dici "se falsi lo status quo verrai lasciato a mani vuote". Sbagliato. Se formulassimo giudizi qualitativi "cane" / "non cane", è vero che fornire prove "non cane" non è una prova particolarmente forte per "cane". Tuttavia, questo è il valore della quantificazione delle cose. Se fornisco la prova di "non 0" fornisce una buona prova del fatto che il valore è qualcosa di diverso da 0. Se sei preoccupato che fornisca prove uguali per un buon effetto e un effetto negativo, usa un test con una coda.
Russellpierce,

Risposte:


12

In statistica ci sono test di equivalenza e il test più comune del Null e decidono se prove sufficienti contro di esso. Il test di equivalenza fa ribaltare questo e postula che gli effetti sono diversi come Null e determiniamo se ci sono prove sufficienti contro questo Null.

Non sono chiaro sul tuo esempio di droga. Se la risposta è un valore / indicatore dell'effetto, allora un effetto di 0 indicherebbe non efficace. Uno lo definirebbe come Nullo e valuterà le prove contro questo. Se l'effetto è sufficientemente diverso da zero, concluderemmo che l'ipotesi di non efficacia è incompatibile con i dati. Un test a due code conterrebbe valori di effetto sufficientemente negativi come prove contro il Null. Un test a coda singola, l'effetto è positivo e sufficientemente diverso da zero, potrebbe essere un test più interessante.

Se vuoi testare se l'effetto è 0, allora dovremmo capovolgerlo e usare un test di equivalenza in cui H0 è l'effetto non è uguale a zero, e l'alternativa è che H1 = l'effetto = 0. Quello valuterebbe l'evidenza rispetto all'idea che l'effetto era diverso da 0.


9
Parte del problema qui è che, IIRC, il motivo per cui selezioniamo il non-effetto come Null è perché il parametro per quell'effetto è noto, lo è 0. Se vuoi capovolgere questo e avere un effetto diverso da zero come Null, allora dovremmo sapere in anticipo quale sia stato il valore di questo parametro per l'intera popolazione e se sapessimo il valore del parametro per il popolazione non ci sarebbe motivo di sperimentazione.
Ripristina Monica - G. Simpson,

Bene, sembra che avremo lo stesso problema con l'ipotesi alternativa (non conosciamo neanche il parametro lì). Quindi la mia domanda è: perché non scambiare entrambi? Questo sembra logicamente più coerente.
vonjd,

Lascerò che altri commentino i test di equivalenza. Non sono la stessa cosa di scambiare le ipotesi nei test standard, ma non ho familiarità con quelle idee. Non credo che tu abbia ragione nel dire che i test di equivalenza soffrono del problema che menziono nei commenti. Sono formulati da un punto di vista teorico molto diverso.
Ripristina Monica - G. Simpson,

5

Penso che questo sia un altro caso in cui le statistiche del frequentista non possono dare una risposta diretta alla domanda che in realtà vuoi porre, e quindi risponde a una domanda (no) sottilmente diversa, ed è facile interpretare erroneamente questa come una risposta diretta alla domanda che in realtà volevi porre.

Ciò che vorremmo veramente chiederci è normalmente qual è la probabilità che l'ipotesi alternativa sia vera (o forse quanto più probabile sia vera rispetto all'ipotesi nulla). Tuttavia un'analisi frequentista fondamentalmente non può rispondere a questa domanda, in quanto per un frequentista una probabilità è una frequenza di lungo periodo, e in questo caso siamo interessati alla verità di una particolare ipotesi, che non ha una frequenza di lungo periodo - è neanche vero o non lo è. D'altra parte un bayesiano può rispondere direttamente a questa domanda, poiché per un bayesiano una probabilità è una misura della plausibilità di una proposizione, quindi è perfettamente ragionevole in un'analisi bayesiana assegnare una probabilità alla verità di una particolare ipotesi.

Il modo in cui i frequentatori affrontano eventi particolari è di trattarli come un campione da una popolazione (forse fittizia) e fare una dichiarazione su quella popolazione al posto di una dichiarazione sul campione particolare. Ad esempio, se si desidera conoscere la probabilità che una determinata moneta sia distorta, dopo aver osservato N lanci e aver osservato h testa e croce, un'analisi del frequentista non può rispondere a questa domanda, tuttavia potrebbe dirti la percentuale di monete da una distribuzione di monete imparziali che darebbero h o più teste quando girate N volte. Poiché la definizione naturale di probabilità che usiamo nella vita di tutti i giorni è generalmente bayesiana, piuttosto che frequente, è fin troppo facile considerarla come la pobabilità che l'ipotesi nulla (la moneta sia imparziale) sia vera.

Test di ipotesi essenzialmente frequentisti hanno una componente bayesiana implicita soggettivista in agguato nel suo cuore. Il test del frequentista può dirti la probabilità di osservare una statistica almeno altrettanto estrema sotto l'ipotesi nulla, tuttavia la decisione di respingere l'ipotesi nulla su questi motivi è del tutto soggettiva, non c'è alcun requisito razionale per farlo. L'esperienza essenziale ha dimostrato che siamo generalmente su un terreno ragionevolmente solido per rifiutare il valore nullo se il valore p è sufficientemente piccolo (di nuovo la soglia è soggettiva), quindi questa è la tradizione. AFAICS non si adatta bene alla filosofia o alla teoria della scienza, è essenzialmente un'euristica.

Ciò non significa che sia una cosa negativa, nonostante le sue imperfezioni, il test delle ipotesi del frequentatore fornisca un ostacolo che la nostra ricerca deve superare, il che ci aiuta come scienziati a mantenere il nostro auto-scetticismo e a non lasciarci trasportare dall'entusiasmo per le nostre teorie. Quindi, mentre io sono a cuore bayesiano, utilizzo ancora regolarmente test di ipotesi dei frequentatori (almeno fino a quando i revisori dei giornali non si sentiranno a proprio agio con le alternative di Bayesain).


3

Per aggiungere alla risposta di Gavin, un paio di cose:

Innanzitutto, ho sentito questa idea secondo cui le proposizioni possono essere solo falsificate, ma mai provate. Potresti pubblicare un link a una discussione di questo, perché con la nostra formulazione qui non sembra reggere molto bene - se X è una proposizione, allora anche (X) non è una proposizione. Se è possibile smentire le proposizioni, smentire X equivale a dimostrare di non (X) e abbiamo dimostrato una proposizione.

test+

Il farmaco è efficace (ovvero se il farmaco è efficace vedrai un effetto).

test+test+H0

test+H0test+H0

Quindi la differenza tra il caso del cane e il caso dell'efficacia sta nell'adeguatezza dell'inferenza dall'evidenza alla conclusione. Nel caso del cane, hai osservato alcune prove che non implicano fortemente un cane. Ma nel caso della sperimentazione clinica hai osservato alcune prove che implicano fortemente efficacia.


1
Grazie. Se si accetta che è possibile falsificare solo affermazioni ma non dimostrarle (collegamento in un secondo) l'unica cosa logicamente coerente è la scelta dell'ipotesi nulla come nuova teoria, che può quindi essere falsificata. Se falsi lo status quo verrai lasciato a mani vuote (lo status quo viene smentito ma la nuova teoria è lungi dall'essere dimostrata!). Ora per il link, penso che un buon punto di partenza sarebbe: en.wikipedia.org/wiki/Falsifiability
vonjd

2
Penso che un punto da menzionare qui sia che non stai provando o smentendo l'ipotesi nulla. La decisione che stai prendendo (classicamente) è di mantenere o rifiutare l'ipotesi nulla. Quando respingi l'ipotesi nulla, non la stai smentendo. Tutto quello che stai facendo è dire che, dati i dati osservati, l'ipotesi nulla è improbabile.
Russellpierce,

@drknexus: Beh, non saresti d'accordo sul fatto che questo è l'equivalente probabilistico della falsificazione nella logica?
vonjd,

4
@drknexus Non sarebbe più accurato non dire "dati i dati osservati, l'ipotesi nulla è improbabile" ma piuttosto "se l'ipotesi nulla è vera, allora questi dati sono improbabili"? La fusione di questi due non è il classico errore nel test delle ipotesi statistiche?
Michael McGowan,

1
MM: Hai ragione. Sono stato sciatto nelle mie parole.
Russellpierce,

3

Hai ragione sul fatto che, in un certo senso, il test di ipotesi del frequentatore lo ha al contrario. Non sto dicendo che questo approccio sia sbagliato, ma piuttosto che i risultati spesso non sono progettati per rispondere alle domande a cui il ricercatore è maggiormente interessato. Se vuoi una tecnica più simile al metodo scientifico, prova l'inferenza bayesiana .

Invece di parlare di una "ipotesi nulla" che puoi rifiutare o non respingere, con l'inferenza bayesiana inizi con una precedente distribuzione di probabilità basata sulla tua comprensione della situazione a portata di mano. Quando acquisisci nuove prove, l'inferenza bayesiana ti fornisce un quadro per aggiornare le tue convinzioni con le prove prese in considerazione. Penso che sia più simile a come funziona la scienza.


3

Penso che tu abbia un errore fondamentale qui (non che l'intera area del test delle ipotesi sia chiara!) Ma tu dici che l'alternativa è ciò che proviamo a dimostrare. Ma questo non è giusto. Tentiamo di respingere (falsificare) il null. Se i risultati che otteniamo sarebbero molto improbabili se il null fosse vero, rifiutiamo il null.

Ora, come altri hanno detto, questa non è di solito la domanda che vogliamo porre: di solito non ci interessa quanto siano probabili i risultati se il null è vero, ci interessa quanto è probabile il null, dati i risultati.



2

Espanderò la menzione di Paul Meehl di @Doc:

1) Testare l'opposto della tua ipotesi di ricerca come l'ipotesi nulla lo rende in modo che tu possa solo affermare il conseguente che è un argomento "formalmente non valido". Le conclusioni non derivano necessariamente dalla premessa.

If Bill Gates owns Fort Knox, then he is rich.
Bill Gates is rich.
Therefore, Bill Gates owns Fort Knox.

http://rationalwiki.org/wiki/Affirming_the_consequent

Se la teoria è "Questo farmaco migliorerà il recupero" e osservi un miglioramento del recupero, ciò non significa che puoi dire che la tua teoria è vera. La comparsa di una migliore ripresa potrebbe essere avvenuta per qualche altro motivo. Nessun gruppo di pazienti o animali sarà esattamente lo stesso al basale e cambierà ulteriormente nel tempo durante lo studio. Questo è un problema maggiore per la ricerca osservazionale rispetto alla ricerca sperimentale perché la randomizzazione "difende" dai gravi squilibri di fattori di confondimento sconosciuti al basale. Tuttavia, la randomizzazione non risolve davvero il problema. Se i conflitti sono sconosciuti, non abbiamo modo di dire fino a che punto la "difesa dalla randomizzazione" abbia avuto successo.

Vedi anche la tabella 14.1 e la discussione sul perché nessuna teoria può essere testata da sola (ci sono sempre fattori ausiliari che taggano) in:

Paul Meehl. "Il problema è l'epistemologia, non le statistiche: sostituire i test di significatività con intervalli di confidenza e quantificare l'accuratezza delle predizioni numeriche rischiose" In LL Harlow, SA Mulaik e JH Steiger (a cura di), cosa accadrebbe se non ci fossero test di significatività? (pagg. 393–425) Mahwah, NJ: Erlbaum, 1997.

2) Se viene introdotto un certo tipo di pregiudizio (ad esempio, uno squilibrio su alcuni fattori di confondimento) non sappiamo in quale direzione risiederà questo pregiudizio o quanto sia forte. La migliore ipotesi che possiamo dare è che esiste una probabilità del 50% di orientare il gruppo di trattamento nella direzione di un recupero più elevato. Man mano che le dimensioni del campione aumentano, c'è anche il 50% di probabilità che il test di significatività rilevi questa differenza e interpreterai i dati come corroboranti della tua teoria.

Questa situazione è totalmente diversa dal caso di un'ipotesi nulla secondo cui "Questo farmaco migliorerà il recupero del x%". In questo caso la presenza di qualsiasi pregiudizio (che direi esiste sempre nel confrontare gruppi di animali e umani) rende più probabile che tu rifiuti la tua teoria.

Pensa allo "spazio" (Meehl lo chiama "Spielraum") dei possibili risultati delimitati dalle misurazioni più estreme possibili. Forse ci può essere un recupero dello 0-100% e puoi misurare con una risoluzione dell'1%. Nel caso di test di significatività comune, lo spazio coerente con la tua teoria sarà il 99% dei possibili risultati che potresti osservare. Nel caso in cui prevedi una differenza specifica, lo spazio coerente con la tua teoria sarà l'1% dei possibili risultati.

Un altro modo per dirlo è che trovare prove contro un'ipotesi nulla di mean1 = mean2 non è un test severo dell'ipotesi di ricerca secondo cui un farmaco fa qualcosa. Un null di mean1 <mean2 è migliore ma non ancora molto buono.

Vedi figure 3 e 4 qui: (1990). Stimare e modificare le teorie: la strategia di difesa lakatosiana e due principi che ne giustificano l'uso . Psychological Inquiry, 1, 108-141, 173-180


0

Non tutte le statistiche si basano sul presupposto che nulla è certo nel mondo naturale (distinto dal mondo dei giochi creato dall'uomo ecc.). In altre parole, l'unico modo in cui possiamo avvicinarci alla comprensione è misurando la probabilità che una cosa sia correlata con un'altra e questa varia tra 0 e 1 ma può essere solo 1 se potessimo testare l'ipotesi un numero infinito di volte in un numero infinito di circostanze diverse, che ovviamente è impossibile. E non possiamo mai sapere che era zero per lo stesso motivo. È un approccio più affidabile per comprendere la realtà della natura, rispetto alla matematica, che si occupa di assoluti e si basa principalmente su equazioni, che sappiamo essere idealistiche perché se, letteralmente, il lato sinistro di un'equazione davvero = il lato destro, i due lati potrebbe essere invertito e non impareremmo nulla. A rigor di termini si applica solo a un mondo statico, non a un mondo "naturale" che è intrinsecamente turbolento. Quindi, l'ipotesi nulla dovrebbe anche sottostare alla matematica - ogni volta che viene usata per comprendere la natura stessa.


0

Penso che il problema sia nella parola "vero". La realtà del mondo naturale è intrinsecamente inconoscibile in quanto è infinitamente complessa e infinitamente variabile nel tempo, quindi la "verità" applicata alla natura è sempre condizionata. Tutto ciò che possiamo fare è cercare di trovare i livelli di probabile corrispondenza tra le variabili mediante esperimenti ripetuti. Nel nostro tentativo di dare un senso alla realtà, cerchiamo quello che sembra un ordine in esso e costruiamo modelli concettualmente coscienti nella nostra mente per aiutarci a prendere decisioni sensate MA è molto un affare incostante perché c'è sempre inaspettato. L'ipotesi nulla è l'unico punto di partenza affidabile nel nostro tentativo di dare un senso alla realtà.


1
Penso che dovresti unire le tue due risposte.
vonjd,

-1

Dobbiamo selezionare un'ipotesi nulla che vogliamo respingere.

Perché nel nostro scenario di verifica delle ipotesi, esiste una regione critica, se la regione sotto ipotesi arriva in una regione critica, rifiutiamo l'ipotesi altrimenti accettiamo l'ipotesi.

Supponiamo quindi di selezionare l'ipotesi nulla, quella che vogliamo accettare. E la regione sotto ipotesi nulla non rientra nella regione critica, quindi accetteremo l'ipotesi nulla. Ma il problema qui è se la regione sotto ipotesi nulla rientra in una regione accettabile, quindi non significa che la regione sotto ipotesi alternativa non rientrerà in una regione accettabile. E se questo è il caso, la nostra interpretazione sul risultato sarà errata. Quindi dobbiamo solo prendere quell'ipotesi come un'ipotesi nulla che vogliamo respingere. Se siamo in grado di respingere l'ipotesi nulla, significa che l'ipotesi alternativa è vera. Ma se non siamo in grado di respingere l'ipotesi nulla, significa che una qualsiasi delle due ipotesi può essere corretta. Forse possiamo quindi fare un altro test, in cui possiamo prendere la nostra ipotesi alternativa come ipotesi nulla, e quindi possiamo tentare di rifiutarlo. Se siamo in grado di respingere l'ipotesi alternativa (che ora è un'ipotesi nulla), allora possiamo dire che la nostra ipotesi nulla iniziale era vera.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.