Perché continuare a insegnare e utilizzare il test delle ipotesi (quando sono disponibili intervalli di confidenza)?


56

Perché continuare a insegnare e utilizzare il test delle ipotesi (con tutti i suoi concetti difficili e che sono tra i peccati più statistici) per i problemi in cui esiste uno stimatore di intervallo (confidenza, bootstrap, credibilità o altro)? Qual è la migliore spiegazione (se presente) da dare agli studenti? Solo tradizione? Le opinioni saranno molto gradite.



4
Queste citazioni sono molto appropriate. Tutti i modelli sono sbagliati, ma alcuni sono utili.
mpiktas,

Risposte:


60

Questa è la mia opinione personale, quindi non sono sicuro che si qualifichi correttamente come una risposta.

Perché dovremmo insegnare il test delle ipotesi?

Una ragione molto grande, in breve, è che, con ogni probabilità, nel tempo che ti serve per leggere questa frase, centinaia, se non migliaia (o milioni) di test di ipotesi sono stati condotti entro un raggio di 10 piedi da dove ti siedi.

Il tuo telefono cellulare sta sicuramente utilizzando un test del rapporto di probabilità per decidere se rientra o meno nel raggio di una stazione base. L'hardware WiFi del tuo laptop sta facendo lo stesso nelle comunicazioni con il tuo router.

Il microonde che hai usato per riscaldare automaticamente quel pezzo di pizza di due giorni ha usato un test di ipotesi per decidere quando la tua pizza era abbastanza calda.

Il sistema di controllo della trazione della tua auto è entrato in funzione quando hai dato troppo gas su una strada ghiacciata o il sistema di avvertimento della pressione dei pneumatici ti ha fatto sapere che il tuo pneumatico posteriore era anormalmente basso e i fari si accendevano automaticamente a circa 5: 19:00 al tramonto.

Il tuo iPad sta eseguendo il rendering di questa pagina in formato orizzontale in base a letture dell'accelerometro (rumorose).

La compagnia della tua carta di credito ha spento la tua carta quando "tu" hai acquistato una TV a schermo piatto al Best Buy in Texas e un anello di diamanti da $ 2000 a Zales in un centro commerciale nello stato di Washington entro un paio d'ore dall'acquisto di pranzo, benzina e film vicino a casa tua alla periferia di Pittsburgh.

Le centinaia di migliaia di bit che sono stati inviati per eseguire il rendering di questa pagina Web nel browser sono stati sottoposti singolarmente a un test di ipotesi per determinare se erano probabilmente uno 0 o un 1 (oltre a una straordinaria correzione dell'errore).

Guarda alla tua destra solo un po 'quegli argomenti "correlati".

Tutte queste cose "sono successe" a causa di test di ipotesi . Per molte di queste cose si potrebbe calcolare una stima dell'intervallo di alcuni parametri. Ma, soprattutto per i processi industriali automatizzati, l'uso e la comprensione dei test di ipotesi sono cruciali.


A un livello statistico più teorico, l'importante concetto di potere statistico deriva in modo piuttosto naturale da un quadro decisionale-teorico / di verifica delle ipotesi. Inoltre, credo che "anche" un puro matematico possa apprezzare la bellezza e la semplicità del lemma di Neyman-Pearson e le sue prove.

Questo non vuol dire che il test delle ipotesi sia insegnato o compreso bene. Nel complesso, non lo è. E, sebbene concordi sul fatto che, in particolare nelle scienze mediche, la segnalazione delle stime degli intervalli insieme alle dimensioni degli effetti e alle nozioni di significato pratico vs. statistico sono quasi universalmente preferibili a qualsiasi test di ipotesi formale, ciò non significa che il test di ipotesi e i relativi i concetti non sono importanti e interessanti a pieno titolo.


2
Grazie per l'interessante elenco di esempi. Dato l'obiettivo della domanda: per contribuire al dibattito sulla revisione dei nostri corsi di statistica, cercheremo di ottenere maggiori dettagli sull'implementazione dei test in dispositivi moderni, può essere una grande motivazione per i nostri studenti di ingegneria.
Washington S. Silva,

3
La maggior parte dei tuoi esempi non ha davvero bisogno di tesing di ipotesi classiche (implicando un livello di confidenza fisso) ma una procedura decisionale.
kjetil b halvorsen,

1
Caro @kjetil: un downvote sembra un po 'duro qui, a dire il vero. In effetti, la domanda non pone nulla di specifico sui test di ipotesi classica , e la mia risposta non fa neppure questo presupposto! (Il test di ipotesi è interpretato qui in modo ampio e con buone ragioni.)
Cardinale

1
Devo comprare un forno a microonde con riscaldamento automatico.
jmbejara,

2
Questa è una risposta molto eloquente, ma sarei molto grato se mi spiegassi un po 'di più sul perché tutte queste cose sono "test di ipotesi". Comprendo che tutti i tuoi esempi riguardano decisioni binarie automatizzate. Immagino che nella maggior parte dei casi un valore venga misurato e quindi confrontato con un valore soglia per decidere se è al di sopra o al di sotto di esso (e quindi arriva alla decisione). Questo si qualifica già come un "test di ipotesi" per te o intendevi qualcos'altro? Immagino che quando OP ha chiesto perché si sta ancora insegnando il test delle ipotesi, non si riferivano a semplici soglie.
ameba dice di reintegrare Monica il

29

Insegno test di ipotesi per una serie di motivi. Uno è storico, che dovranno comprendere un ampio corpus di ricerche precedenti che leggono e comprendere il punto di vista della verifica delle ipotesi. Un secondo è che, anche nei tempi moderni, viene ancora utilizzato da alcuni ricercatori, spesso implicitamente, quando si eseguono altri tipi di analisi statistiche.

Ma quando lo insegno, lo insegno nel quadro della costruzione di modelli, che questi presupposti e stime fanno parte dei modelli di costruzione. In questo modo è relativamente facile passare a confrontare modelli più complessi e teoricamente interessanti. La ricerca più spesso mette le teorie una contro l'altra piuttosto che una teoria contro nulla.

I peccati del test di ipotesi non sono inerenti alla matematica e al corretto uso di questi calcoli. Dove si trovano principalmente è nell'eccessiva fiducia e nella cattiva interpretazione. Se la stragrande maggioranza dei ricercatori ingenui usasse esclusivamente la stima dell'intervallo senza riconoscere alcuna delle relazioni con queste cose che chiamiamo ipotesi, potremmo chiamarlo peccato.


+1, grazie. Ben discusso. Ma nei corsi introduttivi non esiste una selezione di modelli, in senso stretto. Potresti citare altri contesti che sono appropriati per l'introduzione del test di ipotesi? È accettabile riportare l'esito di un test senza una stima della potenza?
Washington S. Silva,

2
Non è necessario selezionare un modello nei corsi introduttivi. Se stai pensando di cambiare corso, consideralo come un buon punto di partenza.
Giovanni

20

PPPP


2
Non vorrei che in alcuni campi "L'unico posto ..." e "includi ANOVA ..." significhino che hai appena coperto un'enorme quantità di strumenti statistici.
Fomite,

4
Penso che ci sia molto da dire su questa posizione. Dato che molti ricercatori desiderano principalmente conoscere i modelli nei loro dati, mi sono spesso chiesto se potessimo ragionevolmente mettere da parte gran parte delle statistiche e semplicemente utilizzare grafici dei dati. (Naturalmente, questo presuppone le trame sarebbero fatte abilmente e acutamente, e test di ipotesi non sarebbe così male se si potrebbe dire che su di loro.)
Gung - Ripristinare Monica

1
Nitidezza, non sono d'accordo con la frase "l'assenza di prove non è una prova di assenza". L'assenza di prove per un effetto non è la prova che non esiste alcun effetto, ma costituisce certamente una prova contro l'effetto esistente. La domanda è più su quanta evidenza ha l'effetto che un risultato non significativo ha. Il problema con grandi valori di p credo sia che nel normale caso di distribuzione, grandi valori di p siano prove dell'ipotesi, in quanto sono una funzione monotona della bontà dell'adattamento. E poiché la distribuzione normale è così comune, le persone vedono questo ed estrapolano
probabilistico il

5
P

11

Penso che dipenda da quale test di ipotesi stai parlando. Si dice che il test di ipotesi "classica" (Neyman-Pearson) sia difettoso perché non condiziona adeguatamente ciò che è realmente accaduto quando hai fatto il test . Invece è progettato per funzionare "indipendentemente" da ciò che in realtà hai visto a lungo termine. Ma non riuscire a condizionare può portare a risultati fuorvianti nel singolo caso. Questo semplicemente perché la procedura "non importa" del singolo caso, a lungo termine.

I test di ipotesi possono essere espressi nel quadro teorico decisionale, che ritengo sia un modo molto migliore per capirlo. Puoi riaffermare il problema in due modi:

  1. H0
  2. HUN

Il quadro decisionale è molto più facile da capire, perché separa chiaramente i concetti di "cosa farai?" e "qual è la verità?" (tramite le tue informazioni precedenti).

Potresti persino applicare la "teoria delle decisioni" (DT) alla tua domanda. Ma per fermare il test delle ipotesi, DT afferma che devi avere una decisione alternativa a tua disposizione. Quindi la domanda è: se il test delle ipotesi viene abbandonato, che cosa dovrebbe prendere il suo posto? Non riesco a pensare a una risposta a questa domanda. Posso solo pensare a modi alternativi per fare test di ipotesi.

(NOTA: nel contesto del test delle ipotesi, i dati, la distribuzione del campionamento, la distribuzione precedente e la funzione di perdita sono tutte informazioni preliminari perché sono ottenute prima di prendere la decisione.)


Il mio obiettivo con il problema era quello di raccogliere le opinioni degli esperti al fine di arricchire il dibattito sulla revisione dei corsi di statistica in corso presso l'istituto in cui lavoro in Brasile. L'obiettivo è stato raggiunto, con opinioni anche su @cardinal, @Andrew Robinson, @probabilityislogic e @JMS. Chiaramente, la verifica delle ipotesi (tramite NP, DT o Byes) dovrebbe essere insegnata molto bene, ma le sfide per costruire corsi come appropriato, data l'universalità dell'insegnamento della statistica, sono ugualmente o più complesse della tecnica stessa. Grazie per il tuo contributo.
Washington S. Silva,

1
Adoro la teoria delle decisioni, se eseguita rigorosamente usando metodi bayesiani che incorporano ragionevoli funzioni di perdita / utilità. Se tali funzioni non sono disponibili, tendo a favorire la stima degli intervalli.
Frank Harrell,

@FrankHarrell - Sono d'accordo, ma classificherei comunque la stima dell'intervallo come una sorta di "teoria delle decisioni" in cui la funzione di utilità di solito si basa sul contenuto delle informazioni (vale a dire le conclusioni che utilizzano più delle informazioni che abbiamo sono migliori) - e questo è ottimizzato dalla stessa distribuzione posteriore, e possibilmente un predittivo posteriore se la predizione è di interesse. La stima dell'intervallo fornisce un comodo sommario del posteriore. E gli intervalli di buona confidenza (ad es. Basati su MLE) forniscono un'ottima approssimazione a questo quando le informazioni al di fuori dei dati a portata di mano sono scarse
probabilitlogica

di solito usi la stima degli intervalli quando non hai in mente alcuna decisione specifica (che è probabilmente il motivo principale per cui non avresti una ragionevole funzione di perdita), e quindi devi soddisfare molti scenari diversi.
probabilityislogic

9

Se fossi un frequentatore hardcore, ti ricorderei che gli intervalli di confidenza sono abbastanza regolarmente invertiti test di ipotesi, cioè quando l'intervallo del 95% è semplicemente un altro modo di descrivere tutti i punti che un test che coinvolge i tuoi dati non rifiuterà in .05 livello. In queste situazioni una preferenza per l'una è la questione dell'esposizione piuttosto che del metodo.

Ora, naturalmente, l'esposizione è importante, ma penso che sarebbe una buona argomentazione. È chiaro e chiaro chiarire i due approcci come riaffermazioni della stessa inferenza da diversi punti di vista. (Il fatto che non tutti gli stimatori di intervalli siano test invertiti è quindi un fatto inelegante ma non particolarmente imbarazzante, dal punto di vista pedagogico).

Implicazioni molto più serie derivano dalla decisione di condizionare le osservazioni, come sottolineato sopra. Tuttavia, anche in ritirata il Frequentista potrebbe sempre osservare che ci sono molte situazioni (forse non una maggioranza) in cui il condizionamento delle osservazioni sarebbe saggio o non illuminante. Per questi, l'impostazione HT / CI è (non 'sono') esattamente ciò che si desidera e dovrebbe essere insegnata come tale.


In termini formali, qualsiasi test di ipotesi con alfa legato sulla percentuale di errore di tipo I può essere trasformato in un intervallo di confidenza con il parametro di copertura (1-alfa) e viceversa, no? Non penso che tu debba essere un frequentatore hardcore per credere che ciò sia implicato nelle definizioni. :-)
Keith Winstein,

3
@Keith Nessun argomento sulle definizioni, ma devi essere un Frequentista per considerarle più che interessanti e forse utili pezzi di matematica. Cioè, se pensi che le proprietà teoriche del campionamento siano vitali per l'inferenza statistica, allora (o dovresti) essere altrettanto appassionato di intervalli di confidenza e test di ipotesi poiché, come concordiamo, hanno questa simmetria. Il mio era una risposta al contrasto degli interrogatori tra EC "buoni" e HT "cattivi". Raggruppandoli insieme volevo concentrarmi nuovamente sui contrasti sollevati in altre risposte.
conjugateprior,

7

Nell'insegnare i test di ipotesi di Neyman Pearson ai primi studenti di statistica, ho spesso cercato di localizzarlo nella sua impostazione originale: quella di prendere decisioni. Quindi ha senso l'infrastruttura di errori di tipo 1 e di tipo 2, così come l'idea che potresti accettare l'ipotesi nulla.

Dobbiamo prendere una decisione, pensiamo che il risultato della nostra decisione possa essere migliorato dalla conoscenza di un parametro, abbiamo solo una stima di quel parametro. Dobbiamo ancora prendere una decisione. Quindi qual è la decisione migliore da prendere nel contesto di avere una stima del parametro?

Mi sembra che nella sua impostazione originale (prendere decisioni di fronte all'incertezza) il test di ipotesi NP abbia perfettamente senso. Vedi ad esempio N & P 1933, in particolare p. 291.

Neyman e Pearson. Sul problema delle prove più efficienti di ipotesi statistiche. Transazioni filosofiche della Royal Society of London. Serie A, contenenti documenti di carattere matematico o fisico (1933) vol. 231 pagg. 289-337


4

Il test di ipotesi è un modo utile per formulare molte domande: l'effetto di un trattamento è zero o diverso da zero? L'abilità tra affermazioni come queste e un modello statistico o una procedura (compresa la costruzione di uno stimatore di intervalli) è importante per i professionisti, penso.

Vale anche la pena ricordare che un intervallo di confidenza (nel senso tradizionale) non è intrinsecamente meno "incline al peccato" rispetto ai test di ipotesi: quanti statistiche introduttive gli studenti conoscono la vera definizione di un intervallo di confidenza?

Forse il problema non è il test di ipotesi o la stima degli intervalli in quanto sono le versioni classiche dello stesso; la formulazione bayesiana li evita abbastanza bene.


2
@JMS, "quante statistiche introduttive gli studenti conoscono la vera definizione di un intervallo di confidenza?" O, dottorandi laureati, per quella materia.
cardinale

Abbastanza! Per inciso, non intendevo scavare contro studenti o praticanti di qualsiasi genere. Ma è un po 'folle aspettarsi la ginnastica mentale da qualcuno che non si è iscritto per un lavoro avanzato in statistica.
JMS,

2
Quante persone possono dire la vera definizione di EC? E quante persone li usano coerentemente con questa definizione? È troppo difficile non pensare "è probabile che il parametro sia compreso in detto intervallo", anche se sai che non è un elemento della configurazione .
probabilityislogic

E 'una pratica abituale delle nuove relazioni
Washington S. Silva,

1
Quello che ho cercato di esprimere è che i test di ipotesi non accompagnati da stime di potenza sono molto discutibili e che le stime di intervallo non hanno questa fonte aggiuntiva di complicazioni.
Washington S. Silva,

2

Il motivo è il processo decisionale. Nella maggior parte delle decisioni, lo fai o no. Puoi continuare a guardare gli intervalli tutto il giorno, alla fine c'è un momento in cui decidi di farlo o no.

Il test di ipotesi si adatta perfettamente a questa semplice realtà di SÌ / NO.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.