Che cosa significano i test di ipotesi bayesiana nel quadro dell'inferenza e della teoria delle decisioni?


15

Il mio background è principalmente nell'apprendimento automatico e stavo cercando di capire cosa significassero i test sull'ipotesi bayesiana. Sono d'accordo con l'interpretazione bayesiana della probabilità e la conosco nel contesto di modelli grafici probabilistici. Tuttavia, ciò che mi confonde è ciò che la parola "Ipotesi" significa nel contesto dell'inferenza statistica.

Penso che mi sto principalmente confondendo sul vocabolario a cui sono abituato nell'apprendimento automatico rispetto a ciò che viene normalmente utilizzato in statistica e inferenza.

Nel contesto di apprendimento supervisionato , io di solito penso dell'ipotesi come funzione predittiva che mappa esempi per le sue etichette cioè h:XY . Tuttavia, mi sembra che il termine ipotesi, nelle letture che sto facendo, non abbia lo stesso significato. Lasciami incollare un estratto delle letture che sto leggendo:

inserisci qui la descrizione dell'immagine

Se leggi attentamente dice anche:

esiste un modello diverso per i dati osservati ...

dove usano il modello di parola. Per me la parola modello mi fa pensare a un insieme di funzioni dove selezioniamo una specifica funzione predittiva. cioè una classe di ipotesi di funzione. Ad esempio, potrebbe essere la classe di ipotesi delle funzioni quadratiche (polinomio di grado 2). Tuttavia, mi sembra che usino il modello di parole e le ipotesi come sinonimi in questo estratto (dove per me sono parole completamente diverse).Hd2

Quindi continua menzionando che possiamo mettere i priori all'ipotesi (una cosa completamente ragionevole da fare in un ambiente bayesiano):

pH(Hm),     m={0,1,...,M1}

inoltre possiamo caratterizzare i dati con un'ipotesi attuale:

py|H(|Hm),     m={0,1,...,M1}

e aggiorna le nostre attuali convinzioni dati alcuni dati (e la regola di Baye):

pH|y(Hm|y),     m={0,1,...,M1}

Tuttavia, credo di essere più abituato a mettere una stima bayesiana su un particolare parametro (diciamo ) da una classe di ipotesi piuttosto che all'intera classe di ipotesi. Fondamentalmente poiché sembra che queste "ipotesi" non siano le stesse ipotesi dal contesto di machine learning a cui sono abituato, mi sembra che queste ipotesi siano più simili a un parametro θ specifico che a una classe di ipotesi.θθ

A questo punto ero convinto che "ipotesi" significasse la stessa cosa della funzione predittiva (parametrizzata da un parametro , ad esempio), ma penso di aver sbagliato ...θ

A peggiorare la mia confusione, in seguito questa stessa lettura è andata avanti per specificare una particolare "ipotesi" per ciascun esempio di allenamento che hanno osservato. Lasciami incollare un estratto di ciò che intendo:

inserisci qui la descrizione dell'immagine

il motivo per cui questo mi confonde è che, se interpreto l'ipotesi come parametro, per me non ha senso specificare un parametro specifico per ciascun valore di esempio che vediamo. A questo punto ho concluso che non sapevo davvero cosa intendessero per ipotesi, quindi ho pubblicato questa domanda.

Tuttavia, non mi sono arreso completamente, ho studiato significato di ipotesi nelle statistiche dei frequentisti e trovato il seguente video dell'Accademia di Khan . Quel video in realtà ha molto senso per me (forse sei un frequentatore! :) . Tuttavia, sembra che ottengano un sacco di dati (come alcuni "set di campioni") e in base alle proprietà del set di campioni, decidono se accettare o rifiutare l'ipotesi nulla sui dati. Tuttavia, nel contesto bayesiano che sto leggendo, mi sembra che per ogni vettore di dati [punto] che si osserva, essi "lo etichettano" con un'ipotesi con il "test del rapporto di verosimiglianza":

inserisci qui la descrizione dell'immagine

Il modo in cui stanno assegnando l'ipotesi a ciascun campione di dati, sembra anche un'impostazione di apprendimento supervisionata se stiamo attaccando un'etichetta a ciascun set di formazione. Tuttavia, non credo sia quello che stanno facendo in questo contesto.Cosa stanno facendo? Cosa significa assegnare un'ipotesi a ciascun campione di dati? Qual è il significato di un'ipotesi? Cosa significa la parola modello?

Fondamentalmente, dopo questa lunga spiegazione della mia confusione, qualcuno sa cosa significa test di ipotesi bayesiana in questo contesto?


Se hai bisogno di chiarimenti o altro per migliorare la mia domanda o affinché la domanda abbia un senso, sono più che felice di aiutarti :)


Nella mia ricerca di una risposta ho trovato alcune cose utili relative al test delle ipotesi statistiche:

Questo affronta una buona introduzione all'argomento se vieni da un background CS (come me):

Qual è una buona introduzione al test delle ipotesi statistiche per gli informatici?

Ad un certo punto ho chiesto dei "parametri predefiniti" (che avrei dovuto definire cosa intendevo dire. Pensavo fosse un termine standard ma non lo è, quindi qui lo affronterò) e penso che ciò che intendevo veramente è come fare specifichi i parametri per ogni ipotesi che hai. Ad esempio, come decidi qual è la tua ipotesi nulla e i suoi parametri. C'è una domanda a riguardo:

Come specificare l'ipotesi nulla nel test di ipotesi


@ Xi'an Ho letto il seguente articolo di Wikipedia: en.wikipedia.org/wiki/Statistical_model è quello che intendono per modello e ipotesi? grazie per la tua pazienza a proposito :)
Pinocchio il

3
Sono titubante a entrare in questa discussione perché penso che il tuo problema sia proprio quello di capire cosa significhino in teoria i test di ipotesi, piuttosto che specificamente quale test di ipotesi sia nel quadro bayesiano. Per aiutarlo, suggerisco di dare un'occhiata al libro "Modes of Parametric Statistical Inference" di Geisser. books.google.ca/…
rocinante,

@rocinante Penso di essere d'accordo con te. Sono definitivamente confuso riguardo ai test di ipotesi in generale (e il quadro bayesiano non aiuta affatto). Lo darò sicuramente un'occhiata. Grazie per la pazienza e la comprensione, è molto apprezzato.
Pinocchio,

Non è una cosa facile da capire perché non è una cosa facile da articolare in modo conciso. Invece di pensarci in termini astratti (come le mappe), forse ti sarà di aiuto se ci pensi con un esempio più semplice. 1/2
rocinante,

1
2/2 Supponi di avere una moneta e di voler vedere se è giusta, quindi la lanci 50 volte. Ora hai un set di dati su cui vuoi fare qualche deduzione (cioè la moneta è distorta o meno). Logicamente, se la moneta è giusta, circa la metà dei lanci dovrebbe essere testa. (Nota che questa non è una derivazione delle statistiche, ma il tuo ragionamento logico). Questa è la tua ipotesi. Puoi provare questa ipotesi in 2 modi: il modo bayesiano e il modo frequentatore.
rocinante,

Risposte:


10

Un modello statistico è dato da una famiglia di distribuzioni di probabilità. Quando il modello è parametrico, questa famiglia viene indicizzata da un parametro sconosciuto : F = { f ( | θ ) ; θ Θ } Se si desidera verificare un'ipotesi su θ come H 0 :θ

F={f(|θ); θΘ}
θ , si possono considerare due modelli opposti: F contro F 0 = { f ( | θ ) ; θ Θ 0 } Dalmio punto di vista bayesiano, sto disegnando inferenza sull'indice del modello dietro i dati, M . Quindi ho messo un precedente su questo indice, ρ 0 e ρ a , nonché sui parametri di entrambi i modelli, π 0 ( θ ) su Θ 0 e πH0:θΘ0F
F0={f(|θ); θΘ0}
Mρ0ρaπ0(θ)Θ0 sopra Θ . E quindi deduco la distribuzione posteriore di questo indice: π ( m = 0 | x ) = ρ 0 Θ 0 f ( x | θ ) π 0 ( θ ) d θπa(θ)Θ Ilcome Kevin Murphy's.
π(m=0|x)=ρ0Θ0f(x|θ)π0(θ)dθρ0Θ0f(x|θ)π0(θ)dθ+(1ρ0)Θf(x|θ)πa(θ)dθ
documento a cui sei collegato va in molti più dettagli in questa prospettiva e dovrebbe essere la tua scelta preferita nel test statistico delle ipotesi, a meno che tu non possa permetterti di leggere un intero libro bayesiano. O anche un libro di apprendimento automatico

XN(θ,1)H0:θ=0θ=0N(0,1)θθN(0,10)ρ0=1/2

π(m=0|x)=12πexp{x2/2}12πexp{x2/2}+R12πexp{(xθ)2/2}12π×10exp{θ2/20}dθ=exp{x2/2}exp{x2/2}+111exp{x2/22}

pH(H0)F0θF0py|H(y|H0)H0H0

HmθFmHm=(θ,Fm)θFm

ϱ0H0F0ϱ0=0π0(θ)θH0

quindi se l'ipotesi a è una tupla di un modello statistico proposto e un parametro predefinito, come viene scelto il parametro predefinito?
Pinocchio,

θ=0nell'esempio sopra) o con alcuni parametri sconosciuti. Nel secondo caso, un approccio bayesiano implica la distribuzione anticipata di tali incognite.
Xi'an,

4

Ottima domanda Penso che la tua confusione possa derivare da alcune delle differenze fondamentali tra le prospettive "frequentista" e "bayesiana". Ho molta esperienza con la prima e sono una novità per la successiva, quindi tentare alcune semplici osservazioni potrebbe aiutare anche me. Ho modificato la tua domanda per chiarire alcune distinzioni - almeno, come ho capito. Spero non ti dispiaccia! Se ho sbagliato qualcosa, potresti modificare nuovamente la tua domanda o aggiungere un commento su questa risposta.

1) A rischio di sembrare un po 'troppo elementare: un modello è qualsiasi affermazione che tenta una spiegazione della realtà come "Se avessi i pancake a colazione, deve essere martedì". Come tale, un modello è un'ipotesi. Una famosa citazione di George Box: "Tutti i modelli sono sbagliati, alcuni sono utili". Perché un modello sia utile ci deve essere un modo per testarlo. Inserisci il concetto di ipotesi concorrenti e la risposta a una delle tue domande. Suggerirei che "... nel contesto dell'inferenza statistica", un'ipotesi è qualsiasi modello che può essere utile e può essere verificato matematicamente. Quindi il test delle ipotesi è un mezzo per prendere una decisione sull'utilità di un modello. In sintesi, un'ipotesi è un modello in esame. Potrebbero essere diversi valori dei parametri della stessa funzione o funzioni diverse.

2) Il tuo video Kahn è un esempio di ciò che Bayesian chiama l'approccio "Frequentist" ai test di ipotesi, quindi potrebbe averti confuso quando provavi ad applicarlo ai tuoi appunti di lezione che sono bayesiani. Ho cercato di trovare una semplice distinzione tra l'applicazione dei due approcci (che può essere pericolosa). Penso di capire ragionevolmente bene la distinzione filosofica. Da quello che ho visto, il "Frequentist" assume una componente casuale ai dati e verifica la probabilità che i dati osservati ricevano parametri non casuali. Il "bayesiano" presuppone che i dati siano fissi e determina il valore più probabile di parametri casuali. Questa differenza porta a diversi metodi di prova.

Nel test di ipotesi "Frequentist", un modello che può essere utile è quello che spiega alcuni effetti, quindi viene confrontato con l '"ipotesi nulla" - il modello senza effetto. Si tenta di impostare un modello utile che si escluda a vicenda dal modello senza effetto. Il test è quindi sulla probabilità di osservare i dati presupponendo alcun effetto. Se tale probabilità si rivela bassa, l'ipotesi nulla viene respinta e l'alternativa è tutto ciò che resta. (Nota che un purista non "accetterebbe" mai l'ipotesi nulla, solo "non respingere". Potrebbe sembrare come angeli che ballano sulla testa di uno spillo, ma la distinzione è una fondamentale filosofia filosofica) Le statistiche introduttive di solito iniziano con ciò che può sii l'esempio più semplice: "Due gruppi sono diversi".grande o maggiore come misurato da un esperimento casuale dato che non sono diversi. Questo è di solito un test t in cui l'ipotesi nulla è che la differenza dei mezzi sia zero. Quindi il parametro è la media a un valore fisso pari a zero.

Il bayesiano dice "Aspetta un attimo, abbiamo fatto quelle misurazioni e sono diverse, quindi quanto è probabile?" Calcolano la probabilità per ogni valore del parametro (ora) casuale e scelgono quello più alto come il più probabile. Quindi, in un certo senso, ogni possibile valore del parametro è un modello separato. Ma ora hanno bisogno di un modo per decidere se il modello con la più alta probabilità sia abbastanza diverso da importare. Ecco perché le tue lezioni hanno introdotto la funzione di costo. Per prendere una buona decisione, sono necessarie alcune ipotesi sulle conseguenze di prendere una decisione sbagliata.

3) "Cosa significa assegnare un'ipotesi a ciascun campione di dati?" Non penso che lo siano. Fai attenzione a cosa si intende per "punto di campionamento". Credo che si stiano riferendo a un particolare vettore campione e voglia sapere quanto è probabile ciascuna ipotesi per tutti i vettori campione nello spazio campione. Le equazioni (14) e (15) mostrano come confrontare due ipotesi per un particolare vettore campione. Quindi stanno semplificando un argomento generale di confronto di più ipotesi mostrando come confrontare solo due.


0

Supponi di avere dati da una serie di caselle. I dati sono costituiti da Lunghezza (L), Larghezza (W), Altezza (H) e Volume (V).

Se non sappiamo molto su scatole / geometria, potremmo provare il modello:

V = a*L + b*W + c*H + e

Questo modello ha tre parametri (a, b, c) che possono essere variati, oltre a un termine di errore / costo (e) che descrive in che misura l'ipotesi si adatta ai dati. Ogni combinazione di valori di parametro sarebbe considerata un'ipotesi diversa. Il valore del parametro "predefinito" scelto è generalmente zero, che nell'esempio precedente corrisponderebbe a "nessuna relazione" tra V e L, W, H.

Ciò che la gente fa è testare questa ipotesi "di default" controllando se e è al di là di un valore di cutoff, di solito calcolando un valore p assumendo una normale distribuzione dell'errore attorno all'adattamento del modello. Se tale ipotesi viene respinta, allora trovano la combinazione di parametri a, b, c che massimizza la probabilità e presentano questa è l'ipotesi più probabile. Se sono bayesiani, moltiplicano la probabilità per il precedente per ciascun set di valori dei parametri e scelgono la soluzione che massimizza la probabilità posteriore.

Ovviamente questa strategia non è ottimale in quanto il modello assume additività e mancherà che l'ipotesi corretta sia:

V = L*W*H + e

Modifica: @Pinocchio

Forse qualcuno non è d'accordo con l'affermazione secondo cui il test delle ipotesi non è ottimale quando non vi è alcun motivo razionale per scegliere una / poche funzioni (o come le si dice: "classi di ipotesi") tra le infinite possibili. Naturalmente questo è banalmente vero e "ottimale" può essere utilizzato nel senso limitato di "migliore adattamento data la funzione di costo e le scelte fornite". Quel commento è diventato la mia risposta perché non mi piaceva come il problema delle specifiche del modello fosse chiarito nelle tue note di classe. È il problema principale della maggior parte dei lavoratori scientifici, per i quali non esiste un algoritmo.

Inoltre, non sono riuscito a capire i valori di p, i test di ipotesi, ecc. Fino a quando non ho capito la storia, quindi forse ti aiuterà anche. Esistono molteplici fonti di confusione attorno al test delle ipotesi del frequentatore (non ho molta familiarità con la storia della variante bayesiana).

C'è quello che originariamente veniva chiamato "test di ipotesi" nel senso di Neyman-Pearson, "test di significatività" come sviluppato da Ronald Fisher, e anche un "ibrido" mal definito, mai debitamente giustificato di queste due strategie ampiamente utilizzate in tutte le scienze (che può essere casualmente riferito all'uso del termine sopra o "test di significatività dell'ipotesi nulla"). Anche se non consiglierei di prendere una pagina di Wikipedia come autorevole, molte fonti che parlano di questi problemi possono essere trovate qui . Alcuni punti principali:

  1. L'uso di un'ipotesi "predefinita" non fa parte della procedura di verifica dell'ipotesi originale, ma si suppone che l'utente utilizzi le conoscenze precedenti per determinare i modelli in esame. Non ho mai visto esplicite raccomandazioni da parte dei sostenitori di questo modello riguardo a cosa fare se non avessimo particolari motivi per scegliere un determinato insieme di ipotesi da confrontare. Si dice spesso che questo approccio sia adatto al controllo di qualità, quando esistono tolleranze note per confrontare alcune misurazioni.

  2. Non vi sono ipotesi alternative nel paradigma "test di significatività" di Fisher, solo un'ipotesi nulla, che può essere respinta se ritenuto improbabile alla luce dei dati. Dalla mia lettura, lo stesso Fisher era equivoco sull'uso di ipotesi nulle predefinite. Non riuscivo mai a trovarlo a commentare esplicitamente la questione, tuttavia sicuramente non raccomandava che questa fosse l'unica ipotesi nulla.

  3. L'uso dell'ipotesi nulla di default è talvolta interpretato come un "abuso" del test di ipotesi, ma è centrale per il popolare metodo ibrido menzionato. L'argomento sostiene che questa pratica è spesso "un preliminare inutile":

    "Il ricercatore formula una previsione teorica, generalmente la direzione di un effetto ... Quando i dati mostrano in effetti il ​​risultato direzionale previsto, ciò sembra confermare l'ipotesi. Il ricercatore verifica un'ipotesi nulla" persona di paglia "che l'effetto sia effettivamente Se quest'ultimo non può essere rifiutato al livello .05 (o qualche variante), l'apparente conferma della teoria non può essere rivendicata ... Un errore comune in questo tipo di test è quello di confondere il livello di significatività effettivamente raggiunto (per rifiutando il null della persona di paglia) con il livello di conferma raggiunto per la teoria originale ... la forza della conferma dipende in realtà [dalla nitidezza delle previsioni numeriche di un ricercatore], non dal livello di significatività raggiunto per un null di persona di paglia ".

    L'ipotesi nulla mette alla prova le controversie in psicologia. David H Krantz. Journal of American Statistical Association; Dicembre 1999; 94, 448; 1372-1381

Il video dell'Accademia Khan è un esempio di questo metodo ibrido ed è colpevole di aver commesso l'errore riportato in quella citazione. Dalle informazioni disponibili in quel video possiamo solo concludere che i ratti iniettati differiscono da quelli non iniettati, mentre il video afferma che possiamo concludere "il farmaco ha sicuramente qualche effetto". Un po 'di riflessione ci porterebbe a considerare che forse i ratti testati erano più vecchi di quelli non iniettati, ecc. Dobbiamo escludere spiegazioni alternative plausibili prima di rivendicare prove per la nostra teoria. Meno specifica è la previsione della teoria , più è difficile realizzarla.

Modifica 2:

Forse prendere l'esempio dai tuoi appunti di una diagnosi medica aiuterà. Supponiamo che un paziente possa essere "normale" o in "crisi ipertensiva".

Abbiamo informazioni preliminari che solo l'1% delle persone è in crisi ipertensiva. Le persone in crisi ipertensiva hanno la pressione arteriosa sistolica che segue una distribuzione normale con media = 180 e sd = 10. Nel frattempo, le persone normali hanno la pressione sanguigna da una distribuzione normale con media = 120, sd = 10. Il costo per giudicare una persona normale quando è pari a zero, il costo per mancare una diagnosi è 1 e il costo dovuto agli effetti collaterali dovuti al trattamento è 0,2, indipendentemente dal fatto che siano in crisi o meno. Quindi il seguente codice R calcola la soglia (eta) e il rapporto di verosimiglianza. Se il rapporto di probabilità è maggiore della soglia che decidiamo di trattare, se inferiore a non:

#Prior probabilities
P0=.99 #Prior probability patient is normal
P1=1-P0 #Prior probability patient is in crisis

#Hypotheses
H0<-dnorm(x=50:250, mean=120, sd=10) #H0: Patient is normal
H1<-dnorm(x=50:250, mean=180, sd=10) #H1: Patient in hypertensive crisis

#Costs
C00=0 #Decide normal when normal
C01=1 #Decide normal when in crisis
C10=.2 #Decide crisis when normal
C11=.2 #Decide crisis when in crisis

#Threshold
eta=P0*(C10-C00)/ P1*(C01-C11)

#Blood Pressure Measurements
y<-rnorm(3, 150, 20)

#Calculate Likelihood of Each Datapoint Given Each Hypothesis
L0vec=dnorm(x=y, mean=120, sd=10) #Vector of Likelihoods under H0
L1vec=dnorm(x=y, mean=180, sd=10) #Vector of Likelihoods under H1

#P(y|H) is the product of the likelihoods under each hypothesis
L0<-prod(L0vec)
L1<-prod(L1vec)

#L(y) is the ratio of the two likelihoods
LikRatio<-L1/L0


#Plot
plot(50:250, H0, type="l", col="Green", lwd=4, 
     xlab=" Systolic Blood Pressure", ylab="Probability Density Given Model",
     main=paste0("L=",signif(LikRatio,3)," eta=", signif(eta,3)))
lines(50:250, H1, col="Red", lwd=4)
abline(v=y)

#Decision
if(LikRatio>eta){
  print("L > eta  ---> Decision: Treat Patient")
}else{
  print("L < eta  ---> Do Not Treat Patient")
}

Nello scenario precedente la soglia eta = 15,84. Se prendiamo tre misurazioni della pressione sanguigna e otteniamo 139,9237, 125,2278, 190,3765, allora il rapporto di probabilità è 27,6 a favore di H1: paziente in crisi ipertensiva. Poiché il 27,6 è maggiore della soglia che sceglieremmo di trattare. Il grafico mostra l'ipotesi normale in verde e ipertensiva in rosso. Le linee nere verticali indicano i valori delle osservazioni.

inserisci qui la descrizione dell'immagine


la persona che ha votato in basso può spiegare questo? Cosa c'è di sbagliato in questa risposta? : S
Pinocchio,

@Pinocchio Ho cercato di chiarire le cose con un po 'di storia nella risposta, "il test delle ipotesi" è un argomento difficile da discutere chiaramente a causa di ciò. Penso di aver risposto alle domande su come vengono utilizzati i termini modello / ipotesi ma non capisco questo: "Che cosa significa assegnare un'ipotesi a ciascun campione di dati?"
Livido

Non riesco a capire perché questa risposta sia stata sottoposta a voto negativo e perché non sia più votata. È veramente eccellente Potrebbe usare un po 'più di definizioni teoriche, ma è chiaramente orientato verso un pubblico più ampio rispetto agli statistici. Il primo esempio di utilizzo di un GLM è stato particolarmente illuminante e totalmente in linea con le mie (numerose) letture accademiche. La linea di fondo è che la differenza principale tra test di ipotesi frequentista e bayesiana è la contabilità del precedente al fine di calcolare il MAP (anziché solo il MLE).
gaborous

Potrei aggiungere che una rappresentazione grafica del primo esempio con il GLM sarebbe fantastica e molto illuminante, magari usando una sorta di diagramma di leva ?
gaborous
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.