Quali metodi non bayesiani esistono per l'inferenza predittiva?


22

Nell'inferenza bayesiana si ottiene una distribuzione predittiva di dati futuri integrando parametri sconosciuti; l'integrazione sulla distribuzione posteriore di tali parametri fornisce una distribuzione predittiva posteriore, una distribuzione per dati futuri subordinata a quelli già osservati. Quali metodi non bayesiani per l'inferenza predittiva ci sono che tengono conto dell'incertezza nelle stime dei parametri (cioè che non si limitano a collegare le stime della massima verosimiglianza o qualunque altra cosa in una funzione di densità)?

Tutti sanno come calcolare gli intervalli di predizione dopo una regressione lineare, ma quali sono i principi alla base del calcolo e come possono essere applicati in altre situazioni (ad es. Calcolare un intervallo di predizione esatto per una nuova variabile esponenziale dopo aver stimato il parametro rate dai dati)?


6
Penso che questa sia una grande domanda, e voglio fornire almeno una risposta parziale, ma probabilmente non avrò il tempo di renderlo giustizia per un po '... quindi per ora continuerò a dare una taglia su questo .
Glen_b -Restate Monica

3
@ DavidC.Norris Non vedo perché si debba insistere sul fatto che ci siano necessariamente altre fonti di incertezza sui parametri oltre a ciò (da cui l'inferenza predittiva dovrebbe tenere conto sia di ciò che della variabilità casuale nel processo stesso). Quello di per sé non è banale nemmeno in esempi abbastanza elementari: ad esempio, prova a produrre intervalli di previsione per una somma di predizioni da un Poisson o una regressione binomiale negativa. Inoltre, non è necessario essere un bayesiano per supporre che ci siano variazioni nei parametri tra le categorie (come le persone hanno usato modelli misti per).
Glen_b -Restate Monica

2
@ DavidC.Norris: ho chiesto informazioni sui metodi non bayesiani semplicemente perché il calcolo delle distribuzioni predittive posteriori è trattato in ogni introduzione alle statistiche bayesiane, mentre i metodi frequentisti generali per il calcolo degli intervalli di previsione non sono ampiamente noti.
Scortchi - Ripristina Monica

2
@EngrStudent, il bootstrap funziona ricampionando i dati originali, e quindi rientra nella stessa categoria di altri metodi frequentisti che trattano solo la variazione del campionamento come fonte di incertezza. Non espande il concetto stesso di incertezza.
David C. Norris,

3
@ DavidC.Norris: è la variazione campionaria come fonte di incertezza - che influenza le previsioni di osservazioni future piuttosto che l'inferenza sui parametri - che mi interessa qui, piuttosto che metodi non bayesiani per tenere conto di altri tipi di incertezza.
Scortchi - Ripristina Monica

Risposte:


20

L'inferenza predittiva non bayesiana (a parte il caso SLR) è un campo relativamente recente. Sotto l'intestazione di "non bayesiano" possiamo suddividere gli approcci in quelli che sono frequentatori "classici" rispetto a quelli basati sulla "probabilità".

Previsione del frequentatore classico

Come sapete, il "gold standard" nel frequentismo è quello di ottenere la copertura nominale sotto campionamento ripetuto. Ad esempio, vogliamo che una regione di confidenza al 95% contenga i parametri reali nel 95% dei campioni della stessa popolazione sottostante. Oppure, prevediamo di commettere errori di tipo I e II in un test di ipotesi in media pari a e . Infine, e più pertinente a questa domanda, prevediamo che il nostro intervallo di predizione del 95% contenga il punto campione successivo il 95% delle volte.βαβ

Ora, ho generalmente avuto problemi con il modo in cui i PI classici sono presentati e insegnati nella maggior parte dei corsi di statistica, perché la tendenza schiacciante è di interpretarli come intervalli predittivi posteriori bayesiani, che non sono decisamente. Fondamentalmente, stanno parlando di diverse probabilità! Bayesian's non fa alcuna pretesa sulla ripetuta performance di campionamento delle loro quantità (altrimenti sarebbero frequentatori). In secondo luogo, un PI bayesiano sta realizzando qualcosa di più simile nello spirito a un intervallo di tolleranza classico che a un intervallo di previsione classico.

Per riferimento: gli intervalli di tolleranza devono essere specificati da due probabilità: la sicurezza e la copertura. La fiducia ci dice quanto spesso è corretta nei campioni ripetuti. La copertura ci dice la misura di probabilità minima dell'intervallo sotto la vera distribuzione (al contrario del PI, che fornisce la misura di probabilità attesa ... ancora sotto campionamento ripetuto). Questo è fondamentalmente ciò che anche il PI bayesiano sta cercando di fare, ma senza pretese di campionamento ripetuto.

Quindi, la logica di base della regressione lineare semplice di Statistics 101 è quella di derivare le proprietà di campionamento ripetute del PI sotto il presupposto della normalità. È l'approccio frequentista + gaussiano che viene generalmente considerato "classico" e insegnato in lezioni di introduzione alle statistiche. Questo si basa sulla semplicità dei calcoli risultanti (vedi Wikipedia per una bella panoramica).

Le distribuzioni di probabilità non gaussiane sono generalmente problematiche perché possono mancare quantità cruciali che possono essere ordinatamente invertite per ottenere un intervallo. Pertanto, non esiste un metodo "esatto" per queste distribuzioni, spesso perché le proprietà dell'intervallo dipendono dai veri parametri sottostanti.

Riconoscendo questa incapacità, un'altra classe di previsione sorse (e di inferenza e stima) con l'approccio della verosimiglianza.

Inferenza basata sulla verosimiglianza

Gli approcci basati sulla verosimiglianza, come molti moderni concetti statistici, possono essere fatti risalire a Ronald Fisher. L'idea di base di questa scuola è che, fatta eccezione per casi speciali, le nostre inferenze statistiche sono su un terreno logicamente più debole rispetto a quando abbiamo a che fare con inferenze da una distribuzione normale (le cui stime dei parametri sono ortogonali ), dove possiamo fare affermazioni di probabilità esatte. In questa visione di inferenza, si dovrebbero davvero evitare le dichiarazioni sulla probabilità, tranne nel caso esatto, altrimenti si dovrebbero fare dichiarazioni sulla probabilità e riconoscere che non si conosce l'esatta probabilità di errore (in senso frequentista).

Pertanto, possiamo vedere la probabilità come affine alla probabilità bayesiana, ma senza i requisiti di integrabilità o la possibile confusione con la probabilità frequentista. La sua interpretazione è del tutto soggettiva ... sebbene un rapporto di probabilità di 0,15 sia spesso raccomandato per l'inferenza di un singolo parametro.

Tuttavia, non si vedono spesso documenti che danno esplicitamente "intervalli di probabilità". Perché? Sembra che questo sia in gran parte una questione di sociologia, poiché ci siamo tutti abituati alle dichiarazioni di fiducia basate sulla probabilità. Invece, ciò che vedi spesso è un autore che si riferisce a un intervallo di confidenza "approssimativo" o "asintotico" di tale e tale. Questi intervalli derivano in gran parte dai metodi di verosimiglianza, in cui facciamo affidamento sulla distribuzione asintotica del Chi-quadrato del rapporto di verosimiglianza in modo analogo a quello che facciamo sulla normalità asintotica della media del campione.

Con questa "correzione" ora possiamo costruire regioni di confidenza "approssimative" al 95% con una consistenza quasi logica come i bayesiani.

Da CI a PI nel Likelihood Framework

Il successo e la facilità dell'approccio di probabilità di cui sopra hanno portato a idee su come estenderlo alla previsione. Un articolo molto bello sondaggio su questo è data qui (non voglio riprodurre la sua eccellente copertura). Può essere fatto risalire a David Hinkley alla fine degli anni '70 (vedi JSTOR ), che ha coniato il termine. Lo ha applicato al perenne " Problema di previsione binomiale di Pearson ". Riassumo la logica di base.

L'intuizione fondamentale è che se includiamo un punto dati non osservato, diciamo , nel nostro esempio, e quindi eseguiamo un'inferenza di probabilità tradizionale su invece di un parametro fisso, allora ciò che otteniamo non è solo una funzione di probabilità, ma una distribuzione ( non normalizzato), dal momento che il "parametro" è in realtà casuale e quindi può essere logicamente assegnato una probabilità frequentista. I meccanismi di questo per questo particolare problema sono rivisti nei link che ho fornito.y yyyy

Le regole di base per sbarazzarsi dei parametri di "disturbo" per ottenere una probabilità predittiva sono le seguenti:

  1. Se un parametro è fisso (ad esempio, ), allora profilalo fuori dalla probabilità.μ,σ
  2. Se un parametro è casuale (ad es. Altri dati non osservati o "effetti casuali"), li integri (proprio come nell'approccio bayesiano).

La distinzione tra un parametro fisso e casuale è unica per l'inferenza di verosimiglianza, ma ha connessioni con modelli di effetti misti, in cui sembra che i quadri bayesiano, frequentista e di verosimiglianza si scontrino.

Spero che questo abbia risposto alla tua domanda sull'ampia area della predizione "non bayesiana" (e dell'inferenza per quella materia). Dal momento che i collegamenti ipertestuali possono cambiare, farò anche una presa per il libro "In tutta la verosimiglianza: modellistica statistica e inferenza usando la verosimiglianza" che discute in profondità il moderno quadro di verosimiglianza, incluso un discreto numero di questioni epistemologiche della verosimiglianza vs bayesiano vs frequentista inferenza e predizione.


Riferimenti

  1. Intervalli di previsione: metodi non parametrici . Wikipedia. Accesso al 13/09/2015.
  2. Bjornstad, Jan F. Probabilità predittiva: una recensione. Statist. Sci. 5 (1990), n. 2, 242--254. doi: 10,1214 / ss / 1.177.012,175 mila. http://projecteuclid.org/euclid.ss/1177012175 .
  3. David Hinkley. Probabilità predittiva . The Annals of Statistics Vol. 7, n. 4 (luglio 1979), pagg. 718-728, pubblicato da: Institute of Mathematical Statistics URL stabile: http://www.jstor.org/stable/2958920
  4. Yudi Pawitan. In tutta la verosimiglianza: modellistica statistica e inferenza usando la verosimiglianza. La stampa dell'università di Oxford; 1 edizione (30 agosto 2001). ISBN-10: 0198507658, ISBN-13: 978-0198507659. Soprattutto i capitoli 5.5-5.9, 10 e 16.

5

Affronterò la mia risposta specificamente alla domanda "Quali sono i metodi non bayesiani per l'inferenza predittiva che tengono conto dell'incertezza nelle stime dei parametri?" Organizzerò la mia risposta sull'espansione del significato di incertezza .

Speriamo che le analisi statistiche forniscano supporto per vari tipi di affermazioni, comprese le previsioni . Ma restiamo incerti sulle nostre affermazioni e questa incertezza deriva da molte fonti. Le statistiche dei frequentisti sono tipicamente organizzate per affrontare solo quella parte della nostra incertezza derivante specificamente dal campionamento . Il campionamento potrebbe essere stato la principale fonte di incertezza negli esperimenti sul campo agricolo che storicamente ha fornito gran parte dello stimolo allo sviluppo di statistiche frequentiste. Ma in molte delle più importanti applicazioni attuali, non è così. Ora ci preoccupiamo di tutti i tipi di altre incertezze come la mancata specificazione del modello e varie forme di pregiudizio, di cui apparentemente ci sono centinaia (!) Di tipi [1].

Sander Groenlandia ha un meraviglioso documento di discussione [2] che evidenzia quanto possa essere importante tenere conto di queste altre fonti di incertezza e prescrive un'analisi del pregiudizio multiplo come mezzo per raggiungere questo obiettivo. Sviluppa la teoria interamente in termini bayesiani, il che è naturale. Se si desidera portare avanti un trattamento formale e coerente della propria incertezza sui parametri del modello, si è portati naturalmente a distribuzioni di probabilità positive (soggettive) su parametri; a questo punto ti perdi o il Diavolo Bayesiano o sei entrato nel Regno dei Cieli Bayesiano (a seconda della tua religione).

Alla tua domanda, @Scortchi, se ciò può essere fatto con "metodi non bayesiani", viene dimostrata una soluzione alternativa non bayesiana in [3]. Ma a chiunque sappia abbastanza sul bayesismo da scrivere la tua domanda, il trattamento sembrerà piuttosto un tentativo di attuare calcoli bayesiani "di nascosto" per così dire. Infatti, come riconoscono gli autori (vedi p. 4), più ti avvicini ai metodi più avanzati verso la fine del libro, più i metodi sembrano esattamente l'integrazione che descrivi nella tua domanda. Essi suggeriscono che il punto in cui si discostano dal bayesianismo alla fine è solo nel non imporre a priori espliciti i loro parametri prima di stimarli.

θ(α)αθ

  1. Chavalarias, David e John PA Ioannidis. "L'analisi della mappatura scientifica caratterizza 235 pregiudizi nella ricerca biomedica". Journal of Clinical Epidemiology 63, n. 11 (novembre 2010): 1205–15. doi: 10.1016 / j.jclinepi.2009.12.011.

  2. Groenlandia, Sander. "Modellazione a più preconcetti per l'analisi dei dati osservativi (con discussione)". Rivista della Royal Statistical Society: Serie A (Statistics in Society) 168, n. 2 (marzo 2005): 267–306. DOI: 10.1111 / j.1467-985X.2004.00349.x.

  3. Lash, Timothy L., Matthew P. Fox e Aliza K. Fink. Applicazione dell'analisi quantitativa del bias ai dati epidemiologici. Statistiche per biologia e salute. New York, NY: Springer New York, 2009. http://link.springer.com/10.1007/978-0-387-87959-8 .


2
Grazie! Sembra molto interessante, ma penso che sarebbe utile se potessi aggiungere una breve descrizione di come viene utilizzata l'analisi di bias multipla / quantitativa nell'inferenza predittiva.
Scortchi - Ripristina Monica

Ho aggiunto un paragrafo per rendere esplicita la connessione alla previsione . Grazie per la tua richiesta di chiarimenti, @Scortchi.
David C. Norris,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.