L'inferenza predittiva non bayesiana (a parte il caso SLR) è un campo relativamente recente. Sotto l'intestazione di "non bayesiano" possiamo suddividere gli approcci in quelli che sono frequentatori "classici" rispetto a quelli basati sulla "probabilità".
Previsione del frequentatore classico
Come sapete, il "gold standard" nel frequentismo è quello di ottenere la copertura nominale sotto campionamento ripetuto. Ad esempio, vogliamo che una regione di confidenza al 95% contenga i parametri reali nel 95% dei campioni della stessa popolazione sottostante. Oppure, prevediamo di commettere errori di tipo I e II in un test di ipotesi in media pari a e . Infine, e più pertinente a questa domanda, prevediamo che il nostro intervallo di predizione del 95% contenga il punto campione successivo il 95% delle volte.βαβ
Ora, ho generalmente avuto problemi con il modo in cui i PI classici sono presentati e insegnati nella maggior parte dei corsi di statistica, perché la tendenza schiacciante è di interpretarli come intervalli predittivi posteriori bayesiani, che non sono decisamente. Fondamentalmente, stanno parlando di diverse probabilità! Bayesian's non fa alcuna pretesa sulla ripetuta performance di campionamento delle loro quantità (altrimenti sarebbero frequentatori). In secondo luogo, un PI bayesiano sta realizzando qualcosa di più simile nello spirito a un intervallo di tolleranza classico che a un intervallo di previsione classico.
Per riferimento: gli intervalli di tolleranza devono essere specificati da due probabilità: la sicurezza e la copertura. La fiducia ci dice quanto spesso è corretta nei campioni ripetuti. La copertura ci dice la misura di probabilità minima dell'intervallo sotto la vera distribuzione (al contrario del PI, che fornisce la misura di probabilità attesa ... ancora sotto campionamento ripetuto). Questo è fondamentalmente ciò che anche il PI bayesiano sta cercando di fare, ma senza pretese di campionamento ripetuto.
Quindi, la logica di base della regressione lineare semplice di Statistics 101 è quella di derivare le proprietà di campionamento ripetute del PI sotto il presupposto della normalità. È l'approccio frequentista + gaussiano che viene generalmente considerato "classico" e insegnato in lezioni di introduzione alle statistiche. Questo si basa sulla semplicità dei calcoli risultanti (vedi Wikipedia per una bella panoramica).
Le distribuzioni di probabilità non gaussiane sono generalmente problematiche perché possono mancare quantità cruciali che possono essere ordinatamente invertite per ottenere un intervallo. Pertanto, non esiste un metodo "esatto" per queste distribuzioni, spesso perché le proprietà dell'intervallo dipendono dai veri parametri sottostanti.
Riconoscendo questa incapacità, un'altra classe di previsione sorse (e di inferenza e stima) con l'approccio della verosimiglianza.
Inferenza basata sulla verosimiglianza
Gli approcci basati sulla verosimiglianza, come molti moderni concetti statistici, possono essere fatti risalire a Ronald Fisher. L'idea di base di questa scuola è che, fatta eccezione per casi speciali, le nostre inferenze statistiche sono su un terreno logicamente più debole rispetto a quando abbiamo a che fare con inferenze da una distribuzione normale (le cui stime dei parametri sono ortogonali ), dove possiamo fare affermazioni di probabilità esatte. In questa visione di inferenza, si dovrebbero davvero evitare le dichiarazioni sulla probabilità, tranne nel caso esatto, altrimenti si dovrebbero fare dichiarazioni sulla probabilità e riconoscere che non si conosce l'esatta probabilità di errore (in senso frequentista).
Pertanto, possiamo vedere la probabilità come affine alla probabilità bayesiana, ma senza i requisiti di integrabilità o la possibile confusione con la probabilità frequentista. La sua interpretazione è del tutto soggettiva ... sebbene un rapporto di probabilità di 0,15 sia spesso raccomandato per l'inferenza di un singolo parametro.
Tuttavia, non si vedono spesso documenti che danno esplicitamente "intervalli di probabilità". Perché? Sembra che questo sia in gran parte una questione di sociologia, poiché ci siamo tutti abituati alle dichiarazioni di fiducia basate sulla probabilità. Invece, ciò che vedi spesso è un autore che si riferisce a un intervallo di confidenza "approssimativo" o "asintotico" di tale e tale. Questi intervalli derivano in gran parte dai metodi di verosimiglianza, in cui facciamo affidamento sulla distribuzione asintotica del Chi-quadrato del rapporto di verosimiglianza in modo analogo a quello che facciamo sulla normalità asintotica della media del campione.
Con questa "correzione" ora possiamo costruire regioni di confidenza "approssimative" al 95% con una consistenza quasi logica come i bayesiani.
Da CI a PI nel Likelihood Framework
Il successo e la facilità dell'approccio di probabilità di cui sopra hanno portato a idee su come estenderlo alla previsione. Un articolo molto bello sondaggio su questo è data qui (non voglio riprodurre la sua eccellente copertura). Può essere fatto risalire a David Hinkley alla fine degli anni '70 (vedi JSTOR ), che ha coniato il termine. Lo ha applicato al perenne " Problema di previsione binomiale di Pearson ". Riassumo la logica di base.
L'intuizione fondamentale è che se includiamo un punto dati non osservato, diciamo , nel nostro esempio, e quindi eseguiamo un'inferenza di probabilità tradizionale su invece di un parametro fisso, allora ciò che otteniamo non è solo una funzione di probabilità, ma una distribuzione ( non normalizzato), dal momento che il "parametro" è in realtà casuale e quindi può essere logicamente assegnato una probabilità frequentista. I meccanismi di questo per questo particolare problema sono rivisti nei link che ho fornito.y yyyy
Le regole di base per sbarazzarsi dei parametri di "disturbo" per ottenere una probabilità predittiva sono le seguenti:
- Se un parametro è fisso (ad esempio, ), allora profilalo fuori dalla probabilità.μ , σ
- Se un parametro è casuale (ad es. Altri dati non osservati o "effetti casuali"), li integri (proprio come nell'approccio bayesiano).
La distinzione tra un parametro fisso e casuale è unica per l'inferenza di verosimiglianza, ma ha connessioni con modelli di effetti misti, in cui sembra che i quadri bayesiano, frequentista e di verosimiglianza si scontrino.
Spero che questo abbia risposto alla tua domanda sull'ampia area della predizione "non bayesiana" (e dell'inferenza per quella materia). Dal momento che i collegamenti ipertestuali possono cambiare, farò anche una presa per il libro "In tutta la verosimiglianza: modellistica statistica e inferenza usando la verosimiglianza" che discute in profondità il moderno quadro di verosimiglianza, incluso un discreto numero di questioni epistemologiche della verosimiglianza vs bayesiano vs frequentista inferenza e predizione.
Riferimenti
- Intervalli di previsione: metodi non parametrici . Wikipedia. Accesso al 13/09/2015.
- Bjornstad, Jan F. Probabilità predittiva: una recensione. Statist. Sci. 5 (1990), n. 2, 242--254. doi: 10,1214 / ss / 1.177.012,175 mila.
http://projecteuclid.org/euclid.ss/1177012175 .
- David Hinkley. Probabilità predittiva . The Annals of Statistics Vol. 7, n. 4 (luglio 1979), pagg. 718-728, pubblicato da: Institute of Mathematical Statistics URL stabile: http://www.jstor.org/stable/2958920
- Yudi Pawitan. In tutta la verosimiglianza: modellistica statistica e inferenza usando la verosimiglianza. La stampa dell'università di Oxford; 1 edizione (30 agosto 2001). ISBN-10: 0198507658, ISBN-13: 978-0198507659. Soprattutto i capitoli 5.5-5.9, 10 e 16.