Gli intervalli di confidenza sono utili?


11

Nelle statistiche del frequentista, un intervallo di confidenza al 95% è una procedura che produce intervalli che, se ripetuta un numero infinito di volte, conterrebbe il vero parametro il 95% delle volte. Perché è utile?

Gli intervalli di confidenza sono spesso fraintesi. Essi sono non un intervallo che possiamo essere certi al 95% il parametro è in (a meno che non si utilizza il simile Bayesiano intervallo di credibilità). Gli intervalli di confidenza mi sembrano un'esca.

L'unico caso d'uso a cui riesco a pensare è quello di fornire l'intervallo di valori per i quali non abbiamo potuto rifiutare l'ipotesi nulla che il parametro sia quel valore. I valori p non fornirebbero queste informazioni, ma meglio? Senza essere così fuorviante?

In breve: perché abbiamo bisogno di intervalli di confidenza? Come sono utili, se interpretati correttamente?



L'intervallo di credibilità bayesiana non è né un intervallo in cui possiamo essere certi al 95% che il parametro sia
inserito

@MartijnWeterings: a meno che tu non sia sicuro al 100% del tuo precedente.
Xi'an,

@ Xi'an che funziona quando un parametro è sicuro al 100% di essere ragionevolmente considerato una variabile casuale e un esperimento è come il campionamento da una distribuzione di frequenza congiunta , cioè usi la regola di Bayes come: senza "precedente" esplicito. Non è lo stesso per un parametro considerato risolto. Quindi le credenze posteriori richiederebbero anche di "aggiornare" la vecchia distribuzione delle frequenze articolari di e . È un po 'assurdo affermare di aggiornare le "credenze precedenti" che erano sicure al 100%. P ( θ , x ) P ( θ | x ) = P ( θ , x ) / P ( x ) X θθP(θ,x)P(θ|x)=P(θ,x)/P(x)Xθ
Sesto Empirico

Risposte:


10

Finché l'intervallo di confidenza viene trattato come casuale (cioè, considerato dalla prospettiva di trattare i dati come un insieme di variabili casuali che non abbiamo ancora visto), allora possiamo effettivamente fare utili dichiarazioni di probabilità al riguardo. In particolare, supponiamo di avere un intervallo di confidenza al livello per il parametro e che l'intervallo abbia limiti . Quindi possiamo dire che:1αθL(x)U(x)

P(L(X)θU(X)|θ)=1αfor all θΘ.

Spostarsi al di fuori del paradigma frequentista ed emarginare su per qualsiasi distribuzione precedente dà il risultato di probabilità marginale (più debole) corrispondente:θ

P(L(X)θU(X))=1α.

Una volta fissati i limiti dell'intervallo di confidenza fissando i dati su , non facciamo più appello a questa dichiarazione di probabilità, perché ora abbiamo corretto i dati. Tuttavia, se l'intervallo di confidenza viene trattato come un intervallo casuale, allora possiamo davvero fare questa affermazione di probabilità --- cioè, con probabilità il parametro ricadrà all'interno dell'intervallo (casuale).X=x1αθ

All'interno delle statistiche del frequentista, le dichiarazioni di probabilità sono affermazioni sulle frequenze relative durante prove ripetute all'infinito. Questo è vero per ogni affermazione di probabilità nel paradigma frequentista, quindi se la tua obiezione è relativa alle dichiarazioni di frequenza relativa, questa non è un'obiezione specifica degli intervalli di confidenza. Se ci spostiamo al di fuori del paradigma del frequentista, possiamo legittimamente affermare che un intervallo di confidenza contiene il suo parametro target con la probabilità desiderata, purché rendiamo marginalmente questa dichiarazione di probabilità (cioè non condizionata dai dati) e trattiamo quindi l'intervallo di confidenza nel suo senso casuale.

Non conosco altri, ma questo mi sembra un risultato di probabilità piuttosto potente e una giustificazione ragionevole per questa forma di intervallo. Personalmente sono più parziale dei metodi bayesiani, ma i risultati di probabilità che supportano gli intervalli di confidenza (nel loro senso casuale) sono risultati potenti a cui non si deve annusare.


1
"Muoversi al di fuori del paradigma frequentista" non è esattamente questo il problema? In generale, vogliamo un intervallo che contenga il valore reale di un parametro di interesse con una certa probabilità. Nessuna analisi del frequentista può darci ciò, e la reinterpretazione implicita come analisi bayesiana porta a fraintendimenti. Meglio rispondere direttamente alla domanda tramite un intervallo credibile bayesiano. Vi sono usi per intervalli di confidenza in cui si eseguono ripetutamente "esperimenti", ad esempio il controllo di qualità.
Dikran Marsupial

Non si tratta di reinterpretare implicitamente Bayesian (quest'ultimo condizionerebbe i dati per ottenere un posteriore). La risposta sta semplicemente mostrando all'OP che possiamo fare utili dichiarazioni di probabilità sull'intervallo di confidenza. Per quanto riguarda le obiezioni più generali al paradigma frequentista, queste sono buone e buone, ma non sono obiezioni specifiche per gli intervalli di confidenza.
Ben - Ripristina Monica il

1
Come si può vedere dalle dichiarazioni di probabilità di cui sopra, si può garantire che l'IC contiene il parametro con una certa probabilità, fintanto che guardiamo a questo a priori .
Ben - Ripristina Monica il

1
Se ti sei allontanato dal paradigma frequentista, ma non ti stai trasferendo in una struttura bayesiana, che struttura è? Non stavo esprimendo un'obiezione al frequentismo, credo che dovresti usare il framework che risponde più direttamente alla domanda che in realtà vuoi porre. Fiducia e intervalli credibili rispondono a domande diverse.
Dikran Marsupial

1
@Dikran: la dichiarazione di probabilità si trova come scritta ed è una pura dichiarazione matematica. Davvero non vedo come si possa ragionevolmente obiettare a questo.
Ben - Ripristina Monica il

5

Sono d'accordo con @Ben sopra e ho pensato di fornire un semplice esempio di dove un intervallo bayesiano rispetto a un intervallo frequentista sarebbe utile nella stessa circostanza.

Immagina una fabbrica con linee di assemblaggio parallele. È costoso interrompere una linea e, allo stesso tempo, vogliono produrre prodotti di qualità. Si preoccupano sia dei falsi positivi che dei falsi negativi nel tempo. Per la fabbrica, è un processo di media: sia la potenza che la protezione garantita contro i falsi positivi. Gli intervalli di confidenza, così come gli intervalli di tolleranza, sono importanti per la fabbrica. Tuttavia, le macchine andranno fuori allineamento, ovvero , e gli strumenti di rilevamento osserveranno eventi spuri. Il risultato medio è importante mentre il risultato specifico è un dettaglio operativo.θΘ

Dall'altro lato c'è un singolo cliente che acquista un singolo prodotto o un singolo lotto di prodotti. A loro non importa delle proprietà di ripetizione della catena di montaggio. Si preoccupano dell'unico prodotto che hanno acquistato. Immaginiamo che il cliente sia la NASA e hanno bisogno che il prodotto soddisfi una specifica, diciamo A loro non importa della qualità delle parti che non hanno acquistato. Hanno bisogno di un intervallo bayesiano di qualche forma. Inoltre, un singolo fallimento potrebbe uccidere molti astronauti e costare miliardi di dollari. Devono sapere che ogni singola parte acquistata soddisfa le specifiche. La media sarebbe mortale. Per un razzo di Saturno V, un tasso di difetto dell'uno percento avrebbe implicato 10.000 parti difettose durante i voli Apollo. Hanno richiesto difetti dello 0% in tutte le missioni.γΓ.

Ti preoccupi di avere un intervallo di confidenza quando lavori nello spazio campione come sta facendo una fabbrica. Sta creando lo spazio di esempio. Ti preoccupi di intervalli credibili quando lavori nello spazio dei parametri, come farebbe un cliente. Se non ti interessano le osservazioni al di fuori delle tue, allora sei bayesiano. Se ti interessano i campioni che non sono stati visti, ma che avrebbero potuto essere visti, allora sei un frequentatore.

Sei interessato alla media di lungo periodo o all'evento specifico?


La NASA acquista effettivamente parti basate su intervalli bayesiani? Capisco il tuo punto, ma lo fanno davvero ?
Aksakal,

@Aksakal Non lo so. Juran, ovviamente, ha scritto un meraviglioso lavoro sulla garanzia della qualità alla NASA, ma non ricordo affatto se il processo di test è stato discusso perché è passato più di un decennio da quando l'ho letto. So che W Edwards Deming si è opposto agli intervalli di confidenza a favore di intervalli credibili, ma ancora una volta, ciò non riguarda direttamente. La mia ipotesi, e conosco persone che lo saprebbero, ma è scomodo chiedere al momento, è che usano metodi Frequentist perché è quello in cui la maggior parte delle persone è addestrata. Usi il martello che hai.
Dave Harris,

È il caso di "un martello" però? Forse ha qualcosa a che fare con il modo in cui le cose sono in ingegneria?
Aksakal

@Aksakal Non sono qualificato per opporvisi.
Dave Harris,

Supponiamo che un'azienda produca parti, con un test di ipotesi composita a livello di hai testate per errori: di loro passano senza errori e di loro falliscono. Puoi dare alla NASA una ragionevole garanzia. La quantità massima di prodotti che può accidentalmente superare il test (considerata erroneamente senza errori) è . Sapendo che hai venduto articoli, puoi calcolare la massima probabilità che una parte venduta non sia effettivamente conforme all'ipotesi alternativa . nαH0:γ>ΓxynαxγΓ
Sesto Empirico

4

Si noti che dalla definizione rigorosa dell'intervallo di confidenza, è possibile che siano completamente privi di significato, cioè non informativi sul parametro di interesse. Tuttavia, in pratica, sono generalmente molto significativi.

Come esempio di intervallo di confidenza insignificante, supponiamo che io abbia una procedura che il 95% delle volte produce e il 5% delle volte produce [ , ], dove sono una coppia di variabili casuali tali che . Quindi questa è una procedura che cattura ogni probabilità almeno il 95% delle volte, quindi tecnicamente è un intervallo di confidenza valido per qualsiasi probabilità. Tuttavia, se dicessi che l'intervallo prodotto da questa procedura era per una data , dovresti capire che non hai davvero imparato nulla su .[0,1]UminUmaxUmin,UmaxUmin<Umax[0.01,0.011]pp

D'altra parte, la maggior parte degli intervalli di confidenza sono costruiti in modo più utile. Ad esempio, se ti dicessi che è stato creato usando una procedura Wald Interval, allora lo sappiamo

p^ ˙ N(p,se)

dove è l'errore standard. Questa è un'affermazione molto significativa su come riferisce a . Trasformarlo in un intervallo di confidenza è semplicemente un tentativo di semplificare questo risultato a qualcuno che non ha familiarità con le normali distribuzioni. Questo non significa solo che è solo uno strumento per le persone che non conoscono le normali distribuzioni; ad esempio, il bootstrap percentile è uno strumento per riepilogare l'errore tra lo stimatore e il parametro true quando la distribuzione di questo errore può essere non gaussiana.sep^p


2

Gli intervalli di confidenza non sono solo utili, ma essenziali in alcuni campi, come la fisica. Sfortunatamente, la maggior parte del rumore riguardante gli EC proviene dai bayesiani coinvolti in falsi dibattiti con i frequentisti, di solito nel contesto delle "scienze" sociali e di altre discipline simili alla scienza.

Supponiamo che misuri una quantità in Fisica, come la carica di elettricità. Lo fornirei sempre con la misura dell'incertezza del valore, che di solito è una deviazione standard. Poiché, in Fisica, gli errori sono spesso gaussiani, questo viene tradotto direttamente in CI. Tuttavia, quando gli errori non sono gaussiani, diventa un po 'complicato, alcuni integrali devono essere valutati ecc. Niente di troppo esoterico, tuttavia di solito.

Ecco una breve presentazione dell'IC nella fisica delle particelle e la definizione:

affermazione quantitativa sulla frazione di volte in cui un tale intervallo conterrebbe il vero valore del parametro in un gran numero di esperimenti ripetuti

Si noti che in Fisica "esperimenti ripetuti" ha spesso un significato letterale: si presume che si possano effettivamente ripetere esperimenti nel documento e osservare effettivamente quella frazione. Quindi, l'IC ha un significato quasi letterale per te ed è solo un modo per esprimere le informazioni sull'incertezza della misurazione. Non è un esperimento mentale, non un'opinione soggettiva, non i tuoi o i miei sentimenti sulle probabilità ecc. È ciò che sei stato in grado di escogitare dagli esperimenti e ciò che dovrei essere in grado di osservare quando riproduco il tuo esperimento.


1

Questo thread si è rapidamente trasformato nel dibattito Frequentista vs Bayesiano, e ciò non è facilmente risolvibile. La matematica in entrambi gli approcci è solida, quindi si riduce sempre alle preferenze filosofiche. L'interpretazione frequente della probabilità come limite della frequenza relativa di un evento è giustificata dalla legge forte di grandi numeri; indipendentemente dalla tua interpretazione preferita della probabilità, la frequenza relativa di un evento converge alla sua probabilità con la probabilità 1.

Gli intervalli di confidenza frequentista sono in effetti più difficili da interpretare rispetto agli intervalli credibili bayesiani. Trattando una quantità sconosciuta come una variabile casuale, i bayesiani possono affermare che un intervallo contiene quella quantità con una certa probabilità. I frequentatori rifiutano di trattare alcune quantità come variabili casuali e qualsiasi equazione contenente solo costanti può essere solo vera o falsa. Quindi, quando si stima una costante sconosciuta, i frequentatori devono vincolarli con un intervallo RANDOM per coinvolgere la probabilità. Piuttosto che un intervallo contenente una variabile casuale con una certa probabilità, un metodo frequentista genera molti diversi intervalli possibili, alcuni dei quali contengono la costante sconosciuta. Se la probabilità di copertura è ragionevolmente alta, è ragionevole ritenere che un determinato intervallo contenga la costante sconosciuta (nota, non "

Un bayesiano si opporrebbe a un tale balzo di fede tanto quanto un frequentatore si oppone a trattare qualsiasi quantità sconosciuta come una variabile casuale. Il metodo di costruzione del frequentatore Neyman ha di fatto rivelato un problema imbarazzante con tali salti di fede. Senza prevenirlo attivamente (vedi Feldman e Cousins, 1997 per un approccio), risultati rari possono generare intervalli di confidenza EMPTY per un parametro di distribuzione. Un tale salto di fede sarebbe irragionevole! Ho visto alcuni bayesiani usare quell'esempio per deridere i metodi del frequentista, mentre i frequentatori in genere rispondono con "bene ho sempre un intervallo corretto per la maggior parte del tempo e senza fare false assunzioni". Sottolineerò che l'impasse bayesiana / frequentista non è importante per la maggior parte di coloro che applicano i loro metodi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.