Cosa dicono gli intervalli di confidenza sulla precisione (se non altro)?


31

Morey et al (2015) sostengono che gli intervalli di confidenza sono fuorvianti e ci sono molteplici preconcetti legati alla loro comprensione. Tra gli altri, descrivono l'errore di precisione come segue:

L'errore di precisione
L'ampiezza di un intervallo di confidenza indica la precisione della nostra conoscenza del parametro. Intervalli di confidenza ristretti mostrano conoscenze precise, mentre errori di confidenza ampi mostrano conoscenze imprecise.

Non esiste alcuna connessione necessaria tra la precisione di una stima e la dimensione di un intervallo di confidenza. Un modo per vedere questo è immaginare due ricercatori - un ricercatore senior e uno studente di dottorato - stanno analizzando i dati di partecipanti di un esperimento. Come esercizio a beneficio dello studente di dottorato, il ricercatore senior decide di dividere casualmente i partecipanti in due set da modo che ciascuno di essi possa analizzare separatamente metà del set di dati. In una successiva riunione, i due condividono con l'uno la loro Student intervalli di confidenza per la media. L' IC dello studente di dottorato è di e l' IC del ricercatore senior è di .5025t95%52±295%53±4

Il ricercatore senior osserva che i loro risultati sono sostanzialmente coerenti e che potrebbero usare la media equamente ponderata delle loro rispettive due stime dei punti, , come stima complessiva della media reale.52.5

Lo studente di dottorato, tuttavia, sostiene che i loro due mezzi non dovrebbero essere ponderati in modo uniforme: nota che la sua IC è metà della larghezza e sostiene che la sua stima è più precisa e quindi dovrebbe essere ponderata più pesantemente. Il suo consulente osserva che ciò non può essere corretto, poiché la stima della ponderazione irregolare dei due mezzi sarebbe diversa dalla stima dell'analisi del set di dati completo, che deve essere . L'errore dello studente di dottorato è assumere che gli EC indicano direttamente la precisione post-dati.52.5

L'esempio sopra sembra essere fuorviante. Se dividessimo casualmente un campione a metà, in due campioni, ci aspetteremmo che sia la media del campione sia gli errori standard siano vicini. In tal caso non dovrebbe esserci alcuna differenza tra l'utilizzo della media ponderata (ad esempio, ponderata per errori inversi) e l'uso della media aritmetica semplice. Tuttavia, se le stime differiscono e gli errori in uno dei campioni sono notevolmente maggiori, ciò potrebbe suggerire "problemi" con tale campione.

Ovviamente, nell'esempio sopra, le dimensioni del campione sono le stesse, quindi "unire" i dati prendendo la media dei mezzi equivale a prendere la media dell'intero campione. Il problema è che l'intero esempio segue la logica mal definita che il campione viene prima diviso in parti, per poi essere ricollegato per la stima finale.

L'esempio può essere riformulato per portare esattamente alla conclusione opposta:

Il ricercatore e lo studente hanno deciso di dividere il set di dati in due metà e di analizzarli in modo indipendente. Successivamente, hanno confrontato le loro stime e sembrava che il campione significasse che i loro calcoli erano molto diversi, inoltre l'errore standard della stima dello studente era molto maggiore. Lo studente aveva paura che ciò potesse suggerire problemi con la precisione della sua stima, ma il ricercatore ha sottinteso che non vi è alcuna connessione tra intervalli di confidenza e precisione, quindi entrambe le stime sono ugualmente affidabili e possono pubblicarne una qualsiasi, scelta a caso, come stima finale.

Dichiarandolo in modo più formale, gli intervalli di confidenza "standard", come la di Student , si basano su errorit

x¯±c×SE(x)

dove è una costante. In tal caso, sono direttamente correlati alla precisione, no ...?c

Quindi la mia domanda è:
l'errore di precisione è davvero un errore? Cosa dicono gli intervalli di confidenza sulla precisione?


Morey, R., Hoekstra, R., Rouder, J., Lee, M., & Wagenmakers, E.-J. (2015). L'errore di riporre fiducia negli intervalli di confidenza. Bollettino psicologico e revisione, 1–21. https://learnbayes.org/papers/confidenceIntervalsFallacy/


2
Suppongo che se la precisione è definita come reciproca della varianza, la larghezza di questi elementi della configurazione riflette solo una stima della precisione. Tanto quanto la larghezza di un intervallo credibile bayesiano per la media rifletterebbe l'incertezza sulla precisione.
Scortchi - Ripristina Monica

@Scortchi quindi questo è un altro modo di dire che i metodi frequentisti sono inaffidabili in generale ..?
Tim

7
Direi che questa è un'aringa rossa. Ho appena simulato 10.000 esperimenti, ognuno dei quali estrae 50 campioni da una distribuzione normale con media 52.5 e SD 7.5 (in modo che il SE dei sottocampioni di dimensione 25 sarebbe approssimativamente7.5/25=5±3

@StephanKolassa Ho fatto esattamente la stessa simulazione che ha portato esattamente alle stesse conclusioni - ecco come è emersa la domanda :)
Tim

2
@Tim: Non so davvero cosa stanno cercando di ottenere: se la vera precisione della stima della media è concepita come una funzione di un valore di parametro sconosciuto, comune ai due sottocampioni, allora io non pensare che a nessuno dispiacerebbe ammettere che la differenza nella larghezza di questi due EC non riflette quindi una differenza nella precisione delle stime (a meno che non abbiano dubitato della procedura di sottocampionamento). Considerare le proprietà di copertura degli EC condizionate al coefficiente di variazione osservato potrebbe essere stata una tattica migliore.
Scortchi - Ripristina Monica

Risposte:


16

Nel documento, dimostriamo effettivamente l'errore di precisione in più modi. Quello di cui stai chiedendo - il primo nel documento - L'esempio ha lo scopo di dimostrare che un "CI = precisione" semplicistico è sbagliato. Questo non vuol dire che qualsiasi frequentatore competente, bayesiano o verosimile sarebbe confuso da questo.

Nx¯s2s2σ2

Per quanto riguarda altre dimostrazioni dell'errore di precisione, vedi

  • i CI multipli nella sezione Welch (1939) (il sottomarino), uno dei quali include la CI "banale" menzionata da @dsaxton sopra. In questo esempio, l'elemento della configurazione ottimale non tiene traccia dell'ampiezza della probabilità e non esistono nemmeno altri esempi di elementi della configurazione.
  • Il fatto che gli elementi della configurazione - anche gli elementi "buoni" possono essere vuoti, "falsamente" che indica una precisione infinita

La risposta all'enigma è che la "precisione", almeno nel modo in cui i sostenitori dell'IC ci pensano (una valutazione post-sperimentale di come "una stima" sia vicina a un parametro) non è semplicemente una caratteristica che gli intervalli di confidenza hanno in generale e non erano fatti per. Procedure di confidenza particolari potrebbero ... o no.

Vedi anche la discussione qui: http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591


7
(+1) Fantastico ascoltare l'autore reale! Sono d'accordo sul fatto che gli elementi della configurazione hanno diverse questioni filosofiche, così come TUTTE le forme di inferenza (solo questioni diverse ) ... Mi piace come hai sottolineato che è la procedura di confidenza specifica che devi considerare, non solo che è una CI in tali e tale livello.

4
(+1) Grazie per la tua risposta! Sono d'accordo con le argomentazioni che affermi nel tuo articolo che gli elementi della configurazione non devono dire nulla sulla precisione, tuttavia chiamare questo un errore dà l'impressione che tu indichi che non dicono nulla sulla precisione - e questo non è lo stesso ... Inoltre: secondo te, "l'errore di precisione" è un problema di analisi della vita reale ..? Sono d'accordo che l'interpretazione errata degli elementi della configurazione è, ma in questo caso, non sono così sicuro ...
Tim

2
L'impatto della "vita reale" è difficile da quantificare, in particolare si potrebbe parlare di impatto in uno specifico scenario di analisi o in un campo. Per il semplice calcolo di un elemento della configurazione su un gaussiano significa che l'errore non è troppo pericoloso. Ma considera l'elenco di citazioni su p117 (il paragrafo inizia "Quanto spesso sarà la procedura di fiducia di Steiger ..."). Gli intervalli in questi articoli pubblicati sono probabilmente "troppo" ristretti. L'errore ha altri impatti: una mancanza di completezza sui generatori di nuove procedure di IC (controlla qualsiasi documento con un nuovo CI), riluttanza degli analisti ad allontanarsi dalle ipotesi gaussiane quando necessario, e altri.
richarddmorey,

Sono attratto da queste paratie. Che cos'è questo "sottomarino"?
Superbo

1
θ

13

Innanzitutto, limitiamoci alle procedure di CI che producono solo intervalli con larghezze finite rigorosamente positive (per evitare casi patologici).

In questo caso, la relazione tra precisione e larghezza CI può essere teoricamente dimostrata. Prendi una stima per la media (quando esiste). Se il tuo CI per la media è molto ristretto, allora hai due interpretazioni: o hai avuto un po 'di sfortuna e il tuo campione è stato raggruppato troppo strettamente (a priori 5% di probabilità che ciò accada), o il tuo intervallo copre la vera media (95% possibilità a priori). Certo, l'IC osservato può essere uno di questi due, ma , abbiamo impostato il nostro calcolo in modo che quest'ultimo sia molto più probabile che si sia verificato (cioè, 95% di probabilità a priori) ... quindi, abbiamo un alto grado di fiduciache il nostro intervallo copre la media, perché impostiamo le cose probabilisticamente, quindi è così. Pertanto, un IC al 95% non è un intervallo di probabilità (come un intervallo credibile bayesiano), ma piuttosto un "consigliere di fiducia" ... qualcuno che, statisticamente, ha ragione il 95% delle volte, quindi ci fidiamo delle loro risposte anche se qualsiasi risposta particolare potrebbe benissimo essere sbagliata.

Nel 95% dei casi in cui copre il parametro reale, la larghezza ti dice qualcosa sull'intervallo di valori plausibili dati i dati (cioè, quanto bene puoi legare il valore reale), quindi si comporta come una misura di precisione . Nel 5% dei casi in cui non lo è, l'IC è fuorviante (poiché il campione è fuorviante).

Quindi, la larghezza CI al 95% indica precisione ... Direi che c'è una probabilità del 95% (a condizione che la tua larghezza CI sia finita in positivo) ;-)

Cos'è un CI sensibile?

In risposta al post dell'autore originale, ho modificato la mia risposta a (a) tenendo conto del fatto che l'esempio "split sample" aveva uno scopo molto specifico e (b) di fornire un po 'più di sfondo come richiesto dal commentatore:

In un mondo ideale (frequentista), tutte le distribuzioni campionarie ammetterebbero una statistica fondamentale che potremmo usare per ottenere intervalli di confidenza esatti. Cosa c'è di così straordinario nelle statistiche pivotal? La loro distribuzione può essere derivata senza conoscere il valore effettivo del parametro da stimare! In questi bei casi, abbiamo una distribuzione esatta della nostra statistica campione relativa al parametro vero (anche se potrebbe non essere gaussiano) su questo parametro.

In parole povere: conosciamo la distribuzione dell'errore (o una sua trasformazione).

È questa qualità di alcuni stimatori che ci consente di formare intervalli di confidenza sensati. Questi intervalli non soddisfano solo le loro definizioni ... lo fanno in virtù del fatto che sono derivati ​​dalla distribuzione effettiva dell'errore di stima.

La distribuzione gaussiana e la statistica Z associata sono l'esempio canonico dell'uso di una quantità cardine per sviluppare un CI esatto per la media. Ci sono esempi più esoterici, ma questo è generalmente quello che motiva la "teoria dei grandi campioni", che è fondamentalmente un tentativo di applicare la teoria dietro gli IC gaussiani alle distribuzioni che non ammettono una vera quantità fondamentale. In questi casi, leggerai le quantità approssimativamente pivotali o asintoticamente pivotali (nella dimensione del campione) o gli intervalli di confidenza "approssimativi" ... questi sono basati sulla teoria della probabilità, in particolare sul fatto che la distribuzione dell'errore per molti MLE si avvicina a una distribuzione normale.

Un altro approccio per la generazione di IC sensibili è quello di "invertire" un test di ipotesi. L'idea è che un test "buono" (ad es. UMP) si tradurrà in un buono (leggi: stretto) CI per un dato tasso di errore di tipo I. Questi non tendono a fornire una copertura esatta, ma forniscono una copertura con limite inferiore (nota: la definizione effettiva di un X% -CI dice solo che deve coprire il parametro vero almeno l' X% delle volte).

L'uso di test di ipotesi non richiede direttamente una quantità fondamentale o una distribuzione dell'errore - la sua sensibilità deriva dalla sensibilità del test sottostante. Ad esempio, se avessimo un test la cui regione di rifiuto aveva lunghezza 0 5% delle volte e lunghezza infinita del 95% delle volte, saremmo tornati dove eravamo con gli elementi della configurazione, ma è ovvio che questo test non è in base ai dati, e quindi non fornirà alcuna informazione sul parametro sottostante in fase di test.

Questa idea più ampia - che una stima della precisione dovrebbe essere subordinata ai dati, risale a Fischer e all'idea delle statistiche accessorie. Puoi essere sicuro che se il risultato del tuo test o procedura di CI non è condizionato dai dati (ovvero, il suo comportamento condizionale è lo stesso del suo comportamento incondizionato), hai un metodo discutibile tra le mani.


2
Sarebbe bello se potessi approfondire ciò che hai aggiunto in una "Nota". Questo è il punto cruciale dell'intera discussione: si possono escogitare procedure frequentiste molto strane ma valide per la costruzione di EC in cui l'ampiezza dell'IC non ha alcuna relazione con alcuna precisione. Quindi si può discutere, come Morey et al. fare, che gli EC siano fuorviati in linea di principio. Sono d'accordo con te sul fatto che le procedure di CI comunemente utilizzate sono più ragionevoli di così, ma bisogna essere chiari su ciò che le rende tali.
ameba dice Ripristina Monica il

@amoeba Ho aggiunto qualche spiegazione in più sul perché non tutti gli EC sono creati uguali ... l'idea principale è l'ancorarietà, il secondo è il ruolo di una distribuzione degli errori (o un'approssimazione ad essa)

Grazie per l'aggiornamento. Una cosa che ancora non trovo molto chiara nella tua risposta, è che nel primo paragrafo non dici nulla sulla larghezza della CI; stai solo parlando del fatto che contiene o non contiene il vero parametro di popolazione. Tutto è corretto anche in casi "patologici". Quindi in te dici che sì, la larghezza indica precisione, ma non hai fornito alcun argomento per questo (a quel punto). Nella discussione successiva lo spieghi di più però.
ameba dice Ripristina Monica il

@amoeba Immagino che il mio post potrebbe fare con un po 'più di formattazione. La logica di base è questa (supponendo che stiamo usando una procedura CI "ragionevole" come ho delineato): c'è una probabilità a priori del 95% che l'intervallo contenga il parametro vero. Dopo aver raccolto i dati, abbiamo il nostro intervallo effettivo (larghezza finita, diversa da zero). Se contiene il parametro vero, allora la larghezza esprime l'intervallo di valori plausibili che potrebbe essere, quindi la larghezza limita l'intervallo del parametro. TUTTAVIA, nel 5% dei casi in cui l'intervallo non contiene il valore, l'intervallo è fuorviante.

Post aggiornato @amoeba per enfatizzare meglio la connessione tra larghezza CI e precisione.

8

{x1,x2,,xn}(μ,σ2)μ(,){0}basato sul lancio di una moneta distorta. Usando il giusto orientamento possiamo ottenere qualsiasi livello di confidenza che ci piace, ma ovviamente il nostro intervallo "stima" non ha alcuna precisione anche se finiamo con un intervallo che ha larghezza zero.

Il motivo per cui non credo che dovremmo preoccuparci di questo apparente errore è che, se è vero che non c'è alcuna connessione necessaria tra la larghezza di un intervallo di confidenza e precisione, non v'è un collegamento quasi universale tra errori standard e di precisione, e in la maggior parte dei casi la larghezza di un intervallo di confidenza è proporzionale a un errore standard.

σ


Un buon punto sugli IC casuali infiniti ... mostra sicuramente che la fiducia è un concetto diverso dalla precisione. Probabilmente avrei dovuto mettere in dubbio la mia risposta affermando che sto assumendo un elemento di controllo basato sulla verosimiglianza, in cui la larghezza è correlata alla curvatura della verosimiglianza, che è un'approssimazione dell'errore standard ... il tuo post sottolinea che ci sono IC che tecnicamente raggiungono copertura ma in modo molto controintuitivo.

Un problema correlato (anche se molto interessante) è quello dei sottoinsiemi rilevanti per un elemento della configurazione ... ad esempio, se si effettua una condizione su statistiche accessorie, la copertura dell'elemento della configurazione può cambiare (un caso in questione è che la copertura condizionale di un intervallo t modifiche basate sulla variabilità del campione). Ecco il link al documento: jstor.org/stable/2242024?seq=1#page_scan_tab_contents

@Bey C'è un altro esempio meno estremo di questo documento che coinvolge un sottomarino: webfiles.uci.edu/mdlee/fundamentalError.pdf . È interessante, ma sembra essere il caso di un'interpretazione che nessuna persona intelligente farebbe.
Dsaxton,

D'accordo ... non riesco a lasciare il buonsenso alla porta con le statistiche ... anche in Machine Learning (in qualche modo un termine improprio)

1
@richarddmorey: Okay, capisco. Quindi è stata solo una sfortunata formulazione! Non l'ho preso di proposito dal contesto; Onestamente ho letto questa frase come un riassunto e una generalizzazione di qualsiasi situazione (non rendendomi conto che "in quell'esempio" era assunto in quella frase). Considera di lasciare un commento di chiarimento in quell'altro thread con la mia accusa (che ha già ottenuto alcuni voti).
ameba dice Reinstate Monica il

4

Penso che la distinzione dimostrabile tra "intervalli di confidenza" e "precisione" (vedi risposta da @dsaxton) sia importante perché tale distinzione evidenzia problemi nell'uso comune di entrambi i termini.

Citando da Wikipedia :

La precisione di un sistema di misurazione, correlata alla riproducibilità e ripetibilità, è il grado in cui misurazioni ripetute in condizioni invariate mostrano gli stessi risultati.

Si potrebbe quindi sostenere che gli intervalli di confidenza del frequentista rappresentano un tipo di precisione di uno schema di misurazione . Se si ripete lo stesso schema, l'IC del 95% calcolato per ciascuna ripetizione conterrà l'unico valore vero del parametro nel 95% delle ripetizioni.

Questo, tuttavia, non è ciò che molte persone desiderano da una misura pratica di precisione. Vogliono sapere quanto è vicino il valore misurato al valore reale . Gli intervalli di confidenza del frequentista non forniscono rigorosamente quella misura di precisione. Lo fanno le regioni credibili bayesiane.

Una parte della confusione è che, in esempi pratici, gli intervalli di confidenza frequentista e le regioni credibili bayesiane "si sovrapporranno più o meno" . Il campionamento da una distribuzione normale, come in alcuni commenti sull'OP, ne è un esempio. Questo può anche accadere in pratica per alcuni dei più ampi tipi di analisi che @Bey aveva in mente, sulla base di approssimazioni a errori standard in processi che hanno distribuzioni normali nel limite.

Se sai che ti trovi in ​​una situazione del genere , allora potrebbe non esserci alcun pericolo pratico nell'interpretazione di un particolare IC al 95%, da una singola implementazione di uno schema di misurazione, come avere una probabilità del 95% di contenere il valore reale. Tale interpretazione degli intervalli di confidenza, tuttavia, non proviene da statistiche frequentiste, per le quali il vero valore è o non rientra in quel particolare intervallo.

Se gli intervalli di confidenza e le regioni credibili differiscono nettamente, l'interpretazione di tipo bayesiano degli intervalli di confidenza frequentista può essere fuorviante o sbagliata, come dimostra il documento sopra riportato e la letteratura precedente citata in esso. Sì, il "buon senso" potrebbe aiutare a evitare tali fraintendimenti, ma nella mia esperienza il "buon senso" non è così comune.

Altre pagine CrossValidated contengono molte più informazioni sugli intervalli di confidenza e le differenze tra intervalli di confidenza e regioni credibili . I collegamenti da quelle pagine particolari sono anche altamente informativi.


Questo è un buon punto .... Penso che il pensiero più vicino all'interpretazione comune di "precisione" sia più simile all'errore RMS. Una stima imparziale ma altamente variabile non è considerata migliore di una stima a bassa variabilità ma fortemente distorta ... entrambi non si può fare affidamento su una stima vicina al valore reale.

+1, ma non sono sicuro di condividere la tua visione pessimistica sul "buon senso". C'è una grande citazione da Jeffreys di "senso comune" nelle statistiche frequentista: I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense.
ameba dice Ripristina Monica il

@amoeba considera l'affermazione di Laplace secondo cui "la teoria della probabilità non è altro che il senso comune ridotto al calcolo". Gli sforzi dedicati da allora alla teoria della probabilità mostrano almeno che le implicazioni del buon senso non sono sempre immediatamente evidenti.
EdM

@amoeba: Fisher ha rifiutato gli EC, identificando Fisher come freq-ist. è fuorviante. La sua logica degli intervalli (fiduciale) era simile all'obj. Bayes, e identifica la probabilità con incertezza razionale. Dice questo: "Talvolta si afferma che il metodo fiduciario generalmente porta agli stessi risultati del metodo di [CI]. È difficile capire come questo possa essere così, poiché è stato stabilito con fermezza che il metodo di fiducia gli intervalli non portano a dichiarazioni di probabilità sui parametri del mondo reale, mentre l'argomento fiduciario esiste per questo scopo ". (Fisher, 1959)
richarddmorey,

@richard, grazie per il chiarimento. È noto che Fisher ha detto cose contraddittorie durante la sua lunga carriera e ha cambiato opinione un paio di volte. Non ho molta familiarità con la sua teoria fiduciale, quindi non posso commentarlo. La mia assunzione inconscia era che Jeffreys in quella citazione si riferisse al "periodo frequentista" di Fisher, ma non ne ho prove. Nella mia (limitata!) Esperienza, nessuno usa mai l'inferenza fiduciaria. Nessuno. Mai. Considerando che le tecniche del frequentista sono usate continuamente e molti risalgono a Fisher. Da qui l'associazione esistente nella mia mente.
ameba dice Ripristina Monica il

1

@Bey ce l'ha. Non vi è alcuna connessione necessaria tra i punteggi e le prestazioni, né il prezzo e la qualità né l'olfatto e il gusto. Eppure l'uno di solito informa dell'altro.

Si può dimostrare per induzione che non si può fare un quiz pop. Ad un attento esame questo significa che non si può garantire che il quiz sia una sorpresa. Eppure il più delle volte lo sarà.

Sembra che Morey et al mostrino che esistono casi in cui la larghezza non è informativa. Sebbene ciò sia sufficiente per affermare "Non esiste alcuna connessione necessaria tra la precisione di una stima e la dimensione di un intervallo di confidenza", non è sufficiente concludere ulteriormente che gli EC generalmente non contengono informazioni sulla precisione. Solo che non sono garantiti per farlo.

(Punti insufficienti per la risposta di + @ Bey.)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.