Intervalli di previsione e tolleranza


11

Ho un paio di domande per gli intervalli di previsione e tolleranza.

Concordiamo prima sulla definizione degli intervalli di tolleranza: ci viene dato un livello di confidenza, diciamo il 90%, la percentuale della popolazione da catturare, diciamo il 99% e una dimensione del campione, diciamo 20. La distribuzione della probabilità è nota, diciamo normale per comodità. Ora, dati i tre numeri precedenti (90%, 99% e 20) e il fatto che la distribuzione sottostante è normale, possiamo calcolare il numero di tolleranza . Dato un campione con media e deviazione standard , l'intervallo di tolleranza è \ bar {x} \ pm ks . Se questo intervallo di tolleranza cattura il 99% della popolazione, il campione (x_1, x_2, \ ldots, x_ {20}) viene chiamato successoK(X1,X2,...,X20)X¯SX¯±KS(X1,X2,...,X20)e il requisito è che il 90% dei campioni abbia successo .

Commento: il 90% è la probabilità a priori che un campione abbia successo. Il 99% è la probabilità condizionale che una futura osservazione sarà nell'intervallo di tolleranza, dato che il campione è un successo.

Le mie domande: possiamo vedere gli intervalli di previsione come intervalli di tolleranza? Guardando sul web ho avuto risposte contrastanti su questo, per non parlare del fatto che nessuno ha veramente definito attentamente gli intervalli di previsione. Quindi, se hai una definizione precisa dell'intervallo di previsione (o un riferimento), lo apprezzerei.

Quello che ho capito è che un intervallo di previsione del 99%, ad esempio, non acquisisce il 99% di tutti i valori futuri per tutti i campioni. Questo sarebbe lo stesso di un intervallo di tolleranza che cattura il 99% della popolazione con probabilità del 100%.

Nelle definizioni che ho trovato per un intervallo di previsione del 90%, il 90% è la probabilità a priori dato un campione, diciamo (la dimensione è fissa) e una singola osservazione futura , che sarà nell'intervallo di predizione. Quindi, sembra che sia il campione che il valore futuro siano entrambi dati contemporaneamente, in contrasto con l'intervallo di tolleranza, in cui il campione è dato e con una certa probabilità è un successo , a condizione che il campione sia un successoy y(X1,X2,...,X20)yy, viene dato un valore futuro e con una certa probabilità rientra nell'intervallo di tolleranza. Non sono sicuro che la definizione sopra dell'intervallo di previsione sia corretta o meno, ma sembra controintuitiva (almeno).

Qualsiasi aiuto?


4
Gli intervalli di tolleranza unilaterali per un campionamento normale potrebbero aiutare a comprendere questa nozione. Un limite di tolleranza superiore al non è altro che un limite di confidenza superiore del quantile al 99 % della distribuzione ipotizzata del modello. Pertanto, nel caso di una distribuzione normale, questo è un limite di confidenza superiore del parametro μ + k σ dove k = z 99 % è il 99 % della distribuzione gaussiana standard. 99%99%μ+KσK=z99%99%
Stéphane Laurent,

Questa è una buona riformulazione, Stéphane, perché mostra immediatamente che ci sono diversi tipi di limiti di tolleranza: si può chiedere un limite di confidenza superiore su , per un limite di confidenza inferiore su μ + z 0,99 σ , oppure per ( diciamo) una stima imparziale di quel parametro. Tutti e tre sono chiamati "limiti di tolleranza" in letteratura. μ+z0.99σμ+z0.99σ
whuber

Penso che tu abbia voluto piuttosto dire un limite di confidenza inferiore su ? μ-z0.99σ
Stéphane Laurent,

2
In realtà, no, Stéphane (motivo per cui mi sono preso cura di ripetere la formula per il parametro). Esistono anche tre definizioni simili per un limite di tolleranza inferiore . Ad esempio, si potrebbe desiderare di sotto -stima il 99 ° percentile superiore della popolazione, ma per controllare la quantità di sottovalutazione insistiamo esserci (diciamo) una probabilità del 5% che la nostra stima per difetto sarà ancora troppo alto. Questo ci consentirà di dire cose come "I dati mostrano, con una sicurezza del 95%, che il 99 ° percentile della popolazione supera un valore del genere".
whuber

Risposte:


14

Le tue definizioni sembrano essere corrette.

Il libro da consultare su questi argomenti è Statistical Intervals (Gerald Hahn & William Meeker), 1991. Cito:

Un intervallo di previsione per una singola osservazione futura è un intervallo che, con un determinato grado di confidenza, conterrà l'osservazione successiva (o qualche altra prespecificata) selezionata casualmente da una popolazione.

[A] intervallo di tolleranza è un intervallo che si può pretendere di contenere almeno una determinata proporzione, p , della popolazione con un determinato grado di confidenza, .100(1-α)%

Ecco alcune riformulazioni nella terminologia matematica standard. Lascia che i dati siano considerati una realizzazione di variabili casuali indipendenti X = ( X 1 , , X n ) con funzione di distribuzione cumulativa comune F θ . ( θ appare come promemoria che F può essere sconosciuto ma si presume che si trovi in ​​un determinato insieme di distribuzioni F θ | θ Θ ). Lascia X 0X=(X1,...,Xn)X=(X1,...,Xn)FθθFFθ|θΘX0essere un'altra variabile casuale con la stessa distribuzione e indipendente dalle prime n variabili.Fθn

  1. Un intervallo di predizione (per una singola osservazione futura), dato dagli endpoint , ha la proprietà di definizione che[l(X),u(X)]

    infθ{Prθ(X0[l(X),u(X)])}=100(1-α)%.

    In particolare, riferisce alla distribuzione delle variabili n + 1 di ( X 0 , X 1 , , X n ) determinata dalla legge F θ . Nota l'assenza di eventuali probabilità condizionate: questa è una probabilità congiunta completa. Si noti, inoltre, l'assenza di qualsiasi riferimento a una sequenza temporale: X 0 molto bene può essere osservato nel tempo prima degli altri valori. Non importa.Prθn+1(X0,X1,...,Xn)FθX0

    Non sono sicuro di quale aspetto (i) potrebbe essere "controintuitivo". Se pensiamo di selezionare una procedura statistica come attività da svolgere prima di raccogliere dati, allora questa è una formulazione naturale e ragionevole di un processo in due fasi pianificato, perché entrambi i dati ( ) e il "valore futuro" X 0 deve essere modellato come casuale.Xio,io=1,...,nX0

  2. Un intervallo di tolleranza, dato dagli endpoint , ha la proprietà di definizione che(L(x),U(x)]

    infθ{Prθ(Fθ(U(X))-Fθ(L(X))p)}=100(1-α)%.

    Nota l'assenza di qualsiasi riferimento a : non gioca alcun ruolo.X0

Quando è l'insieme delle distribuzioni normali, esistono intervalli di predizione del modulo{Fθ}

l(X)=X¯-K(α,n)S,u(X)=X¯+K(α,n)S

( è la media del campione e s è la deviazione standard del campione). I valori della funzione k , che Hahn e Meeker tabulano, non dipendono dai dati x . Esistono altre procedure di intervallo di previsione, anche nel caso normale: queste non sono le uniche.X¯SKX

Allo stesso modo, esistono intervalli di tolleranza del modulo

L(X)=X¯-K(α,n,p)S,U(X)=X¯+K(α,n,p)S.

Esistono altre procedure di intervallo di tolleranza : queste non sono le uniche.

Notando la somiglianza tra queste coppie di formule, possiamo risolvere l'equazione

K(α,n)=K(α',n,p).

Ciò consente di reinterpretare un intervallo di previsione come intervallo di tolleranza (in molti modi diversi variando e p ) o di reinterpretare un intervallo di tolleranza come intervallo di previsione (solo ora α di solito è determinato in modo univoco da α e p ). Questa potrebbe essere un'origine della confusione.α'pαα'p


2
La confusione tra questi intervalli è reale. Un decennio fa ho avuto diverse conversazioni difficili con uno statistico del governo che era ignaro della differenza e (virulentemente) incapace di riconoscere che ce n'è una. Il suo ruolo di primo piano nella creazione di linee guida, revisione di report, consulenza agli operatori del caso, distribuzione di software e persino pubblicazioni peer-reviewed ha promosso il mantenimento di queste idee sbagliate. Quindi attenzione!
whuber

Molto bella risposta, grazie. Avevo il cuore di alcuni statistici che dicevano che un intervallo di predizione è un intervallo di tolleranza con . C'è un fatto reale dietro questa idea? In altre parole, è vero che k ( α , n ) = K ( α , n , 0,5 ) o qualcosa del genere? p=50%K(α,n)=K(α,n,0.5)
Stéphane Laurent,

3
No, non è vero @ Stéphane. Per capire perché no, considera il caso di una e di una fiducia estremamente grandi , diciamo il 95%. Con p = 50 % , l'intervallo di tolleranza su due lati dovrebbe quindi essere estremamente vicino a circa il 50% medio della distribuzione, quindi per definizione c'è solo il 50% di probabilità che X 0 si trovi al suo interno, non il 95% desiderato. Questa è una differenza enorme! Intuitivamente, un intervallo di tolleranza per il 95% della popolazione dovrebbe essere un po 'vicino a un intervallo di previsione con una sicurezza del 95%, ma non sono ancora esattamente d'accordo. np=50%X0
whuber

Ci ho appena pensato e credo che il fatto sia il seguente: quando n è grande. Questo è facile da vedere quando K è il classico fattore di tolleranza dato con l'aiuto della distribuzione t non centrale (il 50 % -quantile è il parametro di non centralità z 1 - α / K(α,n)K(50%,n,1-α)nK50% )z1-α/n
Stéphane Laurent,

@whuber. Grazie per la risposta. Dovrò assicurarmi di averlo capito, prima di contrassegnarlo come corretto. Dammi un po 'di tempo per "digerirlo".
Ioannis Souldatos,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.