Inferenza statistica sotto errata specificazione


14

Il trattamento classico dell'inferenza statistica si basa sul presupposto che esista una statistica correttamente specificata. Cioè, la distribuzione che ha generato i dati osservati fa parte del modello statistico : Tuttavia, nella maggior parte dei casi non possiamo supporre che ciò sia veramente vero. Mi chiedo cosa succede con le procedure di inferenza statistica se abbandoniamo l'assunto correttamente specificato.yP(Y)yM

P(Y)M={Pθ(Y):θΘ}

Ho trovato un lavoro di White 1982 su stime ML sotto errate specifiche. In esso si sostiene che lo stimatore della massima verosimiglianza sia uno stimatore coerente per la distribuzione che minimizza la divergenza KL rispetto a tutte le distribuzioni all'interno del modello statistico e la vera distribuzione \ mathbb {P} ^ * . P

Pθ1=argminPθMKL(P,Pθ)
P

Che cosa succede agli stimatori di fiducia? Ricapitoliamo gli stimatori del set di confidenza. Sia δ:ΩY2Θ essere uno stimatore di set, dove ΩY è lo spazio di campionamento e 2Θ la potenza impostata sullo spazio dei parametri Θ . Quello che vorremmo sapere è la probabilità dell'evento che gli insiemi prodotti da δ includano la vera distribuzione P , ovvero

P(P{Pθ:θδ(Y)}):=A.

Tuttavia, ovviamente non conosciamo la vera distribuzione P . L'assunto correttamente specificato ci dice che PM . Tuttavia, non sappiamo ancora quale distribuzione del modello sia. Ma,

infθΘPθ(θδ(Y)):=B
è un limite inferiore per la probabilità A . L'equazione B è la definizione classica del livello di confidenza per uno stimatore del set di confidenza.

Se abbandoniamo il presupposto correttamente specificato, B non è necessariamente un limite inferiore per A , il termine a cui siamo effettivamente interessati, più. In effetti, se assumiamo che il modello sia errato, il che è probabilmente il caso della maggior parte delle situazioni realistiche, A è 0, perché la vera distribuzione P non è contenuta nel modello statistico M .

Da un'altra prospettiva si potrebbe pensare a cosa si riferisce B quando il modello non è specificato correttamente. Questa è una domanda più specifica. Fa B hanno ancora un senso, se il modello è misspecified. In caso contrario, perché ci preoccupiamo anche delle statistiche parametriche?

Immagino che White 1982 contenga alcuni risultati su questi temi. Sfortunatamente, la mia mancanza di background matematico mi impedisce di capire molto di ciò che è scritto lì.


1
Ho trovato questa domanda + risposta stats.stackexchange.com/questions/149773/… . È molto simile La lettura di questi libri porterebbe probabilmente a una risposta a questa domanda. Tuttavia, penso ancora che un riassunto di qualcuno che lo abbia già fatto sarebbe molto utile.
Julian Karls,

2
È un peccato che questa domanda non abbia generato più interesse: il link di Julian ha del materiale interessante, ma sarei interessato a sentire più pensieri in merito.
Florian Hartig,

1
Di solito, ciò che viene fatto è che la distribuzione della statistica del test viene calcolata secondo l'ipotesi nulla ipotizzando che il modello statistico sia corretto. Se il valore p è abbastanza basso, si può concludere che ciò è dovuto al caso o che il valore nullo è falso. Se il modello è specificato in modo errato, tuttavia, anche questa è una conclusione che potrebbe essere logicamente disegnata. Lo stesso vale per tutte le altre inferenze: il fatto che il modello sia specificato in modo errato fornisce una conclusione alternativa. Ecco come ci penso basandomi sulla lettura del lavoro di Spanos.
Toby,

In sostanza, tutti i modelli sono sbagliati. Aiuta a sviluppare quantitativamente la mancata specificazione. Per un'immagine, l'errata specificazione è un'errata registrazione. Ad esempio, per il conteggio degli errori (ad es. Da decadimento radioattivo) per un numero sufficiente di conteggi, l'errore viene distribuito in Poisson. In tal caso, la registrazione errata di una serie temporale è l'errore dell'asse y della radice quadrata dell'immagine e il rumore è in quelle stesse unità. Esempio qui .
Carl,

Risposte:


2

Sia i dati osservati che si presume siano la realizzazione di una sequenza di variabili casuali iid con funzione di densità di probabilità comune definita rispetto a una misura sigma-finita . La densità è chiamata densità DGP (Data Generating Process).y1,,ynY1,,Ynpeνpe

Nel modello di probabilità del ricercatore è una raccolta di funzioni di densità di probabilità che sono indicizzate da un vettore di parametri . Supponiamo che ogni densità in sia definita rispetto ad una comune misura sigma-finita (ad esempio, ogni densità potrebbe essere una funzione di massa di probabilità con lo stesso spazio campione ).M{p(y;θ):θΘ}θMνS

È importante mantenere la densità che ha effettivamente generato i dati concettualmente distinti dal modello di probabilità dei dati. Nei trattamenti statistici classici un'attenta separazione di questi concetti viene o ignorata, non fatta, o si presuppone fin dall'inizio che il modello di probabilità sia correttamente specificato.pe

Un modello M correttamente specificato rispetto a pe è definito come un modello dove peM ν quasi ovunque. Quando M è misspecified rispetto al pe Questo corrisponde al caso in cui il modello di probabilità non è specificata correttamente.

Se il modello di probabilità è correttamente specificato, allora esiste un θ nello spazio dei parametri Θ tale che pe(y)=p(y;θ) ν quasi ovunque. Tale vettore di parametri viene chiamato "vettore di parametri vero". Se il modello di probabilità non è specificato correttamente, il vettore dei parametri vero non esiste.

All'interno quadro modello di corretta specificazione del bianco l'obiettivo è quello di trovare il parametro di stima θ n che minimizza n ( θ ) ( 1 / n ) Σ n i = 1 log p ( y i ; θ ) su alcune compatto spazio dei parametri Θ . Si presume che un minimizer unico rigoroso globale, θ * , del valore atteso di n on Θ si trova nella parte interna della Θθ^n^n(θ)(1/n)i=1nlogp(yi;θ)Θθ^nΘΘ. Nel caso fortunato in cui il modello di probabilità è correttamente specificato, θ può essere interpretato come il "valore del parametro vero".

Nel caso particolare in cui il modello di probabilità è specificato correttamente, allora θ n è la stima di massima verosimiglianza familiare. Se non sappiamo avere una conoscenza assoluta che il modello di probabilità sia correttamente specificato, allora θ n è chiamato a un rischio stima di quasi-massima e l'obiettivo è quello di stimare θ * . Se siamo fortunati e il modello di probabilità è correttamente specificato, la stima della probabilità quasi massima si riduce come un caso speciale alla stima della probabilità massima familiare e θ diventa il valore del parametro vero.θ^nθ^nθθ

La coerenza nel quadro di White (1982) corrisponde alla convergenza a θ senza richiedere che θ sia necessariamente il vero vettore di parametri. Nel quadro di White, non stimeremmo mai la probabilità dell'evento che gli insiemi prodotti da δ includano la VERA distribuzione P *. Invece, stimeremmo sempre la distribuzione di probabilità P ** che è la probabilità dell'evento che gli insiemi prodotti da δ includano la distribuzione specificata dalla densità p(y;θ) .

Infine, alcuni commenti sulla mancata specificazione del modello. È facile trovare esempi in cui un modello non specificato è estremamente utile e molto predittivo. Ad esempio, si consideri un modello di regressione non lineare (o anche un lineare) con un termine di errore residuo gaussiano la cui varianza è estremamente piccola, ma l'errore residuo effettivo nell'ambiente non è gaussiano.

È anche facile trovare esempi in cui un modello correttamente specificato non è utile e non predittivo. Ad esempio, si consideri un modello di camminata casuale per prevedere i prezzi delle azioni che prevede che il prezzo di chiusura di domani sia una somma ponderata del prezzo di chiusura di oggi e del rumore gaussiano con una varianza estremamente ampia.

Lo scopo del framework di errata specificazione del modello non è garantire la validità del modello, ma piuttosto garantire l'affidabilità. In altre parole, assicurarsi che l'errore di campionamento associato alle stime dei parametri, agli intervalli di confidenza, ai test di ipotesi e così via sia stimato correttamente, nonostante la presenza di una piccola o grande quantità di errata specifica del modello. Le stime della verosimiglianza quasi massima sono asintoticamente normali centrate su θ con uno stimatore a matrice di covarianza che dipende sia dalla prima che dalla seconda derivata della funzione di verosimiglianza negativa. Nel caso speciale in cui sei fortunato e il modello è corretto, tutte le formule si riducono al quadro statistico classico familiare in cui l'obiettivo è stimare i valori dei parametri "veri".


3

ΘMPθ1PMPθ1

ABAPMA=0

AA(Y)P(Pθ1{Pθ|θδ(Y)}).

PMPMPθ1M

Pθ1δAn. Se riesci a stabilire un limite inferiore (positivo) o un risultato di convergenza (positivo), questo ti dà un certo valore nel garantire che, anche in caso di errata specificazione, è comunque possibile stimare correttamente il proxy più vicino con un certo livello di probabilità. Consiglierei di esplorare questi problemi, seguendo il tipo di analisi fatta da White.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.