Probabilità massima limitata con un rango di colonna inferiore a


14

Questa domanda riguarda la stima della massima verosimiglianza limitata (REML) in una particolare versione del modello lineare, vale a dire:

Y=X(α)β+ϵ,ϵNn(0,Σ(α)),

dove X(α) è una matrice ( n×p ) parametrizzata da αRk , così come Σ(α) . β è un vettore sconosciuto di parametri di disturbo; l'interesse è nella stima α e abbiamo kpn . Stimare il modello con la massima probabilità non è un problema, ma voglio usare REML. È noto, ad esempio LaMotte , che la probabilità AY , dove A è una matrice semi-ortogonale tale cheAX=0 può essere scritto

LREML(αY)|XX|1/2|Σ|1/2|XΣ1X|1/2exp{12rΣ1r},r=(IX(XΣ1X)+XΣ1)Y,

quando X è il rango di colonna completo .

Il mio problema è che per alcuni perfettamente ragionevoli e scientificamente interessanti, α la matrice X(α) non è di rango di colonna completo. Tutte le derivazioni che ho visto della probabilità limitata di cui sopra fanno uso di uguaglianze determinanti che non sono applicabili quando |XX|=0 , cioè assumerà piena colonna posizione di X . Ciò significa che la probabilità limitata sopra indicata è corretta solo per la mia impostazione su parti dello spazio dei parametri, e quindi non è ciò che voglio ottimizzare.

Domanda: Esistono probabilità più generali limitate, derivate, nella letteratura statistica o altrove, senza il presupposto che X sia il rango di colonna completo? In tal caso, che aspetto hanno?

Alcune osservazioni:

  • Derivare la parte esponenziale non è un problema per nessuna X(α) e può essere scritta in termini dell'inverso di Moore-Penrose come sopra
  • Le colonne di A sono una (qualsiasi) base ortonormale per C(X)
  • Per noto , la probabilità di A Y può essere facilmente annotata per ogni α , ma ovviamente il numero di vettori di base, ovvero colonne, in A dipende dal rango di colonna di XAAYαAX

Se qualcuno interessato a questa domanda ritiene che la parametrizzazione esatta di sarebbe di aiuto, fammi sapere e li scriverò. A questo punto, però, sono principalmente interessato a un REML per una X generale delle dimensioni corrette.X,Σ X


Segue una descrizione più dettagliata del modello. Lasciare tramite un r dimensionale primo ordine Vector Autoregressione [VAR (1)] dove v t i i D ~ N ( 0 , Ω ) . Supponiamo che il processo sia avviato con un valore fisso y 0 al momento t = 0 .yt=μ+Ayt1+vt,t=1,,TrvtiidN(0,Ω)y0t=0

Definire . Il modello può essere scritto nella forma lineare Y = X β + ε usando le seguenti definizioni e notazioni:Y=[y1,,yT]Y=Xβ+ε

X=[1TIr,C1B]β=[μ,y0μ]var(ε)1=C(ITΩ1)CC=[Ir00AIr00AIr]B=e1,TA,

dove denota una T - vettore tridimensionale di uno e posta 1 , T la prima base vettore standard R T .1TTe1,TRT

Indica . Si noti che se A non è il rango completo, allora X ( α ) non è il rango della colonna intera. Ciò include, ad esempio, i casi in cui uno dei componenti di y t non dipende dal passato.α=vec(A)AX(α)yt

L'idea di stimare i VAR usando REML è ben nota, ad esempio, nella letteratura sulle regressioni predittive (vedere ad esempio Phillips e Chen e i riferimenti in essi).

Potrebbe essere utile chiarire che la matrice non è una matrice di progettazione nel senso comune, cade semplicemente fuori dal modello e, a meno che non ci sia una conoscenza a priori di A, non esiste, per quanto ne so, un modo di ricomparare essere al massimo livello.XA


Ho pubblicato una domanda su math.stackexchange che è correlata a questa, nel senso che una risposta alla domanda di matematica può aiutare a derivare una probabilità che risponderebbe a questa domanda.


1
Forse un modo per rispondere alla domanda è quello di chiedere: cosa succede nei modelli misti lineari quando la matrice del modello non è il rango di colonna completo?
Greenparker,

Grazie per la generosità @Greenparker. E, sì, se una probabilità limitata potesse essere scritta per un modello misto lineare, con una matrice di progettazione di effetti fissi inferiore a quella della colonna, ciò sarebbe d'aiuto.
ekvall

Risposte:


2

Derivare la parte esponenziale non è un problema per nessuna X (α) X (α) e può essere scritta in termini dell'inverso di Moore-Penrose come sopra

Dubito che questa osservazione sia corretta. L'inverso generalizzato in realtà pone un'ulteriore limitazione lineare ai tuoi stimatori [Rao & Mitra], quindi dovremmo considerare la probabilità congiunta nel suo insieme invece di indovinare "l'inverso di Moore-Penrose funzionerà per la parte esponenziale". Questo sembra formalmente corretto, ma probabilmente non capisci correttamente il modello misto.

(1) Come pensare correttamente i modelli di effetti misti?

Devi pensare a un modello di effetto misto in un modo diverso prima di provare a collegare g-inverse (OR Moore-Penrose inverse, che è un tipo speciale di g-inverse riflessivo [Rao & Mitra]) meccanicamente nella formula data da RMLE (Restricted Stima della massima verosimiglianza, lo stesso di seguito.).

X=(fixedeffectrandomeffect)

Un modo comune di pensare l'effetto misto è che la parte dell'effetto casuale nella matrice di progettazione è introdotta dall'errore di misurazione, che porta un altro nome di "predittore stocastico" se ci preoccupiamo più della previsione piuttosto che della stima. Questa è anche una motivazione storica dello studio della matrice stocastica nell'impostazione delle statistiche.

Il mio problema è che per alcuni perfettamente ragionevoli e scientificamente interessanti, αα la matrice X (α) X (α) non è di rango di colonna completo.

Dato questo modo di pensare la probabilità, la probabilità che non sia al livello massimo è zero. Questo perché la funzione determinante è continua nelle voci della matrice e la distribuzione normale è una distribuzione continua che assegna probabilità zero a un singolo punto. La probabilità di rango X difettoso ( α ) è positiva se la parametrizza in modo patologico come ( α α α αX(α)X(α).(ααααrandomeffect)

Quindi la soluzione alla tua domanda è anche piuttosto semplice, basta perturbare la tua matrice di disegno (perturbare solo la parte dell'effetto fisso) e usare la matrice perturbata (che è al massimo) per eseguire tutte le derivazioni. A meno che il tuo modello non abbia gerarchie complicate o X stesso sia quasi singolare, non vedo che c'è un problema serio quando prendi ϵ 0 nel risultato finale poiché la funzione determinante è continua e possiamo prendere il limite all'interno della funzione determinante. l iXϵ(α)=X(α)+ϵ(I000)Xϵ0. E in forma di perturbazione, l'inverso di X ϵ può essere ottenuto dal teorema di Sherman-Morrision-Woodbury. E il determinante della matrice I + X è riportato nel libro di algebra lineare standard come [Horn & Johnson]. Naturalmente possiamo scrivere il determinante in termini di ciascuna voce della matrice, ma la perturbazione è sempre preferita [Horn & Johnson].limϵ0|Xϵ|=|limϵ0Xϵ|XϵI+X

(2) Come dovremmo trattare i parametri di disturbo in un modello?

Come vedi, per gestire la parte dell'effetto casuale nel modello, dovremmo considerarla come una sorta di "parametro fastidioso". Il problema è: RMLE è il modo più appropriato per eliminare un parametro di disturbo? Anche nei modelli GLM e con effetti misti, RMLE è tutt'altro che l'unica scelta. [Basu] ha sottolineato che molti altri modi per eliminare i parametri nell'impostazione della stima. Oggi le persone tendono a scegliere tra la modellazione RMLE e bayesiana perché corrispondono a due popolari soluzioni basate su computer: EM e MCMC rispettivamente.

A mio avviso, è sicuramente più adatto introdurre un precedente nella situazione di rango difettoso nella parte ad effetto fisso. Oppure puoi ri-parametrizzare il tuo modello per renderlo completo.

Inoltre, nel caso in cui il tuo effetto fisso non sia di rango massimo, potresti preoccuparti al di sopra della struttura di covarianza specificata in modo errato perché i gradi di libertà negli effetti fissi dovrebbero andare nella parte dell'errore. Per vedere questo punto più chiaro, si può prendere in considerazione la MLE (anche LSE) per i GLS (General almeno dove Σ è la struttura di covarianza di il termine di errore, nel caso in cui X ( α ) non sia al massimo.β^=(XΣ1X)1Σ1yΣX(α)

(3) Ulteriori commenti

Il problema non è come si modifica l'RMLE per farlo funzionare nel caso in cui la parte ad effetto fisso della matrice non sia al livello massimo; il problema è che in quel caso il modello stesso potrebbe essere problematico se il caso non full-rank ha probabilità positive.

Un caso rilevante che ho riscontrato è che nel caso spaziale le persone potrebbero voler ridurre il grado di parte dell'effetto fisso a causa della considerazione computazionale [Wikle].

Non ho visto alcun caso "scientificamente interessante" in tale situazione, puoi indicare qualche letteratura in cui il caso non full-rank è di grande preoccupazione? Vorrei sapere e discutere ulteriormente, grazie.

Riferimento

[Rao & Mitra] Rao, Calyampudi Radhakrishna e Sujit Kumar Mitra. Inverso generalizzato delle matrici e delle sue applicazioni. Vol. 7. New York: Wiley, 1971.

[Basu] Basu, Debabrata. "Sull'eliminazione dei parametri fastidiosi." Journal of American Statistical Association 72.358 (1977): 355-366.

[Horn & Johnson] Horn, Roger A. e Charles R. Johnson. Analisi a matrice. Pressa universitaria di Cambridge, 2012.

[Wikle] Wikle, Christopher K. "Rappresentazioni di basso rango per processi spaziali". Manuale di statistiche spaziali (2010): 107-118.


Grazie per l'interesse dimostrato e la risposta molto ponderata, + 1 per lo sforzo. Lo leggerò più in dettaglio e tornerò con alcuni chiarimenti. Penso che una prima cosa che dovrò chiarire è che non ci sono effetti casuali in questo modello, e la matrice non è affatto una matrice di progettazione, tranne forse per nome per mancanza di una parola migliore; è una funzione altamente non lineare (deterministica) del parametro α che consiste nella (vettorializzazione) della matrice dei coefficienti in un processo autoregressivo vettoriale, quindi il concetto di probabilità di essere di basso rango non è significativo. Xα
ekvall l'

@ Student001 Sì, sentiti libero di fare qualsiasi chiarimento poiché lo sento anche più simile a un modello GLM anziché a un modello misto. Cercherò di rispondere di nuovo se posso :)
Henry.L

@ Student001 Se puoi, scrivi l'intero modello e vorrei studiare un caso del genere, probabilmente AR (1) nell'impostazione spaziale, suppongo.
Henry.L,

X(α)

@ MarkL.Stone Ho già fornito la perturbazione come soluzione se leggi attentamente le righe, che è una soluzione standard alla singolarità numerica. E l'OP ha detto che aggiornerà la descrizione, quindi immagino che raggiungeremo alcuni consesus sul problema correttamente formulato.
Henry.L,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.