Può l'Assia empirica di uno stimatore M essere indefinita?


15

Jeffrey Wooldridge nella sua analisi econometrica dei dati di sezioni trasversali e panel (pagina 357) afferma che l'hessiana empirica "non è garantita per essere definita definita positiva, o anche semidefinita positiva, per il particolare campione con cui stiamo lavorando".

Questo mi sembra sbagliato dal momento che (a parte i problemi numerici) l'Assia deve essere semidefinita positiva a causa della definizione dello stimatore M come valore del parametro che minimizza la funzione obiettivo per il campione dato e il fatto ben noto che come minimo (locale), l'Assia è semidefinita positiva.

Il mio argomento è giusto?

[EDIT: la dichiarazione è stata rimossa nel 2 ° ed. del libro. Vedi commento.]

BACKGROUND Supponiamo che sia uno stimatore ottenuto minimizzando dove indica l' -osservazione.θ^N

1Ni=1Nq(wi,θ),
wii

Indichiamo l'Assia di con , qH

H(q,θ)ij=2qθiθj

La covarianza asintotica di coinvolge dove è il vero valore del parametro. Un modo per stimarlo è usare l'hesssiano empiricoθ^nE[H(q,θ0)]θ0

H^=1NΣio=1NH(wio,θ^n)

È la definizione di H^ che è in questione.


1
@Jyotirmoy, cosa succede se il minimo accade al limite del tuo spazio parametri?
cardinale il

@cardinale. Hai ragione, la mia tesi non funzionerà in quel caso. Ma Wooldridge sta considerando il caso in cui il minimo è all'interno. Non ha torto in quel caso?
Jyotirmoy Bhattacharya,

@Jyotirmoy, può sicuramente essere solo un semidefinito positivo. Pensa alle funzioni lineari o a una funzione in cui l'insieme dei punti minimi forma un politopo convesso. Per un esempio più semplice, considera qualsiasi polinomio at . f(X)=X2nX=0
cardinale il

1
@cardinale. Vero. Ciò che mi preoccupa è la frase "anche semidefinito positivo" nella frase citata.
Jyotirmoy Bhattacharya,

@Jyotirmoy, c'è una forma specifica dello stimatore M fornita nel libro che potresti fornire? Dare anche lo spazio dei parametri in esame. Forse allora potremo capire cosa aveva in mente l'autore. In generale, penso che abbiamo già stabilito che l'affermazione dell'autore è corretta. L'inserimento di ulteriori vincoli sulla forma di o lo spazio dei parametri considerato potrebbe alterarlo. q
cardinale il

Risposte:


16

Penso tu abbia ragione. Distilliamo il tuo argomento nella sua essenza:

  1. QQ(θ)=1θ^N minimizza la funzione definita comeQQ(θ)=1NΣio=1Nq(wio,θ).

  2. Sia l'assia di , da cui per definizione e questo a sua volta, per linearità di differenziazione, uguale a .Q H ( θ ) = 2 QHQ 1H(θ)=2Qθioθj1NΣio=1NH(wio,θn)

  3. Supponendo che risieda all'interno del dominio di , quindi deve essere semi-definito positivo.QH( θ N)θ^NQH(θ^N)

Questo è semplicemente una dichiarazione sulla funzione : come si definisce è semplicemente una distrazione, salvo che il presupposto secondo derivabilità ordine rispetto al suo secondo argomento ( ) assicura il secondo ordine di derivabilità .q θ QQqθQ


Trovare stimatori M può essere complicato. Considera questi dati forniti da @mpiktas:

{1.168042, 0.3998378}, {1.807516, 0.5939584}, {1.384942, 3.6700205}, {1.327734, -3.3390724}, {1.602101, 4.1317608}, {1.604394, -1.9045958}, {1.124633, -3.0865249}, {1.294601, -1.8331763},{1.577610, 1.0865977}, { 1.630979, 0.7869717}

La procedura R per trovare lo stimatore M con prodotto la soluzione = . Il valore della funzione obiettivo (la media delle 's) a questo punto equivale a 62.3542. Ecco una trama dell'adattamento: ( c 1 , c 2 ) ( - 114.91316 , - 32.54386 ) qq((X,y),θ)=(y-c1Xc2)4(c1,c2)(114.91316,32.54386)q

Misura 1

Ecco un diagramma della funzione (log) dell'obiettivo in un quartiere di questo adattamento:

Obiettivo 1

Qui c'è qualcosa di sospetto: i parametri dell'adattamento sono estremamente lontani dai parametri utilizzati per simulare i dati (vicino ) e non sembriamo al minimo: siamo in una valle estremamente superficiale che è inclinata verso valori maggiori di entrambi i parametri:(0.3,0.2)

Obiettivo 1, vista 3D

Il determinante negativo dell'Assia a questo punto conferma che questo non è un minimo locale! Tuttavia, quando si osservano le etichette dell'asse z, si può vedere che questa funzione ha una precisione piatta a cinque cifre nell'intera regione, poiché equivale a una costante 4.1329 (il logaritmo di 62.354). Ciò probabilmente ha portato il minimizzatore della funzione R (con le sue tolleranze predefinite) a concludere che era quasi al minimo.

In effetti, la soluzione è lontana da questo punto. Per essere sicuro di trovarlo, ho usato il metodo " Asse principale " computazionalmente costoso ma altamente efficace in Mathematica , usando una precisione di 50 cifre (base 10) per evitare possibili problemi numerici. Trova un minimo vicino dove la funzione obiettivo ha il valore 58.292655: circa il 6% più piccolo del "minimo" trovato da R. Questo minimo si verifica in una sezione dall'aspetto estremamente piatto, ma Posso farlo sembrare (appena) un vero minimo, con contorni ellittici, esagerando la direzione nella trama:c 2(c1,c2)=(0.02506,7.55973)c2

Obiettivo 2

I contorni vanno da 58.29266 nel mezzo fino a 58.29284 negli angoli (!). Ecco la vista 3D (di nuovo dell'obiettivo del registro):

Obiettivo 2, vista 3D

Qui l'Assia è definita positiva: i suoi autovalori sono 55062,02 e 0,430978. Quindi questo punto è un minimo locale (e probabilmente un minimo globale). Ecco la misura a cui corrisponde:

Misura 2

Penso che sia meglio dell'altro. I valori dei parametri sono sicuramente più realistici ed è chiaro che non saremo in grado di fare molto meglio con questa famiglia di curve.

Ci sono lezioni utili che possiamo trarre da questo esempio:

  1. L'ottimizzazione numerica può essere difficile, specialmente con adattamento non lineare e funzioni di perdita non quadratica. Perciò:
  2. Ricontrolla i risultati in tutti i modi possibili, tra cui:
  3. Rappresenta graficamente la funzione obiettivo ogni volta che puoi.
  4. Quando i risultati numerici sembrano violare i teoremi matematici, sii estremamente sospettoso.
  5. Quando i risultati statistici sono sorprendenti - come i sorprendenti valori dei parametri restituiti dal codice R - sii estremamente sospettoso.

+1, bella analisi. Penso che sia per questo che Wooldridge ha incluso l'osservazione. Penso ancora che sia possibile pensare a qualche esempio in cui l'assia sarà indefinita. Ad esempio, limitare artificialmente lo spazio dei parametri. In questo esempio lo spazio dei parametri è tutto il piano, ecco perché il minimo locale darà assia semi-positiva. Penso che sia giunto il momento di scrivere una bella e-mail a Wooldridge per prendere la sua
opinione

@mpiktas Sì, sono sicuro che esistono problemi in cui un minimo globale interno ha un'Assia indefinita, ma in cui tutti i parametri sono identificabili. Ma semplicemente non è possibile che l'Assia ad un minimo globale interno sufficientemente regolare sia indefinita. Questo genere di cose è stato dimostrato più volte, come nella topologia di Milnor da un punto di vista differenziabile . Sospetto che Wooldridge possa essere stato ingannato da "soluzioni" numeriche errate. (I refusi sulla pagina citata suggeriscono che è stato scritto in fretta, a proposito.)
whuber

anche al limite, la tela di iuta sarà positiva? Controllerò il libro, vedo che mi manca davvero una vasta conoscenza in questo settore. I teoremi classici sono molto semplici, quindi ho ipotizzato che non ci dovrebbe essere qualcos'altro molto complicato. Questo forse è uno dei motivi per cui ho avuto così tante difficoltà a rispondere alla domanda.
mpiktas,

@mpiktas Al confine l'Assia non sarà necessariamente definita . L'idea è questa: se la matrice derivata Jacobiana / dell'Assia / seconda è definita in un punto critico, allora in un quartiere la funzione si comporta come la forma quadratica determinata da questa matrice. Se la matrice ha autovalori positivi e negativi, la funzione deve aumentare in alcune direzioni e diminuire in altre: non può essere un estremo locale. Questo è ciò che ha interessato @Jyotirmoy per la citazione, che sembra contraddire questa proprietà di base.
whuber

Grazie sia a te che a @mpiktas per l'ottima analisi. Tenderei a concordare con te sul fatto che Wooldridge confonde difficoltà numeriche con le proprietà teoriche dello stimatore. Vediamo se ci sono altre risposte.
Jyotirmoy Bhattacharya,

7

La quotazione completa può essere trovata qui . La stima è la soluzione del problema di minimizzazione ( pagina 344 ):θ^N

minθΘN1i=1Nq(wi,θ)

Se la soluzione è il punto interno di , la funzione obiettivo è due volte differenziabile e il gradiente della funzione obiettivo è zero, quindi la della funzione obiettivo (che è ) è semi- positiva definito.Θ Hθ^NΘH^

Ora, ciò che Wooldridge sta dicendo che per un dato campione, l'Assia empirica non è garantita per essere definita o semidefinita positiva positiva. Questo è vero, poiché Wooldridge non richiede che la funzione oggettiva abbia delle belle proprietà, richiede che esista una soluzione unica perθ 0N1i=1Nq(wi,θ)θ0

minθΘEq(w,θ).

Quindi, per la data funzione obiettivo di esempio può essere minimizzata sul punto di confine di in cui l'Assia della funzione oggettiva non deve essere definita positiva. N1i=1Nq(wi,θ)Θ

Inoltre nel suo libro Wooldridge fornisce esempi di stime dell'Assia che sono garantite come definite numericamente positive. In pratica, la definizione non positiva di Hessian dovrebbe indicare che la soluzione è sul punto di confine o che l'algoritmo non è riuscito a trovare la soluzione. Che di solito è un'ulteriore indicazione che il modello montato potrebbe essere inappropriato per un dato dato.

Ecco l'esempio numerico. Genero il problema dei minimi quadrati non lineari:

yi=c1xic2+εio

Prendo uniformemente distribuito nell'intervallo e normale con media zero e varianza . Ho generato un campione di dimensione 10, usando R 2.11.1 . Ecco il link ai valori di e .X[1,2]εσ2set.seed(3)xiyi

Ho scelto il quadrato della funzione obiettivo della solita funzione obiettivo dei minimi quadrati non lineari:

q(w,θ)=(yc1xic2)4

Ecco il codice in R per ottimizzare la funzione, il suo gradiente e la tela di iuta.

##First set-up the epxressions for optimising function, its gradient and hessian.
##I use symbolic derivation of R to guard against human error    
mt <- expression((y-c1*x^c2)^4)

gradmt <- c(D(mt,"c1"),D(mt,"c2"))

hessmt <- lapply(gradmt,function(l)c(D(l,"c1"),D(l,"c2")))

##Evaluate the expressions on data to get the empirical values. 
##Note there was a bug in previous version of the answer res should not be squared.
optf <- function(p) {
    res <- eval(mt,list(y=y,x=x,c1=p[1],c2=p[2]))
    mean(res)
}

gf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res <- sapply(gradmt,function(l)eval(l,evl))
    apply(res,2,mean)
}

hesf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res1 <- lapply(hessmt,function(l)sapply(l,function(ll)eval(ll,evl)))
    res <- sapply(res1,function(l)apply(l,2,mean))
    res
}

Prima prova che il gradiente e la tela di iuta funzionano come pubblicizzato.

set.seed(3)
x <- runif(10,1,2)
y <- 0.3*x^0.2

> optf(c(0.3,0.2))
[1] 0
> gf(c(0.3,0.2))
[1] 0 0
> hesf(c(0.3,0.2))
     [,1] [,2]
[1,]    0    0
[2,]    0    0
> eigen(hesf(c(0.3,0.2)))$values
[1] 0 0

L'assia è zero, quindi è semi-definito positivo. Ora, per i valori di e riportate nel link otteniamoxy

> df <- read.csv("badhessian.csv")
> df
          x          y
1  1.168042  0.3998378
2  1.807516  0.5939584
3  1.384942  3.6700205
4  1.327734 -3.3390724
5  1.602101  4.1317608
6  1.604394 -1.9045958
7  1.124633 -3.0865249
8  1.294601 -1.8331763
9  1.577610  1.0865977
10 1.630979  0.7869717
> x <- df$x
> y <- df$y
> opt <- optim(c(1,1),optf,gr=gf,method="BFGS")  
> opt$par
[1] -114.91316  -32.54386
> gf(opt$par)
[1] -0.0005795979 -0.0002399711
> hesf(opt$par)
              [,1]         [,2]
[1,]  0.0002514806 -0.003670634
[2,] -0.0036706345  0.050998404
> eigen(hesf(opt$par))$values
[1]  5.126253e-02 -1.264959e-05

Il gradiente è zero, ma l'assia non è positiva.

Nota: questo è il mio terzo tentativo di dare una risposta. Spero di essere finalmente riuscito a dare precise dichiarazioni matematiche, che mi sfuggivano nelle versioni precedenti.


wyxw=(x,y)ym(x,θ)m(x,θ)

@mpiktas, io non sono del tutto sicuro di come interpretare la vostra prima frase a causa della formulazione. Riesco a vedere due modi, uno che definirei corretto e l'altro che non vorrei. Inoltre, in senso stretto, non sono d'accordo con la seconda frase del tuo primo paragrafo. Come ho mostrato sopra, è possibile essere al minimo locale all'interno dello spazio dei parametri senza che l'Assia sia definita positiva.
cardinale il

wyxw=(x,y)

@ cardinale, ho corretto la mia formulazione. Ora dovrebbe essere ok. Grazie per aver segnalato il problema.
mpiktas,

@mptikas. Né Wooldridge né io sosteniamo che l'Assia debba essere definita positiva ovunque. La mia affermazione è che per un massimo interiore l'hessiana empirica deve essere semidefinita positiva come condizione necessaria per una funzione regolare che raggiunga il suo massimo. Wooldridge sembra dire qualcosa di diverso.
Jyotirmoy Bhattacharya,

3

L'assia è indefinita in un punto di sella. È possibile che questo sia l'unico punto fermo all'interno dello spazio dei parametri.

Aggiornamento: lasciami elaborare. Innanzitutto, supponiamo che l'hessiana empirica esista ovunque.

θ^niq(wi,)(1/N)iH(wi,θ^n)θ^niq(wi,)θ^n

argminθiq(wi,θ)

0=iq˙(wi,θ),
q˙q(w,θ)θΨ

In pratica, anche un hessiano definito positivo che è quasi singolare o mal condizionato suggerirebbe che lo stimatore è scarso e devi preoccuparti di più che stimarne la varianza.


x2y2

+1 Punti positivi nell'aggiornamento, in particolare l'ultimo paragrafo. Quando l'Assia è disponibile - come è implicitamente assunto durante questa discussione - si usa automaticamente la sua positività positiva come uno dei criteri per testare qualsiasi punto critico e quindi questo problema semplicemente non potrebbe sorgere. Questo mi porta a credere che la citazione di Wooldridge debba riguardare l'Assia con un minimo putativo globale, non con un semplice punto critico.
whuber

1

In questo thread c'è stato un sacco di pestaggi in merito alla questione se l'Assia debba essere positiva (semi) definita al minimo locale. Quindi farò una chiara dichiarazione al riguardo.

ZZT(Hessian of Lagrangian)Z

Quindi l'assia della funzione oggettiva in un problema vincolato con vincoli attivi non deve essere semidefinito positivo se ci sono vincoli attivi.

Appunti:

1) I vincoli attivi consistono in tutti i vincoli di uguaglianza, più i vincoli di disuguaglianza che sono soddisfatti dell'uguaglianza.

2) Vedi la definizione del lagrangiano su https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .

3) Se tutti i vincoli sono lineari, allora l'Assia del Lagrangiano = Assia della funzione obiettivo perché le seconde derivate delle funzioni lineari sono zero. Ma devi comunque fare il jazz di proiezione se uno di questi vincoli è attivo. Si noti che i vincoli del limite inferiore o superiore sono casi particolari di vincoli di disuguaglianza lineare. Se gli unici vincoli attivi sono i vincoli vincolati, la proiezione dell'Assia nello spazio nullo dello Jacobiano dei vincoli attivi equivale a eliminare le file e le colonne dell'Assia corrispondenti a quei componenti sui loro limiti.

4) Poiché i moltiplicatori di vincoli inattivi di Lagrange sono zero, se non ci sono vincoli attivi, l'Assia del Lagrangiano = l'Assia della funzione oggettiva e la matrice Identità è una base per lo spazio nullo del Jacobiano di vincoli attivi, che risulta che la semplificazione del criterio è la condizione familiare secondo cui l'assia della funzione obiettivo deve essere semidefinita positiva al minimo locale (definito positivo se un minimo locale rigoroso).


0

Le risposte positive di cui sopra sono vere, ma tralasciano l'assunto di identificazione cruciale - se il tuo modello non viene identificato (o se è solo impostato identificato) potresti effettivamente, come correttamente indicato da Wooldridge, ritrovarti con un'assia empirica non PSD. Basta eseguire un modello psicometrico / econometrico non giocattolo e vedere di persona.


Dal momento che ciò non sembra matematicamente possibile, potresti offrire un esempio semplice e chiaro per dimostrare come l'Assia di una funzione oggettiva continuamente doppiamente differenziata potrebbe non riuscire a diventare PSD al minimo globale?
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.