Prerequisiti per il confronto dei modelli AIC


26

Quali sono esattamente i prerequisiti che devono essere soddisfatti affinché il confronto tra modelli AIC funzioni?

Ho appena trovato questa domanda quando ho fatto un confronto in questo modo:

> uu0 = lm(log(usili) ~ rok)
> uu1 = lm(usili ~ rok)
> AIC(uu0)
[1] 3192.14
> AIC(uu1)
[1] 14277.29

In questo modo ho giustificato la logtrasformazione della variabile usili. Ma non so se posso confrontare AIC modelli quando ad esempio la variabile dipendente è diversa?

La risposta ideale dovrebbe includere l'elenco dei prerequisiti (ipotesi matematiche).

Risposte:


29

Non puoi confrontare i due modelli in quanto non modellano la stessa variabile (come ti riconosci correttamente). Tuttavia, l'AIC dovrebbe funzionare quando si confrontano modelli nidificati e non nidificati.

Solo un promemoria prima di continuare: viene data una probabilità logaritmica gaussiana

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),

è la struttura di covarianza del tuo modello, | D | il numero di punti nei set di dati, μ la risposta media e x la variabile dipendente.K|D|μx

Più specificamente, l'AIC è calcolato per essere uguale a , dove k è il numero di effetti fissi nel modello e L la funzione di probabilità [1]. Confronta praticamente il compromesso tra varianza ( 2 k ) e distorsione (2k2log(L)kL2k ) nelle ipotesi di modellazione. Come tale, nel tuo caso, confronterebbe due diverse strutture di verosimiglianza quando si arrivasse al termine del bias. Questo perché quando si calcola la probabilità di log praticamente si osservano due termini: un termine adatto, indicato da - 12log(L)e un termine di penalizzazione della complessità, indicato da-112(xμ)TK1(xμ). Quindi vedi che il tuo termine adatto è completamente diverso tra i due modelli; nel primo caso si confrontano i residui dai dati grezzi e nell'altro caso i residui dei dati registrati.-12log(|K|)

Oltre a Wikipedia, AIC è anche definito per equiparare: [3]; questa forma rende ancora più ovvio il motivo per cui diversi modelli con diversa variabile dipendente non sono comparabili. L'RSS è il caso due è semplicemente incomparabile tra i due.|D|log(RSS|D|)+2K

Il documento originale di Akaike [4] è in realtà abbastanza difficile da capire (penso). Si basa sulla divergenza di KL (differenza tra due distribuzioni in termini approssimativi) e lavora per dimostrare come è possibile approssimare la vera distribuzione sconosciuta dei dati e confrontarla con la distribuzione dei dati assunti dal modello. Ecco perché "il punteggio AIC più piccolo è migliore" ; sei più vicino alla vera distribuzione approssimativa dei tuoi dati.

Quindi per mettere tutto insieme le cose ovvie da ricordare quando si utilizza AIC sono tre [2,5]:

  1. Non è possibile utilizzarlo per confrontare i modelli di diversi set di dati.

  2. È necessario utilizzare le stesse variabili di risposta per tutti i modelli candidati.

  3. Dovresti avere , perché altrimenti non si ottiene buona consistenza asintotica.|D|>>K

Mi dispiace dirti le cattive notizie ma usare AIC per mostrare che stai scegliendo una variabile dipendente piuttosto che un'altra non è una cosa statisticamente valida da fare. Controlla la distribuzione dei tuoi residui in entrambi i modelli, se il caso dei dati registrati ha normalmente residui distribuiti e il caso dei dati grezzi no, hai tutta la giustificazione di cui potresti mai aver bisogno. Potresti anche voler verificare se i tuoi dati grezzi corrispondono a un lognormale, che potrebbe anche essere una giustificazione sufficiente.

Per rigorose ipotesi matematiche il gioco è la divergenza di KL e la teoria dell'informazione ...

Ah, e alcuni riferimenti:

  1. http://en.wikipedia.org/wiki/Akaike_information_criterion
  2. Akaike Information Criterion, Shuhua Hu, (Presentazione p.17-18)
  3. Analisi statistica multivariata applicata, Johnson & Wichern, 6a edizione (p. 386-387)
  4. Un nuovo sguardo all'identificazione del modello statistico, H. Akaike, IEEE Transactions on Automatic Control 19 (6): 716–723 (1974)
  5. Tutorial per la selezione del modello n. 1: Akaike's Information Criterion, D. Schmidt ed E. Makalic, (Presentazione p.39)

Grazie! Non ho capito la matematica ma ho ottenuto il nocciolo del messaggio. Tuttavia, è possibile elencare tutti i prerequisiti necessari per il confronto dei modelli AIC? Solo per essere sicuro che non commetterò un altro errore la prossima volta. Vado a controllarli uno per uno.
Curioso,

1
|D|pL(θ)θp(X|θ) e che le tue stime ML siano coerenti, ma penso che queste ipotesi siano eccessive da mostrare in un documento. ..
usεr11852 dice Reinstate Monic il

1
grazie per aver aggiunto l'elenco di quei 3 presupposti alla risposta! Questo è quello di cui avevo bisogno.
Curioso il

1
Guardando di nuovo la tua risposta: il tuo punto 1. "Non puoi usarlo per confrontare modelli di diversi set di dati" . Cosa intendi per "set di dati"? Cosa succede se cambio l'insieme delle variabili dipendenti? Immagino che in quel caso l'AIC dovrebbe essere ancora comparabile? Potete per favore aggiornare la vostra risposta per chiarire questo?
Curioso

1
RSSμX

11

uu0Πioyio-12Σiolog(yio)uu0AIC (uu0)+2*sum (log (usili))AIC (uu1)


Non capisco cosa segui con il tuo tentativo di "correggere" l'AIC in qualche modo e cosa ne hai effettivamente tratto (come interpretare il tuo risultato). Comunque, non approfondire, non importa perché la mia domanda riguardava qualcosa di completamente diverso: quali sono i prerequisiti generali per l'AIC (attuale, non corretto) per essere sensibilmente comparabili. Non concentrarti su questo esempio particolare, è solo un esempio della cosa generale.
Curioso

1
-2log(p(y|θ))X=g(y)X=log(y)AIC()
probabilityislogic

@probabilityislogic: hai riferimenti accademici per il tuo suggerimento (AIC (uu0) + 2 * sum (log (usili))) in modo da poterli citare negli scritti accademici? Grazie.
KuJ,

3

Tratto da Akaike 1978

Questo estratto da Akaike 1978 fornisce una citazione a sostegno della soluzione di @probabilityislogic.

Akaike, H. 1978. Sulla probabilità di un modello di serie storiche. Giornale della Royal Statistical Society. Serie D (The Statistician) 27: 217-235.


1
scusate non capisco, che cos'è la "trasformazione di una variabile" e come è correlata alla mia domanda. Per favore, spiega, grazie
Curioso
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.