Cosa significa il punteggio Akaike Information Criterion (AIC) di un modello?

Ho visto alcune domande qui su cosa significhi in termini profani, ma questi sono troppo profani per il mio scopo qui. Sto cercando di capire matematicamente cosa significa il punteggio AIC.

Ma allo stesso tempo, non voglio una prova del rigore che non mi farebbe vedere i punti più importanti. Ad esempio, se questo fosse un calcolo, sarei felice con gli infinitesimi e se questa fosse la teoria della probabilità, sarei felice senza la teoria della misura.

Il mio tentativo

leggendo qui , e un po 'di zucchero delle mie annotazioni, $\text{AIC}_{m,D}$ è il criterio AIC del modello $m$ sul set di dati $D$ come segue:

{AIC}_{m, D} = 2 k_{m} - 2 \ln (L_{m, D})

$\text{AIC}_{m,D} = 2k_m - 2 \ln(L_{m,D})$ dove

k_{m}

$k_m$ è il numero di parametri del modello

m

$m$ , e

L_{m, D}

$L_{m,D}$ è il valore massimo funzione rischio di modello

m

$m$ sul set di dati

D

$D$ .

Ecco la mia comprensione di ciò che implica quanto sopra:

m = \underset{θ}{arg max} Pr (D | θ)

$m = \underset{\theta}{\text{arg max}\,} \Pr(D|\theta)$

Per di qua:

$k_m$ è il numero di parametri di . $m$
$L_{m,D} = \Pr(D|m) = \mathcal{L}(m|D)$ .

Riscriviamo ora AIC:

\begin{aligned} {AIC}_{m, D} = & 2 k_{m} - 2 \ln (L_{m, D}) \\ = & 2 k_{m} - 2 \ln (Pr (D | m)) \\ = & 2 k_{m} - 2 \log_{e} (Pr (D | m)) \end{aligned}

$\begin{split} \text{AIC}_{m,D} =& 2k_m - 2 \ln(L_{m,D})\\ =& 2k_m - 2 \ln(\Pr(D|m))\\ =& 2k_m - 2 \log_e(\Pr(D|m))\\ \end{split}$

Ovviamente, è la probabilità di osservare il set di dati sotto il modello . Quindi, meglio il modello adatta all'insieme di dati , più grande diventa e quindi più piccolo diventa il termine . $\Pr(D|m)$ $D$ $m$ $m$ $D$ $\Pr(D|m)$ $-2\log_e(\Pr(D|m))$

Così chiaramente AIC premia i modelli che si adattano ai loro set di dati (perché è più piccolo ). $\text{AIC}_{m,D}$

D'altro canto, il termine punisce chiaramente i modelli con più parametri aumentando . $2k_m$ $\text{AIC}_{m,D}$

In altre parole, l'AIC sembra essere una misura che:

Ricompensa logicamente i modelli precisi (quelli che si adattano meglio a ). Ad esempio, aumenta la forma fisica da a più di quanto aumenta la forma fisica da a . Questo è mostrato nella figura seguente. $D$ $0.4$ $0.5$ $0.8$ $0.9$
Riduce i parametri in modo lineare. Pertanto, la riduzione dei parametri da a viene premiata tanto quanto premia la riduzione da a . $9$ $8$ $2$ $1$

In altre parole (di nuovo), AIC definisce un compromesso tra l'importanza della semplicità e l'importanza della forma fisica .

In altre parole (di nuovo), AIC sembra suggerire che:

L'importanza del fitness diminuisce.
Ma l'importanza della semplicità non diminuisce mai, ma è piuttosto sempre costantemente importante.

Q1: Ma una domanda è: perché dovremmo preoccuparci di questo compromesso specifico sulla semplicità del fitness?

Q2: Perché e perché ? Perché non solo: cioè dovrebbe essere visualizzato in y essere ugualmente utile per e dovrebbe essere in grado di servire per confrontare relativamente diversi modelli (non è semplicemente ridimensionato di ; ne abbiamo bisogno?). $2k$ $2 \log_e(\ldots)$

\begin{aligned} {AIC}_{m, D} = & 2 k_{m} - 2 \ln (L_{m, D}) \\ = & 2 (k_{m} - \ln (L_{m, D})) \\ \frac{{AIC}_{m, D}}{2} = & k_{m} - \ln (L_{m, D}) \\ {AIC}_{m, D, SIMPLE} = & k_{m} - \ln (L_{m, D}) \end{aligned}

$\begin{split} \text{AIC}_{m,D} =& 2k_m - 2 \ln(L_{m,D})\\ =& 2(k_m - \ln(L_{m,D}))\\ \frac{\text{AIC}_{m,D}}{2} =& k_m - \ln(L_{m,D})\\ \text{AIC}_{m,D,\text{SIMPLE}} =& k_m - \ln(L_{m,D})\\ \end{split}$

{AIC}_{m, D, SIMPLE}

$\text{AIC}_{m,D,\text{SIMPLE}}$

{AIC}_{m, D}

$\text{AIC}_{m,D}$

2

$2$

D3: In che modo questo si collega alla teoria dell'informazione? Qualcuno potrebbe derivare questo da un inizio teorico dell'informazione?

— uomo delle caverne
fonte

Cosa significa la tua notazione in ? Stai insinuando qualcosa nella scelta del modello lì? Ciò che avevi sopra non implica che AIC ti richieda di scegliere un modello. Q2, come dici tu, è qualcosa di piuttosto arbitrario in un certo senso, ma deriva dal fare AIC una stima per la divergenza di Kullback-Leibler, che si riferisce anche alla risposta per Q1 e dà un significato a quantità come .

m = \arg max_{θ} P r (D | θ)

$m=\arg \max_\theta Pr(D|\theta)$

\exp (({AIC}_{m} - min ({AIC}_{1}, \dots, {AIC}_{M})) / 2)

$\exp((\text{AIC}_m-\min(\text{AIC}_1,\ldots,\text{AIC}_M))/2)$

— Björn,

{arg max}_{θ} Pr (D | θ)

$\text{arg max}_{\theta} \Pr(D|\theta)$ significa continuare a cercare molti finché non ne trovi uno che minimizzi la probabilità . Ogni è una tupla / vettore di parametri che definisce il nostro modello che cerca di spiegare dataset . Quindi sostanzialmente dice: abbiamo un set di dati , qual è la probabilità che sia stato generato da un modello parametrizzato da ? Il nostro modello è essenzialmente che risolve questo problema di massimizzazione.

θ

$\theta$

Pr (D | θ)

$\Pr(D|\theta)$

θ

$\theta$

D

$D$

D

$D$

θ

$\theta$

m

$m$

θ

$\theta$

— cavernicolo

Siamo spiacenti, ma stai esaminando più modelli (dal momento che scrivi ) o stai parlando della stima della massima verosimiglianza ? Si noti inoltre che è la probabilità che i dati siano sorti sotto il modello dato e per i parametri dati, non la probabilità che i dati siano stati generati da quel modello parametrizzato da .

m = \dots

$m=\ldots$

\hat{θ} := \arg max_{θ} P_{given model} (D | θ)

$\hat{\theta} := \arg\max_\theta P_\text{given model}(D|\theta)$

P_{given model} (D | θ)

$P_\text{given model}(D|\theta)$

θ

$\theta$

— Björn,

MLE è ciò che intendo. Ma sto solo cercando di dire che i parametri tuple sono così completi da definire anche il modello. Inoltre posso avere più modelli, ad esempio ciascuno con un punteggio AIC diverso . Sto solo inventando questa notazione perché penso che sia più semplice. Sto sbagliando terribilmente o sto confondendo inutilmente questo? (e grazie per avermi corretto su ciò che significa il MLE)

θ

$\theta$

m_{1}, m_{2}

$m_1,m_2$

{AIC}_{1}, {AIC}_{2}

$\text{AIC}_1, \text{AIC}_2$

— uomo delle caverne

Una derivazione di AIC come approssimazione alla perdita prevista di informazioni KL è data in Pawitan (2001), In All Likelihood , Cap 13.

— Scortchi - Reinstate Monica

Risposte:

Questa domanda del cavernicolo è popolare, ma non ci sono state risposte tentate per mesi fino alla mia controversa . Può darsi che la risposta effettiva di seguito non sia di per sé controversa, ma semplicemente che le domande sono domande "caricate", perché il campo sembra (almeno per me) essere popolato da accoliti di AIC e BIC che preferirebbero usare OLS rispetto ai metodi degli altri. Si prega di guardare tutte le ipotesi elencate e le restrizioni poste sui tipi di dati e sui metodi di analisi e commentarle; risolvi questo, contribuisci. Finora, alcune persone molto intelligenti hanno contribuito, quindi sono stati fatti progressi lenti. Riconosco i contributi di Richard Hardy e GeoMatt22, le gentili parole di Antoni Parellada e i valorosi tentativi di Cagdas Ozgenc e Ben Ogorek di mettere in relazione la divergenza di KL con una vera divergenza.

Prima di iniziare, esaminiamo cos'è AIC e una fonte è costituita dai prerequisiti per il confronto dei modelli AIC e un'altra è di Rob J Hyndman . In particolare, l'AIC è calcolato per essere uguale a

2 k - 2 \log (L (θ)),

$2k - 2 \log(L(\theta))\,,$

dove è il numero di parametri nel modello e la funzione di probabilità. AIC confronta il compromesso tra varianza ( ) e distorsione ( ) da ipotesi di modellazione. Da Fatti e errori dell'AIC , punto 3 "L'AIC non presume che i residui siano gaussiani. È solo che la probabilità gaussiana viene usata più frequentemente. Ma se vuoi usare qualche altra distribuzione, vai avanti." L'AIC è la probabilità penalizzata, qualunque sia la probabilità che tu scelga di utilizzare. Ad esempio, per risolvere l'AIC per i residui distribuiti di Student's-t, potremmo usare la soluzione di massima verosimiglianza per Student's-t . Il $k$ $L(\theta)$ $2k$ $2\log(L(\theta))$ la verosimiglianza di solito applicata per AIC è derivata dalla verosimiglianza gaussiana e data da

\log (L (θ)) = - \frac{| D |}{2} \log (2 π) - \frac{1}{2} \log (| K |) - \frac{1}{2} (x - μ)^{T} K^{- 1} (x - μ),

$\log(L(\theta)) =-\frac{|D|}{2}\log(2\pi) -\frac{1}{2} \log(|K|) -\frac{1}{2}(x-\mu)^T K^{-1} (x-\mu),$

$K$ è la struttura di covarianza del modello,la dimensione del campione; il numero di osservazioni nei set di dati, la risposta media e la variabile dipendente. Si noti che, in senso stretto, non è necessario che AIC corregga per la dimensione del campione, poiché AIC non viene utilizzato per confrontare set di dati, ma solo modelli che utilizzano lo stesso set di dati. Pertanto, non dobbiamo investigare se la correzione della dimensione del campione è stata eseguita correttamente o meno, ma dovremmo preoccuparci di questo se potessimo in qualche modo generalizzare l'AIC per essere utile tra i set di dati. Allo stesso modo, molto viene fatto su per assicurare l'efficienza asintotica. Una visione minimalista potrebbe considerare AIC come un semplice "indice", rendendo $|D|$ $\mu$ $x$ $K>>|D|>2$ $K>|D|$ rilevante eirrilevante. Tuttavia, è stata prestata una certa attenzione a questo nella forma di proporre un AIC modificato per non molto più grande dichiamato AIC vedi sotto il secondo paragrafo di risposta a Q2. Questa proliferazione di "misure" non fa che rafforzare l'idea che AIC sia un indice. Tuttavia, si consiglia cautela quando si usa la parola "i" poiché alcuni sostenitori dell'AIC identificano l'uso della parola "indice" con la stessa passione che potrebbe essere attribuita al riferimento alla loro ontogenesi come extraconiugale. $K>>|D|$ $K$ $|D|$ $_c$

Q1: Ma una domanda è: perché dovremmo preoccuparci di questo compromesso specifico sulla semplicità del fitness?

Risposta in due parti. Innanzitutto la domanda specifica. Dovresti preoccuparti solo perché era così che è stato definito. Se preferisci non c'è motivo di non definire un CIC; un criterio di informazione cavernicolo, non sarà AIC, ma CIC produrrebbe le stesse risposte di AIC, non influirebbe sul compromesso tra bontà di adattamento e semplicità di posa. Qualsiasi costante che avrebbe potuto essere utilizzata come moltiplicatore AIC, inclusa una volta, avrebbe dovuto essere scelta e rispettata, poiché non esiste uno standard di riferimento per applicare una scala assoluta. Tuttavia, aderire a una definizione standard non è arbitrario nel senso che c'è spazio per una sola definizione, o "convenzione", per una quantità, come AIC, che è definita solo su una scala relativa. Vedi anche il presupposto AIC n. 3, di seguito.

La seconda risposta a questa domanda riguarda le specificità del compromesso AIC tra bontà di adattamento e semplicità di posa, indipendentemente da come sarebbe stato scelto il suo moltiplicatore costante. Cioè, ciò che effettivamente influenza il "compromesso"? Una delle cose che influisce su questo, è il grado di libertà riaggiustare per il numero di parametri in un modello, questo ha portato a definire un "nuovo" AIC chiamato AIC come segue: $_c$

\begin{aligned} A I C_{c} & = A I C + \frac{2 k (k + 1)}{n - k - 1} \\ = \frac{2 k n}{n - k - 1} - 2 \ln (L) \end{aligned},

$\begin{align}AIC_c &= AIC + \frac{2k(k + 1)}{n - k - 1}\\ &= \frac{2kn}{n-k-1} - 2 \ln{(L)}\end{align} \,,$

dove è la dimensione del campione. Poiché la ponderazione è ora leggermente diversa quando si confrontano modelli con un numero diverso di parametri, AIC seleziona i modelli in modo diverso dall'AIC stesso e identicamente come AIC quando i due modelli sono diversi ma hanno lo stesso numero di parametri. Altri metodi selezioneranno anche i modelli in modo diverso, ad esempio "Il BIC [sic, criterio di informazione bayesiana ] generalmente penalizza i parametri liberi più fortemente del criterio di informazione di Akaike, anche se dipende ..." ANOVA penalizzerebbe anche i parametri soprannumerari usando probabilità parziali di l'indispensabilità dei valori dei parametri in modo diverso, e in alcune circostanze sarebbe preferibile all'uso dell'AIC $n$ $_c$ . In generale, qualsiasi metodo di valutazione dell'adeguatezza di un modello avrà i suoi vantaggi e svantaggi. Il mio consiglio sarebbe di testare le prestazioni di qualsiasi metodo di selezione dei modelli per la sua applicazione alla metodologia di regressione dei dati più vigorosamente rispetto ai test dei modelli stessi. Qualche motivo per dubitare? Sì, è necessario prestare attenzione durante la costruzione o la selezione di qualsiasi modello di test per selezionare metodi metodologicamente appropriati. L'AIC è utile per un sottoinsieme di valutazioni del modello, per questo vedi Q3, successivo. Ad esempio, l'estrazione di informazioni con il modello A può essere eseguita al meglio con il metodo di regressione 1 e per il modello B con il metodo di regressione 2, in cui il modello B e il metodo 2 a volte producono risposte non fisiche e in cui nessuno dei due metodi di regressione è MLR,

Q3 In che modo ciò si collega alla teoria dell'informazione :

Presupposto MLR n. 1. L'AIC è basato sulle ipotesi di massima verosimiglianza (MLR) applicabilità a un problema di regressione. C'è solo una circostanza in cui la regressione dei minimi quadrati ordinari e la regressione della massima verosimiglianza mi sono state indicate come uguali. Ciò accadrebbe quando i residui della regressione lineare ordinaria dei minimi quadrati (OLS) sono normalmente distribuiti e la MLR ha una funzione di perdita gaussiana. In altri casi di regressione lineare OLS, per regressione OLS non lineare e funzioni di perdita non gaussiane, MLR e OLS possono differire. Esistono molti altri obiettivi di regressione oltre a OLS o MLR o persino la bontà di adattamento e spesso una buona risposta ha poco a che fare con nessuno dei due, ad esempio per la maggior parte dei problemi inversi. Esistono tentativi molto citati (ad esempio, 1100 volte) di utilizzare l'AIC generalizzato per la quasi verosimiglianza, in modo che la dipendenza dalla regressione della massima verosimiglianza sia rilassata per ammettere funzioni di perdita più generali . Inoltre, MLR per Student's-t, sebbene non in forma chiusa, è fortemente convergente . Dato che le distribuzioni residue di Student-t sono sia più comuni che più generali rispetto alle condizioni gaussiane, non vedo alcun motivo speciale per usare l'assunto gaussiano per l'AIC.

Presupposto MLR n. 2. MLR è un tentativo di quantificare la bontà di adattamento. A volte viene applicato quando non è appropriato. Ad esempio, per i dati dell'intervallo ritagliato, quando il modello utilizzato non viene ritagliato. La bontà di adattamento va bene e bene se abbiamo una copertura completa delle informazioni. Nelle serie temporali, di solito non disponiamo di informazioni abbastanza veloci per comprendere appieno quali eventi fisici si manifestano inizialmente o i nostri modelli potrebbero non essere abbastanza completi per esaminare dati molto precoci. Ancora più preoccupante è che spesso non si può testare la bontà di adattamento in tempi molto tardi, per mancanza di dati. Pertanto, la bontà di adattamento può solo modellare il 30% dell'area adatta sotto la curva e, in tal caso, stiamo valutando un modello estrapolato sulla base della posizione dei dati e non stiamo esaminando cosa significhi. Per estrapolare, dobbiamo guardare non solo alla bontà di adattamento degli "importi", ma anche ai derivati di quegli importi in difetto che non abbiamo "bontà" di estrapolazione. Pertanto, le tecniche di adattamento come le spline B trovano impiego perché possono prevedere più agevolmente quali sono i dati quando i derivati sono adattati, o in alternativa trattamenti di problemi inversi, ad esempio un trattamento integrale mal posto su tutto il range del modello, come l'adattamento adattivo di propagazione Tikhonov regolarizzazione.

Un'altra preoccupazione complicata, i dati possono dirci cosa dovremmo fare con esso. Ciò di cui abbiamo bisogno per la bontà di adattamento (quando appropriato), è di avere i residui che sono distanze nel senso che una deviazione standard è una distanza. Cioè, la bontà di adattamento non avrebbe molto senso se un residuo lungo il doppio di una singola deviazione standard non avesse anche una lunghezza di due deviazioni standard. La selezione delle trasformazioni di dati deve essere studiata prima di applicare qualsiasi metodo di selezione / regressione del modello. Se i dati presentano un errore di tipo proporzionale, in genere il logaritmo prima di selezionare una regressione non è inappropriato, in quanto trasforma le deviazioni standard in distanze. In alternativa, possiamo modificare la norma da ridurre al minimo per adattarsi ai dati proporzionali di adattamento. Lo stesso vale per la struttura degli errori di Poisson, possiamo prendere la radice quadrata dei dati per normalizzare l'errore, o modificare la nostra norma per l'adattamento. Ci sono problemi che sono molto più complicati o addirittura intrattabili se non possiamo alterare la norma per l'adattamento, ad esempio, Poisson che conta le statistiche dal decadimento nucleare quando il decadimento del radionuclide introduce un'associazione esponenziale basata sul tempo tra i dati di conteggio e la massa effettiva che avrebbe emanava quei conteggi se non ci fosse stato decadimento. Perché? Se decadiamo per correggere i tassi di conteggio, non abbiamo più statistiche di Poisson e i residui (o errori) dalla radice quadrata dei conteggi corretti non sono più distanze. Se poi vogliamo eseguire un test di bontà di adattamento dei dati corretti da decadimento (ad es. AIC), dovremmo farlo in un modo sconosciuto al mio umile sé. Domanda aperta ai lettori, se insistiamo sull'uso della MLR, possiamo alterare la sua norma per tenere conto del tipo di errore dei dati (auspicabile) o dobbiamo sempre trasformare i dati per consentire l'utilizzo del MLR (non altrettanto utile)? Nota, AIC non confronta i metodi di regressione per un singolo modello, confronta modelli diversi per lo stesso metodo di regressione.

Presupposto AIC n. 1. Sembrerebbe che la MLR non sia limitata ai normali residui, ad esempio, vedi questa domanda su MLR e Student's-t . Quindi, supponiamo che la MLR sia appropriata al nostro problema in modo da poterne tracciare l'utilizzo per confrontare i valori AIC in teoria. Successivamente supponiamo che abbiano 1) informazioni complete, 2) lo stesso tipo di distribuzione dei residui (ad esempio, entrambi normali, entrambi di Student ) per almeno 2 modelli. Cioè, abbiamo un incidente che due modelli dovrebbero ora avere il tipo di distribuzione dei residui. Potrebbe succedere? Sì, probabilmente, ma certamente non sempre.

Presupposto AIC n. 2. L'AIC mette in relazione il logaritmo negativo della quantità (numero di parametri nel modello diviso per la divergenza di Kullback-Leibler ). Questo presupposto è necessario? Nel documento sulle funzioni di perdita generale viene utilizzata una "divergenza" diversa. Questo ci porta a chiederci se quell'altra misura sia più generale della divergenza di KL, perché non la stiamo usando anche per AIC?

Le informazioni non corrispondenti per AIC dalla divergenza di Kullback-Leibler sono "Sebbene ... spesso intuito come un modo per misurare la distanza tra le distribuzioni di probabilità, la divergenza di Kullback-Leibler non è una vera metrica". Vedremo perché presto.

L'argomento KL arriva al punto in cui si trova la differenza tra due cose tra il modello (P) e i dati (Q)

D_{K L} (P ‖ Q) = \int_{X} \log (\frac{d P}{d Q}) \frac{d P}{d Q} d Q,

$D_{\mathrm{KL}}(P\|Q) = \int_X \log\!\left(\frac{{\rm d}P}{{\rm d}Q}\right) \frac{{\rm d}P}{{\rm d}Q} \, {\rm d}Q \,,$

che riconosciamo come entropia di '' P '' rispetto a '' Q ''.

Presupposto AIC n. 3. La maggior parte delle formule che coinvolgono la divergenza di Kullback-Leibler sono valide indipendentemente dalla base del logaritmo. Il moltiplicatore costante potrebbe avere più significato se l'AIC fosse correlato a più di un set di dati alla volta. Così com'è quando si confrontano i metodi, se allora qualsiasi numero positivo volte che sarà ancora . Poiché è arbitrario, anche l'impostazione della costante su un valore specifico come una questione di definizione non è inappropriata. $AIC_{data,model 1}<AIC_{data,model 2}$ $<$

Presupposto AIC n. 4. Ciò significherebbe che l'AIC misura l'entropia di Shannon o l'autoinformazione "Quello che dobbiamo sapere è" L'entropia è ciò di cui abbiamo bisogno per una metrica di informazioni? "

Per capire cos'è l '"autoinformazione", è necessario normalizzare le informazioni in un contesto fisico, come farà chiunque. Sì, desidero che una parte delle informazioni abbia proprietà fisiche. Che aspetto avrebbe in un contesto più generale?

L'equazione di energia libera di Gibbs ( $\Delta G = ΔH – TΔS$ ) mette in relazione la variazione di energia con la variazione di entalpia meno la temperatura assoluta moltiplicata per la variazione di entropia. La temperatura è un esempio di un tipo riuscito di contenuto di informazioni normalizzato, perché se un mattone caldo e uno freddo vengono messi in contatto tra loro in un ambiente termicamente chiuso, il calore scorrerà tra di loro. Ora, se saltiamo su questo senza pensare troppo, diciamo che il calore è l'informazione. Ma sono le informazioni relative che predicono il comportamento di un sistema. L'informazione scorre fino al raggiungimento dell'equilibrio, ma equilibrio di cosa? La temperatura, ecco cosa, non il calore come nella velocità delle particelle di determinate masse di particelle, non sto parlando della temperatura molecolare, sto parlando della temperatura lorda di due mattoni che possono avere masse diverse, fatte di materiali diversi, con densità diverse ecc., e niente di tutto ciò che devo sapere, tutto quello che devo sapere è che la temperatura lorda è ciò che equilibra. Pertanto, se un mattone è più caldo, ha un contenuto informativo più relativo e, quando è più freddo, meno.

Ora, se mi viene detto che un mattone ha più entropia dell'altro, e allora? Ciò, di per sé, non prevede se guadagnerà o perderà l'entropia quando viene messo in contatto con un altro mattone. Quindi, l'entropia da sola è una misura utile di informazione? Sì, ma solo se stiamo confrontando lo stesso mattone con se stesso, quindi il termine "auto-informazione".

Da ciò deriva l'ultima limitazione: per usare la divergenza KL tutti i mattoni devono essere identici. Pertanto, ciò che rende AIC un indice atipico è che non è portatile tra i set di dati (ad esempio, diversi mattoni), che non è una proprietà particolarmente desiderabile che potrebbe essere affrontata normalizzando il contenuto delle informazioni. La divergenza di KL è lineare? Forse sì forse no. Tuttavia, non importa, non abbiamo bisogno di assumere la linearità per usare l'AIC e, per esempio, l'entropia stessa non credo sia linearmente correlata alla temperatura. In altre parole, non abbiamo bisogno di una metrica lineare per utilizzare i calcoli dell'entropia.

Una buona fonte di informazioni su AIC è in questa tesi . Dal punto di vista pessimistico, questo dice: "Di per sé, il valore dell'AIC per un determinato set di dati non ha alcun significato". Dal punto di vista dell'ottimismo, ciò afferma che i modelli con risultati ravvicinati possono essere differenziati livellando per stabilire intervalli di confidenza e molto altro ancora.

— Carl
fonte

Potresti indicare la differenza principale tra la nuova risposta e la vecchia risposta eliminata? Sembra che ci sia una certa sovrapposizione.

— Richard Hardy,

Sono stato nel mezzo della modifica della mia risposta per alcune ore quando è stata eliminata. Ci sono stati molti cambiamenti rispetto a quando ho iniziato perché era un lavoro in corso, ho preso molta lettura e pensiero, e i miei colleghi su questo sito non sembrano curarsene, ma non aiutano a rispondere a nulla. AIC sembra troppo buono per la revisione critica, come oso? Ho completato la modifica e l'ho ripubblicata. Voglio sapere cosa non va nella mia risposta. Ci ho lavorato molto e ho cercato di essere sincero e nessun altro si è preoccupato.

— Carl,

Non arrabbiarti. Anche la mia prima esperienza qui è stata frustrante, ma in seguito ho imparato a porre domande in modo appropriato. Mantenere un tono neutro ed evitare opinioni forti che non si basano su fatti concreti sarebbe un buon primo passo, IMHO. (A proposito, ho valutato la tua domanda, ma esito ancora sulla risposta.)

— Richard Hardy,

+1 Solo per il tuo preambolo. Ora continuerò a leggere la risposta.

— Antoni Parellada,

@AntoniParellada Hai aiutato solo a evitare che la domanda venisse cancellata, cosa che apprezzo. Lavorare con l'AIC è stato difficile e ho bisogno di aiuto. Certo, alcune delle mie intuizioni sono buone, ma ho anche lo zoccolo nella malattia della bocca, che altre menti sono più brave a catturare di me.

— Carl

AIC è una stima del doppio del termine additivo guidato dal modello rispetto alla divergenza di Kullback-Leibler prevista tra la vera distribuzione e il modello parametrico approssimativo . $f$ $g$

La divergenza di KL è un argomento nella teoria dell'informazione e funziona in modo intuitivo (sebbene non rigorosamente) come misura della distanza tra due distribuzioni di probabilità. Nella mia spiegazione di seguito, mi riferisco a queste diapositive di Shuhua Hu. Questa risposta necessita ancora di una citazione per il "risultato chiave".

La divergenza KL tra il modello reale e il modello approssimativo è $f$ $g_{\theta}$

d (f, g_{θ}) = \int f (x) \log (f (x)) d x - \int f (x) \log (g_{θ} (x)) d x

$d(f, g_{\theta}) = \int f(x) \log(f(x)) dx -\int f(x) \log(g_{\theta}(x)) dx$

Poiché la verità è sconosciuta, i dati vengono generati da e la stima della massima probabilità produce stimatore . Sostituire con nelle equazioni sopra significa che sia il secondo termine nella formula della divergenza KL che la divergenza KL sono ora variabili casuali. Il "risultato chiave" nelle diapositive è che la media del secondo termine additivo rispetto a può essere stimata da una semplice funzione della funzione di verosimiglianza (valutata al MLE) e , la dimensione di : $y$ $f$ $\hat{\theta}(y)$ $\theta$ $\hat{\theta}(y)$ $y$ $L$ $k$ $\theta$

- E_{y} [\int f (x) \log (g_{\hat{θ} (y)} (x)) d x] \approx - \log (L (\hat{θ} (y))) + k .

$-\text{E}_y\left[\int f(x) \log(g_{\hat{\theta}(y)}(x)) \, dx \right] \approx -\log(L(\hat{\theta}(y))) + k.$

L'AIC è definito come il doppio delle aspettative precedenti (HT @Carl) e valori più piccoli (più negativi) corrispondono a una divergenza KL stimata minore tra la distribuzione reale e la distribuzione modellata . $f$ $g_{\hat{\theta}(y)}$

— Ben Ogorek
fonte

Come sapete, il termine devianza quando applicato alla verosimiglianza è gergo ed inesatto. Ho omesso la discussione di questo perché è necessaria solo la monotonicità affinché le differenze di AIC abbiano valore comparativo e non linearità. Quindi, non riesco a vedere la rilevanza di tentare eccessivamente di "visualizzare" qualcosa che probabilmente non c'è e che non è comunque necessario.

— Carl,

Vedo il tuo punto che l'ultimo paragrafo aggiunge un'aringa rossa e mi rendo conto che nessuno deve essere convinto che 2 * x sia uguale a x. Sarebbe corretto affermare che la quantità è moltiplicata per 2 "per convenzione"?

— Ben Ogorek,

Qualcosa del genere. Personalmente, voterei per "è definito come" perché inizialmente è stato scelto in questo modo. O per metterlo in prospettiva temporale, qualsiasi costante che avrebbe potuto essere usata, anche una volta, avrebbe dovuto essere scelta e rispettata, poiché non esiste uno standard di riferimento per far rispettare una scala.

— Carl,

Un semplice punto di vista per le prime due domande è che l'AIC è correlato al tasso di errore atteso fuori campione del modello di massima verosimiglianza. Il criterio AIC si basa sulla relazione (equazione di Elements of Statistical Learning 7.27) dove, seguendo la tua notazione, è il numero di parametri nel modello cui valore di probabilità massima è .

- 2 E [\ln P r (D | θ)] \approx - \frac{2}{N} E [\ln L_{m, D}] + \frac{2 k_{m}}{N} = \frac{1}{N} E [{A I C}_{m, D}]

$-2 \, \mathrm{E}[\ln \mathrm{Pr}(D|\theta)] \approx -\frac{2}{N} \, \mathrm{E}[\ln L_{m,D}] + \frac{2k_m}{N} = \frac{1}{N} E[\mathrm{AIC}_{m,D}]$

k_{m}

$k_m$

m

$m$

L_{m, D}

$L_{m,D}$

Il termine a sinistra è il tasso di "errore" fuori campione previsto del modello di massima verosimiglianza , usando il registro della probabilità come metrica di errore. Il fattore -2 è la correzione tradizionale utilizzata per costruire la devianza (utile perché in determinate situazioni segue una distribuzione chi-quadro). $m = \{ \theta \}$

La mano destra consiste nel tasso di "errore" nel campione stimato dalla probabilità logaritmica massimizzata, più il termine corregge per l'ottimismo della verosimiglianza logaritmica massimizzata, che ha la libertà di sovrautilizzare un po 'i dati. $2k_m/N$

Così, l'AIC è una stima dei tempi out-of-campione "errore" rate (devianza) . $N$

— jwimberley
fonte