Perché il criterio informativo di Akaike non viene più utilizzato nell'apprendimento automatico?

Ho appena incontrato il "criterio di informazione Akaike" e ho notato questa grande quantità di letteratura sulla selezione dei modelli (anche cose come BIC sembrano esistere).

Perché i moderni metodi di apprendimento automatico non sfruttano questi criteri di selezione dei modelli BIC e AIC?

— eco
fonte

perché nessuno sta calcolando le probabilità?

— Aksakal,

Cosa intendi con "metodi di apprendimento automatico contemporaneo"? Per quanto ho usato AIC e BIC sono usati frequentemente.

— Ferdi,

Anche perché il -1? Ricorda che non ci sono domande stupide - ogni domanda cerca di far luce sull'universo

— eco il

@echo: non ho votato in negativo, ma penso che la tua domanda sarebbe migliorata se tu potessi ottenere / supportare l'affermazione principale (che i metodi di apprendimento automatico sfruttano questi criteri di selezione dei modelli BIC e AIC)

— user603

@Aksakal Grazie. Penso che sia meglio se le domande costruite attorno a un'affermazione radicale possano dargli origine. Intendo come regola generale.

— user603

AIC e BIC vengono utilizzati, ad esempio nella regressione graduale. Fanno effettivamente parte di una più ampia classe di "euristica", che vengono anche utilizzate. Ad esempio, il DIC (Deviance Information Criterion) viene spesso utilizzato nella selezione del modello bayesiano.

Tuttavia, sono fondamentalmente "euristiche". Mentre si può dimostrare che sia l'AIC che il BIC convergono asintoticamente verso approcci di convalida incrociata (penso che l'AIC vada verso CV one-out-one e BIC verso qualche altro approccio, ma non sono sicuro), sono noti per sotto-penalizzare e sopra-penalizzare rispettivamente. Vale a dire che usando AIC otterrai spesso un modello, che è più complicato di quanto dovrebbe essere, mentre con BIC ottieni spesso un modello che è troppo semplicistico.

Poiché entrambi sono correlati al CV, il CV è spesso una scelta migliore, che non soffre di questi problemi.

Infine, c'è il problema del numero di parametri richiesti per BIC e AIC. Con approssimatori di funzioni generali (ad es. KNN) su ingressi con valori reali, è possibile "nascondere" i parametri, ovvero costruire un numero reale che contenga le stesse informazioni di due numeri reali (si pensi ad esempio all'intersezione delle cifre). In tal caso, qual è il numero effettivo di parametri? D'altra parte, con modelli più complicati, potresti avere dei vincoli sui tuoi parametri, ad esempio puoi adattare solo parametri come $\theta_1 > \theta_2$ (vedi ad esempio qui ). Oppure potresti non avere identificabilità, nel qual caso più valori dei parametri danno effettivamente lo stesso modello. In tutti questi casi, il semplice conteggio dei parametri non fornisce una stima adeguata.

Poiché molti algoritmi contemporanei di apprendimento automatico mostrano queste proprietà (ad esempio approssimazione universale, numero non chiaro di parametri, non identificabilità), AIC e BIC sono meno utili per questi modelli, di quanto possano sembrare a prima vista.

MODIFICA :

Alcuni altri punti che potrebbero essere chiariti:

Sembra che ho sbagliato a considerare la mappatura intercambiando le cifre con una biiezione tra $\mathbb{R}\rightarrow\mathbb{R}^N$ (vedi qui ). Tuttavia, i dettagli del perché questa non è una biiezione sono un po 'difficili da capire. Tuttavia, in realtà non abbiamo bisogno di una biiezione per far funzionare questa idea (una suriezione è sufficiente).
Secondo la prova di Cantor (1877) ci deve essere una biiezione tra $\mathbb{R}\rightarrow\mathbb{R}^N$ . Sebbene questa biiezione non possa essere definita esplicitamente, la sua esistenza può essere dimostrata (ma ciò richiede l'assioma non dimostrato della scelta). Questa biiezione può ancora essere utilizzata in un modello teorico (potrebbe non essere possibile implementare effettivamente questo modello in un computer), per decomprimere un singolo parametro in un numero arbitrario di parametri.
In realtà non abbiamo bisogno che la mappatura tra $\mathbb{R}\rightarrow\mathbb{R}^N$ sia una biiezione. Qualsiasi funzione suriettiva $\mathbb{R}\rightarrow\mathbb{R}^N$ è sufficiente per decomprimere più parametri da uno singolo. È possibile dimostrare che tali sporgenze esistono come limiti di una sequenza di altre funzioni (le cosiddette curve di riempimento dello spazio , ad es curva di Peano ).
Poiché né la dimostrazione di Cantor è costruttiva (prova semplicemente l'esistenza della biiezione senza fare un esempio), né le curve di riempimento dello spazio (perché esistono solo come limiti di oggetti costruttivi e quindi non sono costruttivi), l'argomento I fatto è solo una prova teorica. In teoria, potremmo semplicemente continuare ad aggiungere parametri a un modello per ridurre il BIC al di sotto di qualsiasi valore desiderato (sul set di addestramento). Tuttavia, in un'implementazione del modello reale dobbiamo approssimare la curva di riempimento dello spazio, quindi l'errore di approssimazione potrebbe proibirci di farlo (non l'ho ancora testato).
Poiché tutto ciò richiede l'assioma di scelta, la dimostrazione non è valida se non si accetta questo assioma (sebbene la maggior parte dei matematici lo faccia). Ciò significa che nella matematica costruttiva ciò potrebbe non essere possibile, ma non so quale ruolo gioca la matematica costruttiva per la statistica.
$N$ $\mathbb{R}^{N+1}$ $\mathbb{R}^N$ $\mathbb{R}^N$ $\mathbb{R}^N$ . Tuttavia, questo è solo un argomento informale, non conosco alcun trattamento formale di questa nozione di "complessità".

— LiKao
fonte

Vuoi entrare in questo post stats.stackexchange.com/questions/325129/… ? Non ho avuto fortuna con questo per un po '.

— Skander H. - Ripristina Monica il

@LiKao Puoi citare riferimenti sulle "tecniche" dei parametri di hidding, come nel caso delle cifre che si intersecano.

— orazio

@horaceT Sfortunatamente non conosco alcun documento che fornisca questo esempio. Negli articoli su MDL c'è la nozione di "complessità funzionale" (es. Lpl.psy.ohio-state.edu/documents/MNP.pdf vedi eq 10). Spesso l'esempio è fatto con parametri vincolati (es. Researchgate.net/publication/… ). Mi piace girare l'esempio quando ne discuto e mostrare che un singolo parametro complesso può catturare più parametri semplici perché lo trovo più intuitivo.

— LiKao,

f_{1, 2} : R \to R^{2}

$f_{1,2}:\mathbb{R} \rightarrow \mathbb{R}^2$

f_{1, N} : R \to R^{N}

$f_{1,N}:\mathbb{R}\rightarrow \mathbb{R}^N$

N

$N$

f_{1, N}

$f_{1,N}$

N

$N$

N

$N$

1

$1$ modello di parametri. Adattare quel modello, comunque, sarebbe molto complicato.

— LiKao,

@LiKao Questo e 'abbastanza affascinante. Si prega di fare riferimento a detta prova di "curve di archiviazione". Ho potuto vedere che i parametri vincolati hanno un "minore" grado di libertà. Ingenuamente, se f (x, y) = 0, y è solo una funzione di x; hai appena messo g (x) dove y è. Non puoi fare cose simili con l'ottimizzazione vincolata.

— orazioT