AIC e BIC vengono utilizzati, ad esempio nella regressione graduale. Fanno effettivamente parte di una più ampia classe di "euristica", che vengono anche utilizzate. Ad esempio, il DIC (Deviance Information Criterion) viene spesso utilizzato nella selezione del modello bayesiano.
Tuttavia, sono fondamentalmente "euristiche". Mentre si può dimostrare che sia l'AIC che il BIC convergono asintoticamente verso approcci di convalida incrociata (penso che l'AIC vada verso CV one-out-one e BIC verso qualche altro approccio, ma non sono sicuro), sono noti per sotto-penalizzare e sopra-penalizzare rispettivamente. Vale a dire che usando AIC otterrai spesso un modello, che è più complicato di quanto dovrebbe essere, mentre con BIC ottieni spesso un modello che è troppo semplicistico.
Poiché entrambi sono correlati al CV, il CV è spesso una scelta migliore, che non soffre di questi problemi.
Infine, c'è il problema del numero di parametri richiesti per BIC e AIC. Con approssimatori di funzioni generali (ad es. KNN) su ingressi con valori reali, è possibile "nascondere" i parametri, ovvero costruire un numero reale che contenga le stesse informazioni di due numeri reali (si pensi ad esempio all'intersezione delle cifre). In tal caso, qual è il numero effettivo di parametri? D'altra parte, con modelli più complicati, potresti avere dei vincoli sui tuoi parametri, ad esempio puoi adattare solo parametri come θ1>θ2 (vedi ad esempio qui ). Oppure potresti non avere identificabilità, nel qual caso più valori dei parametri danno effettivamente lo stesso modello. In tutti questi casi, il semplice conteggio dei parametri non fornisce una stima adeguata.
Poiché molti algoritmi contemporanei di apprendimento automatico mostrano queste proprietà (ad esempio approssimazione universale, numero non chiaro di parametri, non identificabilità), AIC e BIC sono meno utili per questi modelli, di quanto possano sembrare a prima vista.
MODIFICA :
Alcuni altri punti che potrebbero essere chiariti:
- Sembra che ho sbagliato a considerare la mappatura intercambiando le cifre con una biiezione tra R→RN (vedi qui ). Tuttavia, i dettagli del perché questa non è una biiezione sono un po 'difficili da capire. Tuttavia, in realtà non abbiamo bisogno di una biiezione per far funzionare questa idea (una suriezione è sufficiente).
- Secondo la prova di Cantor (1877) ci deve essere una biiezione tra R→RN . Sebbene questa biiezione non possa essere definita esplicitamente, la sua esistenza può essere dimostrata (ma ciò richiede l'assioma non dimostrato della scelta). Questa biiezione può ancora essere utilizzata in un modello teorico (potrebbe non essere possibile implementare effettivamente questo modello in un computer), per decomprimere un singolo parametro in un numero arbitrario di parametri.
- In realtà non abbiamo bisogno che la mappatura tra R→RN sia una biiezione. Qualsiasi funzione suriettiva R→RN è sufficiente per decomprimere più parametri da uno singolo. È possibile dimostrare che tali sporgenze esistono come limiti di una sequenza di altre funzioni (le cosiddette curve di riempimento dello spazio , ad es curva di Peano ).
- Poiché né la dimostrazione di Cantor è costruttiva (prova semplicemente l'esistenza della biiezione senza fare un esempio), né le curve di riempimento dello spazio (perché esistono solo come limiti di oggetti costruttivi e quindi non sono costruttivi), l'argomento I fatto è solo una prova teorica. In teoria, potremmo semplicemente continuare ad aggiungere parametri a un modello per ridurre il BIC al di sotto di qualsiasi valore desiderato (sul set di addestramento). Tuttavia, in un'implementazione del modello reale dobbiamo approssimare la curva di riempimento dello spazio, quindi l'errore di approssimazione potrebbe proibirci di farlo (non l'ho ancora testato).
- Poiché tutto ciò richiede l'assioma di scelta, la dimostrazione non è valida se non si accetta questo assioma (sebbene la maggior parte dei matematici lo faccia). Ciò significa che nella matematica costruttiva ciò potrebbe non essere possibile, ma non so quale ruolo gioca la matematica costruttiva per la statistica.
- NRN+1RNRNRN. Tuttavia, questo è solo un argomento informale, non conosco alcun trattamento formale di questa nozione di "complessità".