Misure della complessità del modello


19

Come possiamo confrontare la complessità di due modelli con lo stesso numero di parametri?

Modifica 19/09 : Per chiarire, la complessità del modello è una misura di quanto sia difficile imparare da dati limitati. Quando due modelli si adattano ugualmente bene ai dati esistenti, un modello con una complessità inferiore fornirà un errore inferiore sui dati futuri. Quando si usano approssimazioni, tecnicamente questo non è sempre vero, ma va bene se tende ad essere vero in pratica. Varie approssimazioni forniscono diverse misure di complessità


puoi fornire maggiori informazioni su quali attributi sono disponibili sui modelli?
Shabbychef,

Questa è una specie di domanda aperta, quindi la mia domanda sarebbe: che tipo di attributi ho bisogno per essere in grado di misurare la complessità? Al livello più elementare, un modello di probabilità è un insieme di distribuzioni di probabilità e io adeguo il modello ai dati selezionando il membro più adatto
Yaroslav Bulatov,

3
Cos'è, appunto, la "complessità"? (Questa non è una domanda irriverente!) In assenza di una definizione formale, non possiamo sperare di fare un confronto valido di qualcosa.
whuber

Questo è quello che sto chiedendo essenzialmente
Yaroslav Bulatov,

2
Ma non puoi almeno darci un suggerimento su quale aspetto di un modello stai cercando di catturare nella parola "complessità"? Senza questo, questa domanda è solo ambigua per ammettere una risposta ragionevole.
whuber

Risposte:


12

Oltre alle varie misure della lunghezza minima della descrizione (ad es. Probabilità massima normalizzata, approssimazione delle informazioni del pescatore), ci sono altri due metodi che vale la pena menzionare:

  1. Bootstrap parametrico . È molto più facile da implementare rispetto alle impegnative misure MDL. Un bel documento è di Wagenmaker e colleghi:
    Wagenmakers, E.-J., Ratcliff, R., Gomez, P., & Iverson, GJ (2004). Valutare il mimetismo del modello usando il bootstrap parametrico . Journal of Mathematical Psychology , 48, 28-50.
    L'abstract:

    Presentiamo una procedura di campionamento generale per quantificare la mimica dei modelli, definita come la capacità di un modello di tenere conto dei dati generati da un modello concorrente. Questa procedura di campionamento, denominata metodo parametrico del crossstrap bootstrap (PBCM; cfr. Williams (JR Statist. Soc. B 32 (1970) 350; Biometrics 26 (1970) 23)), genera distribuzioni di differenze nella bontà di adattamento previsto per ciascuno dei modelli concorrenti. Nella versione informata dei dati del PBCM, i modelli generatori hanno valori di parametri specifici ottenuti adattando i dati sperimentali in esame. Le distribuzioni della differenza informata sui dati possono essere confrontate con la differenza osservata nella bontà di adattamento per consentire una quantificazione dell'adeguatezza del modello. Nella versione non informata dei dati di PBCM, i modelli generatori hanno una gamma relativamente ampia di valori di parametri basati su conoscenze precedenti. L'applicazione di entrambi i dati informati e dei dati non informati PBCM è illustrata con numerosi esempi.

    Aggiornamento: valutazione del mimetismo del modello in un inglese semplice. Prendi uno dei due modelli concorrenti e scegli casualmente una serie di parametri per quel modello (dati informati o meno). Quindi, si producono dati da questo modello con l'insieme di parametri selezionato. Successivamente, si consente a entrambi i modelli di adattarsi ai dati prodotti e di verificare quale dei due modelli candidati offre la soluzione migliore. Se entrambi i modelli sono ugualmente flessibili o complessi, il modello dal quale hai prodotto i dati dovrebbe adattarsi meglio. Tuttavia, se l'altro modello è più complesso, potrebbe adattarsi meglio, sebbene i dati siano stati prodotti dall'altro modello. Lo ripeti più volte con entrambi i modelli (ovvero, lascia che entrambi i modelli producano dati e osservi quale dei due si adatta meglio). Il modello che "si sovrappone" ai dati prodotti dall'altro modello è quello più complesso.

  2. Convalida incrociata : è anche abbastanza facile da implementare. Vedi le risposte a questa domanda . Tuttavia, si noti che il problema con esso è che la scelta tra la regola di taglio del campione (lasciare uno, K piegare, ecc.) È senza principi.


Non capisco davvero il "mimetismo modello", ma la convalida incrociata sembra rimandare semplicemente il compito di valutare la complessità. Se utilizzi i dati per selezionare i tuoi parametri e il tuo modello come nella convalida incrociata, la domanda rilevante diventa come stimare la quantità di dati necessari affinché questo "meta" -fitter funzioni bene
Yaroslav Bulatov

@Yaroslaw: non capisco davvero il tuo problema con la validazione incrociata, ma ad essere sincero non sono un esperto. Tuttavia, vorrei davvero fare un punto per misurare il mimetismo del modello. Pertanto, vedi la mia risposta aggiornata.
Henrik,

4

Penso che dipenderebbe dall'effettiva procedura di adattamento del modello. Per una misura generalmente applicabile, potresti considerare i Gradi di libertà generalizzati descritti nell'anno 1998 - essenzialmente la sensibilità del cambiamento delle stime del modello alla perturbazione delle osservazioni - che funziona abbastanza bene come misura della complessità del modello.


Hm ... l'articolo riguarda la regressione, mi chiedo se questo possa essere usato per una stima della probabilità discreta. Inoltre, non capisco davvero la motivazione che dà per questo - gdf è un grado di sensibilità dei parametri a piccoli cambiamenti nei dati, ma perché è importante? Potrei scegliere una diversa parametrizzazione in cui piccoli cambiamenti nei parametri nella parametrizzazione originale corrispondono a grandi cambiamenti nella nuova parametrizzazione, quindi sembrerà più sensibile ai dati, ma è lo stesso modello
Yaroslav Bulatov

Yaroslav:> * Potrei scegliere una diversa parametrizzazione in cui piccoli cambiamenti nei parametri nella parametrizzazione originale corrispondono a grandi cambiamenti nella nuova parametrizzazione, quindi sembrerà più sensibile ai dati * puoi fare un esempio (che coinvolge uno stimatore affine equivariante)? Grazie,
user603,

1
DoF nella regressione lineare risolve la traccia della matrice del cappello o la somma delle sensibilità - quindi la motivazione / il concetto non sono poi così lontani. Tibshirani & Knight hanno proposto il criterio dell'inflazione sulla covarianza che esamina le covarianze delle stime dei modelli anziché delle sensibilità. La GDF sembra essere stata applicata in una serie di procedure modello come il cart e il limitamento delle onde (il documento di Ye sulla selezione adattiva del modello ha maggiori dettagli) e nei metodi di ensemble per controllare la complessità, ma non conosco alcun caso di stima discreta. Potrebbe valere la pena provare ...
ars

Non conoscere "stimatori equivarianti affini", ma supponiamo invece di fare affidamento sullo stimatore della massima verosimiglianza. Sia q = f (p) dove f rappresenta una certa biiezione. Sia p0, q0 rappresenti la stima MLE nella corrispondente parametrizzazione. p0, q0 avranno diverse varianze asintotiche, ma in termini di dati di modellazione sono equivalenti. Quindi la domanda arriva a: in quale parametrizzazione la sensibilità dei parametri rappresenta il rischio atteso?
Yaroslav Bulatov,

4

La lunghezza minima della descrizione (MDL) e la lunghezza minima del messaggio (MML) meritano sicuramente una visita.

Per quanto riguarda l'MDL, un semplice documento che illustra la procedura Normalized Maximum Likelihood (NML) e l'approssimazione asintotica è:

S. de Rooij e P. Grünwald. Uno studio empirico sulla selezione del modello di lunghezza minima della descrizione con infinita complessità parametrica. Journal of Mathematical Psychology, 2006, 50, 180-192

Qui, osservano la complessità del modello di una distribuzione Geometrica contro una distribuzione di Poisson. Un eccellente tutorial (gratuito) su MDL può essere trovato qui .

In alternativa, un documento sulla complessità della distribuzione esponenziale esaminata con MML e MDL può essere trovato qui . Sfortunatamente, non esiste un tutorial aggiornato su MML, ma il libro è un riferimento eccellente e altamente raccomandato.


1
Ho letto quel documento e sembra che la complessità stocastica risolva il problema di non essere in grado di distinguere tra modelli di stesse dimensioni, ma introduce un problema di talvolta non essere in grado di distinguere tra modelli di dimensioni diverse. Alla distribuzione geometrica viene assegnata un'infinita complessità, sicuramente non quello che ci aspetteremmo da un modello così semplice!
Yaroslav Bulatov,

Ottimo punto sull'infinita complessità stocastica (SC). Esistono soluzioni al problema dell'infinito SC, ma non sono molto eleganti; La rinormalizzazione di Rissanen funziona bene nei modelli lineari, ma non è facile da fare per il problema Poisson / Geometrico. La codifica MML (o SMML) di dati Poisson / geometrici va bene però.
emakalic,

3

Descrizione minima La lunghezza può essere una strada da percorrere.


2
Solo una breve nota: la lunghezza minima della descrizione è molto potente e utile, ma può richiedere secoli per ottenere risultati, soprattutto quando si utilizza la massima probabilità normalizzata con set di dati più grandi. Una volta ho impiegato 10 giorni con il codice FORTRAN per ottenerlo per un solo modello
Dave Kellen,

2

Per "complessità del modello" si intende solitamente la ricchezza dello spazio del modello. Questa definizione non dipende dai dati. Per i modelli lineari, la ricchezza dello spazio modello viene misurata banalmente con la diminuzione dello spazio. Questo è ciò che alcuni autori chiamano i "gradi di libertà" (anche se storicamente, i gradi di libertà erano riservati alla differenza tra lo spazio del modello e lo spazio del campione). Per i modelli non lineari, quantificare la ricchezza dello spazio è meno banale. I gradi generalizzati di libertà (vedi la risposta di ars) sono una misura del genere. È davvero molto generale e può essere utilizzato per qualsiasi spazio modello "strano" come alberi, KNN e simili. La dimensione VC è un'altra misura.

Come accennato in precedenza, questa definizione di "complessità" è indipendente dai dati. Quindi due modelli con lo stesso numero di parametri avranno in genere la stessa "complessità".


1

Dai commenti di Yaroslav alla risposta di Henrik:

ma la convalida incrociata sembra rimandare il compito di valutare la complessità. Se si utilizzano i dati per selezionare i parametri e il modello come nella convalida incrociata, la domanda pertinente diventa come stimare la quantità di dati necessari affinché questo "meta" -fitter funzioni correttamente

KKKCV(K)KK

Si potrebbe anche dare un aspetto 'significativo' a questo dato che il risultato della procedura è direttamente in termini (unità) di differenza nell'errore di previsione fuori campione.


1
Concordo sul fatto che la convalida incrociata risolva il problema della misurazione della complessità del modello. Forse sto facendo la domanda sbagliata, perché una domanda pratica è la complessità del campione della procedura di adattamento. Lo studente con convalida incrociata dovrebbe provare diversi modelli e scegliere quello con l'errore di convalida incrociata più basso. Ora la domanda è: è più probabile che questo studente si adatti troppo a uno che si adatta a un singolo modello con la massima probabilità?
Yaroslav Bulatov,

Yaroslav Bulatov:> sì, ma puoi usare ML solo per confrontare i modelli nidificati. Nella misura in cui hai specificato (nella tua domanda) i modelli citati con lo stesso numero di parametri, non possono essere nidificati.
user603

Un altro problema è che la convalida incrociata non aumenta la nostra comprensione della complessità del modello. Misure come AIC / BIC chiariscono che molti parametri incoraggiano un eccesso di adattamento. Ora la domanda diventa: quali aspetti del modello oltre alla dimensione aumentano la capacità di sovralimentare?
Yaroslav Bulatov,

Yaroslav:> Ancora una volta, ottimo punto.
user603

Se l'adattamento eccessivo è la tendenza di una procedura di adattamento del modello ad adattare il rumore oltre al segnale, allora possiamo guardare una determinata procedura per vedere dove potrebbero sorgere tali tendenze. Forse a causa della mancanza di immaginazione o conoscenza, pur considerando alcune procedure diverse, non ho potuto ridurlo a qualcosa che non può essere riformulato come "numero di parametri" (o "numero effettivo di parametri"). Potremmo capovolgerlo e chiederci: tutto il resto uguale, cosa succede quando introduciamo rumore nei nostri dati? Quindi arriviamo a misure come la GDF di Ye.
Ars,

0

Che dire del criterio informativo per il confronto tra modelli? Vedi ad esempio http://en.wikipedia.org/wiki/Akaike_information_criterion

La complessità del modello è qui il numero di parametri del modello.


L'AIC non è una misura della complessità del modello.
Sven Hohenstein,

@SvenHohenstein, dalla sua ultima frase, capisco che non sta suggerendo che l'AIC stesso , sia una misura della complessità del modello. Brause42, si noti che la domanda si pone specificamente sui modelli con lo stesso numero di parametri. Pertanto, l'AIC si ridurrà a SSE o devianza o qualsiasi altra cosa.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.