Quali sono le alternative alla dimensione VC per misurare la complessità delle reti neurali?


16

Mi sono imbattuto in alcuni modi di base per misurare la complessità delle reti neurali:

Ci sono altre alternative?

Si preferisce:

  • Se la metrica della complessità potesse essere utilizzata per misurare reti neurali da paradigmi diversi (per misurare backprop, reti neurali dinamiche, correlazione in cascata, ecc.) Sulla stessa scala. Ad esempio, la dimensione VC può essere utilizzata per diversi tipi su reti (o anche cose diverse dalle reti neurali) mentre il numero di neuroni è utile solo tra modelli molto specifici in cui la funzione di attivazione, i segnali (somme di base vs. picchi) e altri le proprietà della rete sono le stesse.
  • Se ha belle corrispondenze a misure standard di complessità delle funzioni apprendibili dalla rete
  • Se è facile calcolare la metrica su reti specifiche (quest'ultima non è d'obbligo, però.)

Appunti

Questa domanda si basa su una domanda più generale su CogSci.SE.


3
La complessità non dovrebbe dipendere anche dall'algoritmo di apprendimento? La dimensione VC viene solitamente applicata ai metodi con funzioni di perdita convessa. Se hai una perdita non convessa, potresti entrare nella situazione in cui il tuo modello sarebbe in grado di separare alcuni punti ma il tuo algoritmo di apprendimento non troverà mai questa soluzione. Pertanto ritengo che dovrebbe essere piuttosto difficile avere dei limiti usando la struttura della rete. Sono d'accordo con @tdc che l'errore di generalizzazione è la strada da percorrere. L'articolo di Vapnik sulla teoria dell'apprendimento statistico potrebbe essere un buon posto per iniziare a conoscerlo.
Andreas Mueller,

Risposte:


8

Potresti dare un'occhiata al documento "(Not) Bounding the True Error di John Langford & Rich Caruana (NIPS, 2001)

Gli stati astratti:

Presentiamo un nuovo approccio per limitare il tasso di errore reale di un classificatore a valore continuo basato sui limiti PAC-Bayes. Il metodo costruisce prima una distribuzione sui classificatori determinando la sensibilità di ciascun parametro nel modello al rumore. Il vero tasso di errore del classificatore stocastico riscontrato con l'analisi della sensibilità può quindi essere strettamente limitato usando un limite PAC-Bayes. In questo articolo dimostriamo il metodo su reti neurali artificiali con risultati di un miglioramento dell'ordine di grandezza 3 3 rispetto ai migliori limiti netti neurali deterministici.

Mostrano che è possibile applicare limiti di stile PAC-Bayes alle reti neurali stocastiche. Tuttavia, l'analisi si applica solo alle reti neurali feed-forward a 2 strati con una funzione di trasferimento sigmoidale. In questo caso il termine complessità dipende solo dal numero di nodi e dalla varianza dei pesi. Mostrano che per questa impostazione il limite prevede in modo efficace quando si verificherà un allenamento eccessivo. Sfortunatamente però non ha colpito nessuna delle tue proprietà "preferite"!


+1 che sembra bello - grazie, darò un'occhiata. Ma sono d'accordo che non si adatta a nessuna delle proprietà preferite e in prima persona non sembra misurare davvero la complessità della rete tanto quanto le sue prestazioni ... ma immagino che siano inseparabili.
Artem Kaznatcheev,

Quello che sta guardando è Errore di generalizzazione . I limiti creati di solito hanno un termine basato sull'errore di addestramento e un termine di penalità basato sulla complessità del modello. Tutto ciò che ti interessa è il termine complessità, ma sarà un ingrediente in quasi ogni limite. Questo video lo spiega meglio di me!
TCD

pensare che questa direzione non sia corretta. l'errore è molto diverso dalla complessità della rete. sebbene la teoria esistente possa offuscare i due. un semplice esempio è un overfitting in cui l'errore è basso ma la complessità è alta. inoltre, l'errore può comportarsi in modo controintuitivo rispetto alla complessità. come il pregiudizio. sembra che una piccola rete possa sottovalutare l'errore. eccetera

@vzn, ma l'errore di generalizzazione è l'errore sui dati futuri, ovvero se si ha un errore di addestramento basso e un'elevata complessità, il limite di errore sarà sciolto.
TD

3

Inoltre, potresti anche essere interessato al lavoro di dimensione sconvolgente svolto dal professor Peter Bartlett. Ecco un'introduzione all'analisi della complessità della rete neurale, in un documento IEEE del 1998: la complessità del campione della classificazione dei modelli con le reti neurali: la dimensione dei pesi è più importante della dimensione della rete (Bartlett 1998) [ http: //ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=661502]

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.