La capacità è un termine informale. È molto vicino (se non un sinonimo) per la complessità del modello. È un modo per parlare di quanto un modello o una relazione possano essere complicati. Ci si potrebbe aspettare che un modello con capacità superiore sia in grado di modellare più relazioni tra più variabili rispetto a un modello con capacità inferiore.
Tracciando un'analogia dalla definizione colloquiale di capacità, puoi considerarla come la capacità di un modello di apprendere da un numero sempre maggiore di dati, fino a quando non è stato completamente "riempito" di informazioni.
Esistono vari modi per formalizzare la capacità e calcolare un valore numerico per essa, ma soprattutto queste sono solo alcune possibili "funzionalizzazioni" della capacità (più o meno allo stesso modo che, se qualcuno inventasse una formula per calcolare la bellezza, ti accorgeresti che la formula è solo una fallibile interpretazione della bellezza).
La dimensione VC è una formulazione matematicamente rigorosa della capacità. Tuttavia, può esserci un ampio divario tra la dimensione VC di un modello e l'effettiva capacità del modello di adattarsi ai dati. Anche se la conoscenza della VC dim dà un limite all'errore di generalizzazione del modello, questo di solito è troppo lento per essere utile con le reti neurali.
Un'altra linea di ricerca che vede qui è quella di utilizzare la norma spettrale delle matrici di peso in una rete neurale come misura della capacità. Un modo per comprenderlo è che la norma spettrale limita la costante di Lipschitz della rete.
Il modo più comune per stimare la capacità di un modello è contare il numero di parametri. Più parametri, maggiore è la capacità in generale. Naturalmente, spesso una rete più piccola impara a modellare dati più complessi meglio di una rete più grande, quindi questa misura è tutt'altro che perfetta.
Un altro modo per misurare la capacità potrebbe essere quello di addestrare il tuo modello con etichette casuali ( Neyshabur et. Al ) - se la tua rete è in grado di ricordare correttamente un gruppo di input con etichette casuali, mostra essenzialmente che il modello ha la capacità di ricordare tutti quelli punti dati individualmente. Più coppie input / output possono essere "apprese", maggiore è la capacità.
Adattandolo a un codificatore automatico, è possibile generare input casuali, addestrare la rete per ricostruirli e quindi contare quanti input casuali è possibile ricostruire correttamente con errore inferiore a .ε