Nella maggior parte dei casi, più dati sono generalmente migliori . Il sovradimensionamento sta essenzialmente imparando correlazioni spurie che si verificano nei dati di allenamento, ma non nel mondo reale. Ad esempio, se considerassi solo i miei colleghi, potresti imparare ad associare "di nome Matt" a "ha la barba". È valido al 100% ( n = 4 , anche!), Ma ovviamente non è vero in generale. Aumentare le dimensioni del set di dati (ad es. Per l'intero edificio o città) dovrebbe ridurre queste correlazioni spurie e migliorare le prestazioni del tuo discente.
Detto questo, una situazione in cui più dati non aiuta --- e può persino ferire --- è se i tuoi dati di allenamento aggiuntivi sono rumorosi o non corrispondono a ciò che stai cercando di prevedere. Una volta ho fatto un esperimento in cui ho inserito diversi modelli linguistici [*] in un sistema di prenotazione di ristoranti ad attivazione vocale. Ho variato la quantità di dati di allenamento e la sua rilevanza: ad un estremo, avevo una piccola raccolta accuratamente curata di tavoli di prenotazione di persone, una corrispondenza perfetta per la mia applicazione. Dall'altro, avevo un modello stimato da una vasta collezione di letteratura classica, un modello linguistico più accurato, ma una corrispondenza molto peggiore con l'applicazione. Con mia sorpresa, il modello piccolo ma rilevante ha ampiamente sovraperformato il modello grande ma meno rilevante.
Una situazione sorprendente, chiamata
doppia discesa , si verifica anche quando la dimensione del set di allenamento è vicina al numero di parametri del modello. In questi casi, il rischio di prova prima diminuisce la dimensione dell'insieme di addestramento aumenta, transitoriamente
aumenta quando viene aggiunto un bit di dati più formazione, e infine inizia a diminuire nuovamente come training set continua a crescere. Questo fenomeno è stato riportato 25 anni nella letteratura sulle reti neurali (vedi Opper, 1995), ma si verifica anche nelle reti moderne (
Advani e Saxe, 2017 ). È interessante notare che ciò accade anche per una regressione lineare, sebbene adatta a SGD (
Nakkiran, 2019). Questo fenomeno non è ancora del tutto compreso ed è in gran parte di interesse teorico: certamente non lo userei come motivo per non raccogliere più dati (anche se potrei giocherellare con le dimensioni del set di allenamento se n == p e le prestazioni fossero inaspettatamente cattive ).
[*] Un modello di linguaggio è solo la probabilità di vedere una determinata sequenza di parole, ad esempio
P( wn= 'veloce', wn + 1= 'marrone', wn + 2= 'volpe' ) . Sono fondamentali per la costruzione di riconoscitori di parole / personaggi decenti a metà strada.