Che impatto ha l'aumento dei dati di allenamento sull'accuratezza complessiva del sistema?


16

Qualcuno può riassumere per me con possibili esempi, in quali situazioni aumentando i dati di allenamento migliora il sistema complessivo? Quando rileviamo che l'aggiunta di più dati di allenamento potrebbe eventualmente contenere dati eccessivi e non fornire una buona precisione sui dati del test?

Questa è una domanda molto non specifica, ma se vuoi rispondere in modo specifico a una situazione particolare, ti preghiamo di farlo.


mi chiedo solo: si tratta se una divisione 50-50 in treno / prova è meglio di 75-25?
probabilityislogic

Risposte:


22

Nella maggior parte dei casi, più dati sono generalmente migliori . Il sovradimensionamento sta essenzialmente imparando correlazioni spurie che si verificano nei dati di allenamento, ma non nel mondo reale. Ad esempio, se considerassi solo i miei colleghi, potresti imparare ad associare "di nome Matt" a "ha la barba". È valido al 100% ( n=4 , anche!), Ma ovviamente non è vero in generale. Aumentare le dimensioni del set di dati (ad es. Per l'intero edificio o città) dovrebbe ridurre queste correlazioni spurie e migliorare le prestazioni del tuo discente.

Detto questo, una situazione in cui più dati non aiuta --- e può persino ferire --- è se i tuoi dati di allenamento aggiuntivi sono rumorosi o non corrispondono a ciò che stai cercando di prevedere. Una volta ho fatto un esperimento in cui ho inserito diversi modelli linguistici [*] in un sistema di prenotazione di ristoranti ad attivazione vocale. Ho variato la quantità di dati di allenamento e la sua rilevanza: ad un estremo, avevo una piccola raccolta accuratamente curata di tavoli di prenotazione di persone, una corrispondenza perfetta per la mia applicazione. Dall'altro, avevo un modello stimato da una vasta collezione di letteratura classica, un modello linguistico più accurato, ma una corrispondenza molto peggiore con l'applicazione. Con mia sorpresa, il modello piccolo ma rilevante ha ampiamente sovraperformato il modello grande ma meno rilevante.


Una situazione sorprendente, chiamata doppia discesa , si verifica anche quando la dimensione del set di allenamento è vicina al numero di parametri del modello. In questi casi, il rischio di prova prima diminuisce la dimensione dell'insieme di addestramento aumenta, transitoriamente aumenta quando viene aggiunto un bit di dati più formazione, e infine inizia a diminuire nuovamente come training set continua a crescere. Questo fenomeno è stato riportato 25 anni nella letteratura sulle reti neurali (vedi Opper, 1995), ma si verifica anche nelle reti moderne ( Advani e Saxe, 2017 ). È interessante notare che ciò accade anche per una regressione lineare, sebbene adatta a SGD ( Nakkiran, 2019). Questo fenomeno non è ancora del tutto compreso ed è in gran parte di interesse teorico: certamente non lo userei come motivo per non raccogliere più dati (anche se potrei giocherellare con le dimensioni del set di allenamento se n == p e le prestazioni fossero inaspettatamente cattive ).


[*] Un modello di linguaggio è solo la probabilità di vedere una determinata sequenza di parole, ad esempio P(wn='Presto', wn+1='Marrone', wn+2='Volpe') . Sono fondamentali per la costruzione di riconoscitori di parole / personaggi decenti a metà strada.



12

Una nota: aggiungendo più dati (righe o esempi, non colonne o funzionalità) le possibilità di eccesso di adattamento diminuiscono anziché aumentare.

Il riepilogo dei due paragrafi è il seguente:

  • Aggiungendo altri esempi, si aggiunge la diversità. Diminuisce l'errore di generalizzazione perché il tuo modello diventa più generale in virtù della formazione su più esempi.
  • L'aggiunta di più funzioni di input o colonne (a un numero fisso di esempi) può aumentare il sovradimensionamento poiché più funzioni possono essere irrilevanti o ridondanti e vi sono maggiori opportunità di complicare il modello per adattarsi agli esempi a portata di mano.

Esistono alcuni criteri semplicistici per confrontare la qualità dei modelli. Dai un'occhiata ad esempio ad AIC o BIC .

Entrambi mostrano che l'aggiunta di più dati migliora sempre i modelli, mentre l'aggiunta della complessità dei parametri oltre l'ottimale, riduce la qualità del modello.


1

L'aumento dei dati di allenamento aggiunge sempre informazioni e dovrebbe migliorare l'adattamento. La difficoltà si presenta se si valuta le prestazioni del classificatore solo sui dati di allenamento utilizzati per l'adattamento. Questo produce valutazioni ottimisticamente distorte ed è il motivo per cui vengono invece utilizzate la validazione incrociata o il bootstrap esclusivi.


1

Idealmente, una volta che avrai più esempi di addestramento, avrai un errore di test più basso (varianza della diminuzione del modello, il che significa che siamo meno sovradimensionati), ma teoricamente, più dati non significano sempre che avrai un modello più accurato rispetto ai modelli con distorsioni elevate non trarrà beneficio da più esempi di formazione .

Vedi qui: Nell'apprendimento automatico, cosa c'è di meglio: più dati o algoritmi migliori

Varianza elevata : un modello che rappresenta la formazione impostata bene, ma a rischio di adattamento eccessivo a dati di formazione rumorosi o non rappresentativi.

Distorsioni elevate : un modello più semplice che non tende ad adattarsi eccessivamente, ma potrebbe non essere adeguato ai dati di allenamento, non riuscendo a catturare importanti regolarità.


-1

L'analisi dello spettro aiuterà nell'analisi della diversità del campione, infatti, le informazioni false verranno apprese nella modellizzazione se non verranno aggiunti "campioni reali", che di solito chiamano sovra-adattamento. Di solito, se le informazioni fornite per campione sono inferiori, si consiglia di fornire il campione più reale per garantire che le informazioni utili possano essere utilizzate nel test. In bocca al lupo!


3
È difficile dare un senso a questa risposta. Forse è stato tradotto automaticamente da un'altra lingua? Ci sarebbe un modo per rivederlo e modificarlo in modo che trasmetta le idee che vuoi condividere con noi?
whuber

Non capisco quale sia la tua risposta.
user162580,

3
Sembra che abbiamo un problema di lingua: le parole che hai pubblicato non hanno senso in inglese. Puoi cambiarli in modo che abbiano un senso?
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.