I dati di input correlati portano a un overfitting con le reti neurali?


13

A mio avviso, i dati di input correlati devono portare a un overfitting nelle reti neurali perché la rete apprende la correlazione, ad esempio il rumore nei dati.

È corretto?

Risposte:


11

In realtà no.

La domanda in quanto tale è un po 'generale e mescola due cose che non sono realmente correlate. Sovradimensionamento di solito è inteso come la qualità opposta ad essere una descrizione generalizzata; nel senso che una rete sovradimensionata (o sovrallenata) avrà meno potere di generalizzazione. Questa qualità è determinata principalmente dall'architettura di rete, dalla formazione e dalla procedura di convalida. I dati e le sue proprietà entrano solo come "qualcosa su cui si svolge la procedura di addestramento". Questa è più o meno "conoscenza del libro di testo"; potresti provare "An Introduction to Statistical Learning" di James, Witten, Hastie e Tibshirani. O "Pattern Recognition" di Bishop (il mio libro preferito in assoluto sull'argomento generale). O "Pattern Recognition and Machine Learning", anche di Bishop.

Per la correlazione stessa: considera lo spazio di input con una certa dimensione. Indipendentemente dalla trasformazione che usi, la dimensionalità rimarrà la stessa - lo dice l'algebra lineare. In un caso, la base data sarà completamente non correlata - questo è ciò che ottieni quando decarichi le variabili o semplicemente applichi il PAT (Trasformazione dell'asse del principio.) Prendi qualsiasi libro di algebra lineare per questo.

Dal momento che una rete neurale con un'architettura appropriata può modellare qualsiasi funzione (!), Puoi tranquillamente supporre che potrebbe anche prima modellare il PAT e quindi fare tutto ciò che dovrebbe anche fare, ad esempio classificazione, regressione, ecc.

Potresti anche considerare la correlazione una caratteristica, che dovrebbe far parte della descrizione della rete neurale, poiché è una proprietà dei dati. La natura della correlazione non è molto importante, a meno che non sia qualcosa che non dovrebbe far parte dei dati. Questo in realtà sarebbe un argomento diverso: dovresti modellare o quantificare qualcosa come il rumore nell'input e tenerne conto.

Quindi, in sintesi n. I dati correlati significano che dovresti lavorare di più per rendere la gestione dei dati tecnicamente più semplice ed efficace. Può verificarsi un overfitting, ma non si verificherà perché sono presenti dati correlati.


Scusa, ma non ho ancora capito perché. Anche il mio dubbio è un po 'generico. Stavo cercando una risposta a "I dati di input correlati possono essere dannosi per le reti neurali?". Qui affermi, "puoi tranquillamente supporre che potrebbe anche prima modellare PAT". Ma come stai facendo questo presupposto. E poi la mia domanda di follow-up è cosa succede se l'architettura neurale non riesce a modellare PAT?
esame

@bytestorm: la tua prima domanda è diversa dall'originale. Gli input correlati potrebbero limitare le prestazioni della RNA (così come per altri metodi). Ma non è una proprietà intrinseca di una ANN. Per quanto riguarda la seconda domanda, è meno un'ipotesi, ma solo una spiegazione esemplare del perché le ANN potrebbero modellare PAT. In pratica non lo farei in questo modo, né consiglierei di farlo.
cherubino

6

il cherubino ha ragione riguardo alla sua affermazione relativa all'eccessivo adattamento. Tuttavia, penso che la discussione su caratteristiche altamente correlate e ANN semplifichi eccessivamente la questione.

Sì, è vero in teoria che una ANN può approssimare qualsiasi funzione. Tuttavia, in pratica non è una buona idea includere numerose funzionalità altamente correlate. In questo modo si introdurranno molti licenziamenti all'interno del modello. L'inclusione di tali esuberi introdurrà complessità inutili e, in tal modo, si potrebbe aumentare il numero di minimi locali. Dato che la funzione di perdita di una RNA non è intrinsecamente regolare, l'introduzione di rugosità non necessarie non è una grande idea.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.