Risposte:
In realtà no.
La domanda in quanto tale è un po 'generale e mescola due cose che non sono realmente correlate. Sovradimensionamento di solito è inteso come la qualità opposta ad essere una descrizione generalizzata; nel senso che una rete sovradimensionata (o sovrallenata) avrà meno potere di generalizzazione. Questa qualità è determinata principalmente dall'architettura di rete, dalla formazione e dalla procedura di convalida. I dati e le sue proprietà entrano solo come "qualcosa su cui si svolge la procedura di addestramento". Questa è più o meno "conoscenza del libro di testo"; potresti provare "An Introduction to Statistical Learning" di James, Witten, Hastie e Tibshirani. O "Pattern Recognition" di Bishop (il mio libro preferito in assoluto sull'argomento generale). O "Pattern Recognition and Machine Learning", anche di Bishop.
Per la correlazione stessa: considera lo spazio di input con una certa dimensione. Indipendentemente dalla trasformazione che usi, la dimensionalità rimarrà la stessa - lo dice l'algebra lineare. In un caso, la base data sarà completamente non correlata - questo è ciò che ottieni quando decarichi le variabili o semplicemente applichi il PAT (Trasformazione dell'asse del principio.) Prendi qualsiasi libro di algebra lineare per questo.
Dal momento che una rete neurale con un'architettura appropriata può modellare qualsiasi funzione (!), Puoi tranquillamente supporre che potrebbe anche prima modellare il PAT e quindi fare tutto ciò che dovrebbe anche fare, ad esempio classificazione, regressione, ecc.
Potresti anche considerare la correlazione una caratteristica, che dovrebbe far parte della descrizione della rete neurale, poiché è una proprietà dei dati. La natura della correlazione non è molto importante, a meno che non sia qualcosa che non dovrebbe far parte dei dati. Questo in realtà sarebbe un argomento diverso: dovresti modellare o quantificare qualcosa come il rumore nell'input e tenerne conto.
Quindi, in sintesi n. I dati correlati significano che dovresti lavorare di più per rendere la gestione dei dati tecnicamente più semplice ed efficace. Può verificarsi un overfitting, ma non si verificherà perché sono presenti dati correlati.
il cherubino ha ragione riguardo alla sua affermazione relativa all'eccessivo adattamento. Tuttavia, penso che la discussione su caratteristiche altamente correlate e ANN semplifichi eccessivamente la questione.
Sì, è vero in teoria che una ANN può approssimare qualsiasi funzione. Tuttavia, in pratica non è una buona idea includere numerose funzionalità altamente correlate. In questo modo si introdurranno molti licenziamenti all'interno del modello. L'inclusione di tali esuberi introdurrà complessità inutili e, in tal modo, si potrebbe aumentare il numero di minimi locali. Dato che la funzione di perdita di una RNA non è intrinsecamente regolare, l'introduzione di rugosità non necessarie non è una grande idea.