Regressione lineare multivariata vs rete neurale?


54

Sembra che sia possibile ottenere risultati simili a una rete neurale con una regressione lineare multivariata in alcuni casi e la regressione lineare multivariata è super veloce e facile.

In quali circostanze le reti neurali possono dare risultati migliori della regressione lineare multivariata?

Risposte:


28

Le reti neurali possono in linea di principio modellare automaticamente le non linearità (vedi il teorema di approssimazione universale ), che dovresti modellare esplicitamente usando trasformazioni (spline ecc.) In regressione lineare.

L'avvertenza: la tentazione di sovrautilizzare può essere (anche) più forte nelle reti neurali che nella regressione, poiché l'aggiunta di strati o neuroni nascosti sembra innocua. Quindi fai molta attenzione a guardare le prestazioni di predizione fuori campione.


Ok. Immagino che una domanda nella mia mente sia: in che misura posso replicare un comportamento simile aumentando i miei dati di input con termini quadratici e cubici?
Hugh Perkins,

3
In realtà, probabilmente puoi approssimare le NN con regressori opportunamente trasformati in una regressione lineare quanto più ti piace (e viceversa). Le migliori pratiche rispetto alla quadratica e ai cubici sono spline, tuttavia - raccomando vivamente il libro di testo di Harrell "Regressione Modeling Strategies".
S. Kolassa - Ripristina Monica il

Ok. È ragionevole supporre che il tempo di allenamento sarà più veloce per la regressione lineare sui dati trasformati, oppure i tempi di allenamento saranno approssimativamente simili? La soluzione per la regressione lineare sui dati trasformati avrà un unico massimo globale o avrà un minimo locale minimo rispetto alle reti neurali? (Modifica: suppongo non importa come gli input vengono trasformati, la soluzione alla regressione lineare è solo la pseudo-inversa della matrice del design moltiplicata per qualcosa-qualcosa e quindi è sempre unica o singolare?)
Hugh Perkins,

2
I tempi di formazione dipenderanno ovviamente dalle dimensioni dell'input (poche / molte osservazioni, poche / molte previsioni). La regressione lineare comporta una singola (pseudo-) inversa (sì, unicità / singolarità anche con le posizioni dei regressori trasformati), mentre le NN sono in genere addestrate in modo iterativo, ma le iterazioni non implicano inversioni di matrice, quindi ogni iterazione è più veloce - in genere interrompere l'addestramento basato su alcuni criteri progettati per impedire un eccesso di adattamento.
S. Kolassa - Ripristina Monica il

1
@Yamcha: la mia comprensione del teorema di approssimazione universale è che la dimensionalità in linea di principio non ha importanza. (Certo, questo è un risultato asintotico. Mi aspetto che avresti bisogno di quantità orribili di dati perché l'NN sia migliore di una regressione polinomiale perfezionata. Inizia a sembrare Deep Learning ...)
S. Kolassa - Ripristina Monica il

16

Lei menziona la regressione lineare. Questo è legato alla regressione logistica , che ha un simile algoritmo di ottimizzazione rapida. Se si hanno limiti sui valori target, ad esempio con un problema di classificazione, è possibile visualizzare la regressione logistica come una generalizzazione della regressione lineare.

0

x311x3

Una strategia intermedia è quella di scegliere un gran numero di nodi casuali, simile a quello che succede quando si inizializza una rete neurale e fissare i pesi da input a nascosto. L'ottimizzazione sui pesi * in uscita rimane lineare. Questo si chiama macchina per l'apprendimento estremo . Funziona almeno così come la regressione logistica originale.


1
"Una strategia intermedia è quella di scegliere un gran numero di nodi casuali, simile a quello che succede quando si inizializza una rete neurale e fissare i pesi input-to-hidden. L'ottimizzazione sui pesi * -out-output rimane lineare." => vuoi dire che ci sarà un singolo massimo globale per la soluzione in questo caso?
Hugh Perkins,

1
Per una scelta casuale generica di nodi nascosti casuali, sì.
Douglas Zare,

2
ottimo post - contesto per [LR, LogR, NN, ELM]. Il tuo commento sul fatto che LogR sia un NN skip-layer sembra ovvio dopo essere stato sottolineato, ma è una bella intuizione.
javadba,

3

La regressione lineare ha lo scopo di separare i dati che sono linearmente separabili, sì, è possibile utilizzare ulteriori polinomi di terzo grado ma in questo modo hai indicato di nuovo alcune ipotesi sui dati che hai da quando hai definito la struttura della funzione obiettivo. Nella rete neurale. generalmente hai un livello di input che crea i separatori lineari per i dati che hai e un layer nascosto AND le regioni che delimitano alcune classi e l'ultimo layer OR tutte queste regioni. In questo modo tutti i dati che hai sono in grado di essere classificati in modo non lineare, inoltre tutto questo processo procede con pesi appresi internamente e funzioni definite. Inoltre, l'aumento del numero di feature per la regressione lineare si contrappone alla "Maledizione della dimensionalità". Inoltre, alcune applicazioni richiedono risultati più probabilistici rispetto ai numeri costanti come output.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.