Risoluzione dei parametri di regressione in discesa a forma chiusa vs gradiente


71

Nel corso di machine learning di Andrew Ng , introduce la regressione lineare e la regressione logistica e mostra come adattare i parametri del modello usando la discesa del gradiente e il metodo di Newton.

So che la discesa gradiente può essere utile in alcune applicazioni dell'apprendimento automatico (ad esempio, backpropogation), ma nel caso più generale c'è qualche ragione per cui non si risolveranno i parametri in forma chiusa, cioè prendendo la derivata di la funzione di costo e risoluzione tramite calcolo?

Qual è il vantaggio di utilizzare un algoritmo iterativo come la discesa gradiente rispetto a una soluzione a forma chiusa in generale, quando disponibile?


9
Non penso che ci sia una soluzione in forma chiusa per l'MLE dei parametri di regressione nella maggior parte dei glms (ad es. Regressione logistica). La regressione lineare con errori normali è un'eccezione.
Macro,

5
Interessante ... Questo significa che pacchetti di statistiche differenti potrebbero dare risposte diverse per la regressione logistica a seconda, per esempio, impostazioni iniziali dei parametri, numero di iterazioni, minimi locali multipli, ecc .-- oppure esiste una procedura convenzionale che tutti i pacchetti di buone statistiche Seguire? (Anche se sono sicuro che le differenze, se esistono, nella maggior parte dei casi sono minime)
Jeff,

3
(+1) Alla tua domanda e al tuo commento, Jeff. I GLM che usano il collegamento canonico (come la regressione logistica) beneficiano delle belle proprietà della convessità. Può esserci più di un algoritmo per risolvere tali problemi, ma il risultato di base è che (modulo alcuni dettagli abbastanza minori), algoritmi numerici ben implementati daranno risultati coerenti tra loro.
cardinale il

2
Personalmente non mi piace il corso di Andrew Ng perché ha portato le persone a credere che la regressione lineare sia "apprendimento automatico".
Digio,

Risposte:


85

A meno che la soluzione in formato chiuso non sia estremamente costosa da calcolare, in genere è la strada da percorrere quando è disponibile. Però,

  1. Per la maggior parte dei problemi di regressione non lineare non esiste una soluzione in forma chiusa.

  2. Anche nella regressione lineare (uno dei pochi casi in cui è disponibile una soluzione in forma chiusa), potrebbe non essere pratico utilizzare la formula. L'esempio seguente mostra un modo in cui ciò può accadere.

y=XβX

β^=argminXβy2

è dato da

β^=(XTX)1XTy

Ora, immagina che sia una matrice molto grande ma sparsa. ad esempio potrebbe avere 100.000 colonne e 1.000.000 di righe, ma solo lo 0,001% delle voci in è diverso da zero. Esistono strutture dati specializzate per la memorizzazione solo delle voci diverse da zero di tali matrici sparse. XXX

Immagina anche di essere sfortunati e è una matrice abbastanza densa con una percentuale molto più alta di voci diverse da zero. Memorizzare una densa matrice di 100.000 per 100.000 elementi richiederebbe quindi numeri in virgola mobile (a 8 byte per numero, questo arriva a 80 gigabyte). Non sarebbe pratico memorizzare su qualsiasi cosa ma un supercomputer. Inoltre, anche l'inverso di questa matrice (o più comunemente un fattore di Cholesky) tende ad avere voci per lo più diverse da zero. XTXXTX1×1010

Tuttavia, ci sono metodi iterativi per risolvere il problema dei minimi quadrati che non richiedono più spazio di archiviazione di , , e e mai formare esplicitamente il prodotto matrice di . Xyβ^XTX

In questa situazione, l'utilizzo di un metodo iterativo è molto più efficiente dal punto di vista computazionale rispetto all'utilizzo della soluzione a forma chiusa per il problema dei minimi quadrati.

Questo esempio potrebbe sembrare assurdamente ampio. Tuttavia, i problemi dei minimi quadrati sparsi di queste dimensioni vengono sistematicamente risolti con metodi iterativi su computer desktop nella ricerca sulla tomografia sismica.


4
Devo dire che ci sono anche problemi di precisione numerica che possono rendere sconsigliabile l'uso della soluzione in forma chiusa al problema dei minimi quadrati. Tuttavia, ciò richiederebbe una discussione sul mal condizionamento che sembra essere al di là dell'attuale comprensione del poster originale.
Brian Borchers,

17
per favore non esitate a pubblicare una risposta perché non pensate che la capirò. prima di tutto, non mi farà male fornire ulteriori informazioni, anche se mi occorrono delle ricerche per afferrarle. secondo: il modello di stackexchange presuppone che questa domanda e risposta andranno a beneficio degli altri in futuro. in altre parole, non sminuire la tua risposta in base a quanto pensi che l'OP sappia, o farai un disservizio agli altri.
Jeff,

2
@Brian, la mia sensazione è che il tuo commento sia più vicino al nocciolo della questione ed è un po 'in contrasto con la prima frase nella risposta. Non credo che alcun software dei minimi quadrati (nella sua mente giusta) impieghi la soluzione a forma chiusa. :)
cardinale il

4
Cardinale - in pratica, è meglio usare la fattorizzazione QR o SVD per risolvere i problemi dei minimi quadrati su piccola scala. Direi che una soluzione che utilizza una di queste fattorizzazioni ortogonali è anche una "soluzione a forma chiusa" rispetto all'utilizzo di una tecnica iterativa come LSQR. Non ho approfondito questo aspetto nella mia risposta perché attira inutilmente l'attenzione dal mio punto principale.
Brian Borchers,

2
Ill condizionata? Soluzione per moduli chiusi da manuale? Adoro l'odore dei numeri delle condizioni al quadrato al mattino. Hai un numero di condizione elevato? Perché non quadrarlo e renderlo ancora più grande? Hai un numero di condizione non così grande? Perché non quadrarlo e renderlo grande.
Mark L. Stone,

2

Sono stati pubblicati diversi post sull'apprendimento automatico (ML) e sulla regressione. ML non è necessario per risolvere i minimi quadrati ordinari (OLS), poiché comporta un'operazione di sandwich a matrice in un solo passaggio per risolvere un sistema di equazioni lineari - ovvero, . Il fatto che tutto sia lineare significa che è necessaria una sola operazione per risolvere i coefficienti. La regressione logistica si basa sulla massimizzazione della funzione di verosimiglianza , che può essere risolta utilizzando Newton-Raphson o altri metodi di risalita con gradiente ML, metaeuristica (arrampicata in collina, algoritmi genetici, intelligenza di sciame, ottimizzazione delle colonie di formiche, ecc.) . β=(XTX)1XTyL=ipi

Per quanto riguarda la parsimonia, l'uso di ML per OLS sarebbe dispendioso perché l'apprendimento iterativo è inefficiente per risolvere OLS.

Ora, torniamo alla tua vera domanda sugli approcci derivati ​​contro ML per risolvere problemi basati sul gradiente. In particolare, per la regressione logistica, viene comunemente utilizzato l'approccio della discesa gradiente (basata su derivati) di Newton-Raphson. Newton-Raphson richiede di conoscere la funzione oggettiva e i suoi derivati ​​parziali su ogni parametro (continuo nel limite e differenziabile). La ML viene usata principalmente quando la funzione obiettivo è troppo complessa ("naramente") e non si conoscono i derivati. Ad esempio, una rete neurale artificiale (ANN) può essere utilizzata per risolvere un problema di approssimazione della funzione o un problema di classificazione supervisionata quando la funzione non è nota. In questo caso, l'ANN è la funzione.

Non commettere l'errore di utilizzare i metodi ML per risolvere un problema di regressione logistica, solo perché puoi. Per la logistica, Newton-Raphson è estremamente veloce ed è la tecnica appropriata per risolvere il problema. ML è comunemente usato quando non sai quale sia la funzione. (a proposito, le ANN provengono dal campo dell'intelligenza computazionale e non da ML).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.