Possono esserci più soluzioni ottimali locali quando risolviamo una regressione lineare?


19

Ho letto questa affermazione su un vecchio esame vero / falso:

Siamo in grado di ottenere soluzioni ottimali locali multiple se risolviamo un problema di regressione lineare riducendo al minimo la somma degli errori al quadrato mediante la discesa del gradiente.

Soluzione: falsa

La mia domanda è: quale parte di questa domanda è sbagliata? Perché questa affermazione è falsa?

Risposte:


8

Questa domanda è interessante in quanto espone alcune connessioni tra la teoria dell'ottimizzazione, i metodi di ottimizzazione e i metodi statistici che ogni abile utente delle statistiche deve comprendere. Sebbene queste connessioni siano semplici e facilmente apprendibili, sono sottili e spesso trascurate.

Per riassumere alcune idee dai commenti ad altre risposte, vorrei sottolineare che ci sono almeno due modi in cui la "regressione lineare" può produrre soluzioni non uniche - non solo teoricamente, ma nella pratica.

Mancanza di identificabilità

Il primo è quando il modello non è identificabile. Questo crea una funzione obiettiva convessa ma non strettamente convessa che ha molteplici soluzioni.

Si consideri, ad esempio, che regredisce contro x ed y (con un'intercetta) per il ( x , y , z ) dei dati ( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 ) . Una soluzione è z = 1 + y . Un altro è zzXy(x,y,z)(1,-1,0),(2,-2,-1),(3,-3,-2)z^=1+y . Per vedere che ci devono essere più soluzioni, parametrizza il modello con tre parametri reali ( λ , μ , ν ) e un termine di errore ε nella formaz^=1-X(λ,μ,ν)ε

z=1+μ+(λ+ν1)x+(λν)y+ε.

La somma dei quadrati dei residui semplifica

SSR=3μ2+24μν+56ν2.

(Questo è un caso limitante di funzioni oggettive che sorgono in pratica, come quello discusso in Può l'hessiana empirica di uno stimatore M essere indefinita?) , Dove è possibile leggere analisi dettagliate e visualizzare grafici della funzione.)

Poiché i coefficienti dei quadrati ( e 56 ) sono positive e il determinante 3 × 56 - ( 24 / 2 ) 2 = 24 è positivo, questa è una forma quadratica positiva semidefinita in ( μ , ν , λ ) . È ridotto a icona quando μ = ν = 0 , ma λ può avere qualsiasi valore. Poiché la funzione obiettivo SSR non dipende da λ3563×56(24/2)2=24(μ,ν,λ)μ=ν=0λSSRλ, né il suo gradiente (o altri derivati). Pertanto, qualsiasi algoritmo di discesa gradiente - se non effettua alcuni cambi di direzione arbitrari - imposterà il valore della soluzione di λ su qualunque sia il valore iniziale.

Anche quando non viene utilizzata la discesa gradiente, la soluzione può variare. Ad Resempio, ci sono due modi semplici ed equivalenti per specificare questo modello: come z ~ x + yo z ~ y + x. Il primo rendimenti z = 1 - x ma il secondo dà z = 1 + y . z^=1xz^=1+y

> x <- 1:3
> y <- -x
> z <- y+1

> lm(z ~ x + y)
Coefficients:
(Intercept)            x            y  
          1           -1           NA  


> lm(z ~ y + x)
Coefficients:
(Intercept)            y            x  
          1            1           NA 

(Il NA valori devono essere interpretati come zeri, ma con un avvertimento sull'esistenza di più soluzioni. L'avviso è stato possibile a causa di analisi preliminari eseguite in modo Rindipendente dal suo metodo di soluzione. Un metodo di discesa con gradiente probabilmente non rileverebbe la possibilità di soluzioni multiple, anche se uno buono ti avvertirebbe di qualche incertezza sul fatto che fosse arrivato all'ottimo.)

Vincoli ai parametri

La convessità rigorosa garantisce un eccezionale globale unico, a condizione che il dominio dei parametri sia convesso. Le restrizioni sui parametri possono creare domini non convessi, portando a molteplici soluzioni globali.

Un esempio molto semplice è dato dal problema di stimare una "media" per i dati - 1 , 1 soggetto alla restrizione | μ | 1 / 2μ1,1|μ|1/2 . Ciò modella una situazione che è in qualche modo l'opposto di metodi di regolarizzazione come la regressione della cresta, il lazo o la rete elastica: insiste sul fatto che un parametro del modello non diventa troppo piccolo. (Varie domande sono apparse su questo sito chiedendo come risolvere i problemi di regressione con tali vincoli di parametri, dimostrando che si presentano in pratica.)

Esistono due soluzioni dei minimi quadrati in questo esempio, entrambe ugualmente valide. Si trovano minimizzando soggetto al vincolo | μ | 1 / 2 . Le due soluzioni sono μ = ± 1 / 2 . Più di una soluzione può derivare dal fatto che la restrizione dei parametri rende il dominio u ( - , - 1 / 2 ] (1μ)2+(1μ)2|μ|1/2μ=±1/2 non convesso:μ(,1/2][1/2,)

Grafico della somma dei quadrati contro $ \ mu $

La parabola è il grafico di una funzione (rigorosamente) convessa. La parte rossa spessa è la porzione ristretta al dominio di : ha due punti più bassi a μ = ± 1 / 2 , in cui la somma dei quadrati è 5 / 2 . Il resto della parabola (mostrato in punti) viene rimosso dal vincolo, eliminando così il suo minimo unico dalla considerazione.μμ=±1/25/2

Un metodo del gradiente di discesa, a meno che non erano disposti a prendere grandi salti, sarebbe probabilmente trovare la soluzione "unica" quando si inizia con un valore positivo e altrimenti sarebbe trovare la soluzione "unica" μ = - 1 / 2μ=1/2μ=1/2 , quando a partire da un valore negativo.

La stessa situazione può verificarsi con set di dati più grandi e dimensioni maggiori (ovvero con più parametri di regressione da adattare).


1
f(x,y)=(xy)2y=x

1
@Kjetil Grazie, è vero. Il trucco qui è mostrare come tali funzioni si presentano effettivamente nelle situazioni di regressione. La tua funzione è precisamente l'ispirazione per il primo esempio che ho offerto.
whuber


2

Temo che non ci sia una risposta binaria alla tua domanda. Se la regressione lineare è strettamente convessa (nessun vincolo sui coefficienti, nessun regolarizzatore ecc.), La discesa del gradiente avrà una soluzione unica e sarà globale ottimale. La discesa gradiente può e restituirà più soluzioni in caso di problemi non convessi.

Sebbene OP richieda una regressione lineare, l'esempio seguente mostra una minimizzazione minima quadrata, sebbene la non lineare (rispetto alla regressione lineare che OP richiede) possa avere più soluzioni e la discesa del gradiente può restituire una soluzione diversa.

Posso mostrarlo empiricamente usando un semplice esempio

  1. La somma degli errori quadrati può a volte non essere convessa, quindi avere più soluzioni
  2. Il metodo di discesa gradiente può fornire più soluzioni.

Considera l'esempio in cui stai cercando di minimizzare i minimi quadrati per il seguente problema:

inserisci qui la descrizione dell'immagine

wa

a12=9,a13=1/9,a23=9,a31=1/9

minimize (9w1w2)2+(19w1w3)2+(19w2w1)2+(9w2w3)2+(9w3w1)2+(19w3w2)2

Il problema sopra ha 3 diverse soluzioni e sono le seguenti:

w=(0.670,0.242,0.080),obj=165.2

w=(0.080,0.242,0.670),obj=165.2

w=(0.242,0.670,0.080),obj=165.2

Come mostrato sopra, il problema dei minimi quadrati può essere non convesso e può avere una soluzione multipla. Quindi il problema precedente può essere risolto utilizzando il metodo di discesa gradiente come Microsoft Excel Excel Solver e ogni volta che eseguiamo finiamo per ottenere una soluzione diversa. poiché la discesa del gradiente è un ottimizzatore locale e può rimanere bloccato nella soluzione locale, per ottenere una vera optima globale è necessario utilizzare diversi valori iniziali. Un problema come questo dipende dai valori iniziali.


2
Non credo che questo risponda alla domanda di OP perché OP chiede specificamente la regressione lineare , non l'ottimizzazione in generale.
Sycorax dice di ripristinare Monica

1
No non lo fa, ma solo il tentativo di chiarire i problemi con Optimize si aggiornerà con avvertimenti
previsioni

@ user777 hai ragione. questa è una domanda molto valida sul vecchio esame del MIT. Sono sicuro che la risposta è falsa grazie a forecastet.
Anjela Minoeu,

quindi sei sicuro che io abbia ragione?
Anjela Minoeu,

@AnjelaMinoeu, ho aggiornato la mia risposta.
meteorologo

1

Questo perché la funzione oggettiva che stai minimizzando è convessa, c'è solo un minimo / massimo. Pertanto, l'ottimale locale è anche un ottimale globale. La discesa gradiente troverà la soluzione alla fine.

Perché questa funzione oggettiva è convessa? Questa è la bellezza dell'uso dell'errore quadrato per minimizzare. La derivazione e l'uguaglianza a zero mostreranno bene perché questo è il caso. È un bel problema da manuale ed è coperto quasi ovunque.


4
La convessità non implica un minimo unico. In genere è necessario fare appello alla convessità rigorosa di una funzione oggettiva definita su un dominio convesso. Anche qui un problema sono i criteri di terminazione per la discesa del gradiente usando l'aritmetica in virgola mobile: anche quando la funzione obiettivo è strettamente convessa, è probabile che l'algoritmo trovi soluzioni diverse (a seconda dei valori iniziali) quando la funzione è quasi piatta quasi al minimo.
whuber

@whuber, per favore, potresti renderlo più semplice e chiaro per me?
Anjela Minoeu,

@whuber Penso che il primo problema sia l'uso della terminologia. In secondo luogo, la convessità implica un minimo unico. Non riesco a vedere una funzione concava differenziabile che non ha un minimo / massimo singolo. Vedi la prova qui: planetmath.org/localminimumofconvexfunctionisnecessarilyglobal
Vladislavs Dovgalecs

3
Non mi sono preso la briga di leggere la prova, perché deve essere invocata la convessità rigorosa per essere corretta. Un problema dei minimi quadrati con coefficienti non identificabili sarà convesso ma non strettamente convesso e quindi avrà (infinitamente) molte soluzioni. Ma questo non è completamente rilevante per la discesa gradiente, che ha i suoi problemi - alcuni dei quali sono chiaramente discussi nell'articolo di Wikipedia . Quindi, sia in senso teorico che pratico, la risposta corretta alla domanda è vera : la discesa gradiente può - e darà - soluzioni multiple.
whuber

@whuber Sì, la prova fa appello alla convessità rigorosa.
Vladislavs Dovgalecs,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.