Definizione e convergenza dei minimi quadrati ripetuti iterativamente

Ho usato i minimi quadrati reiterati (IRLS) per ridurre al minimo le funzioni del seguente modulo,

$J(m) = \sum_{i=1}^{N} \rho \left(\left| x_i - m \right|\right)$

dove è il numero di istanze di , è la stima attendibile che desidero e è una funzione di penalità robusta adatta. Diciamo che è convesso (anche se non necessariamente rigorosamente) e differenziabile per ora. Un buon esempio di tale è la funzione di perdita di Huber . $N$ $x_i \in \mathbb{R}$ $m \in \mathbb{R}$ $\rho$ $\rho$

Quello che ho fatto è differenziare rispetto a (e manipolarlo) per ottenere, $J(m)$ $m$

$\frac{dJ}{dm}= \sum_{i=1}^{N} \frac{\rho'\left( \left|x_i-m\right|\right) }{\left|x_i-m\right|} \left( x_i-m \right)$

e risolvendo iterativamente impostandolo su 0 e fissando i pesi sull'iterazione su (nota che la singolarità percepita è davvero una singolarità rimovibile in tutta 's potrei cura di). Quindi ottengo, $k$ $w_i(k) = \frac{\rho'\left( \left|x_i-m{(k)}\right|\right) }{\left|x_i-m{(k)}\right|}$ $x_i=m{(k)}$ $\rho$

$\sum_{i=1}^{N} w_i(k) \left( x_i-m{(k+1)} \right)=0$

e risolvo per ottenere, $m(k+1) = \frac{\sum_{i=1}^{N} w_i(k) x_i}{ \sum_{i=1}^{N} w_i(k)}$ .

Ripeto questo algoritmo a virgola fissa fino a "convergenza". Noterò che se arrivi a un punto fisso, sei ottimale, poiché la tua derivata è 0 ed è una funzione convessa.

Ho due domande su questa procedura:

È questo l'algoritmo IRLS standard? Dopo aver letto diversi articoli sull'argomento (ed erano molto sparsi e vaghi su cosa sia IRLS) questa è la definizione più coerente dell'algoritmo che riesco a trovare. Posso pubblicare i documenti se la gente vuole, ma in realtà non volevo influenzare nessuno qui. Naturalmente, puoi generalizzare questa tecnica di base a molti altri tipi di problemi che coinvolgono il vettore $x_i$ e argomenti diversi da $\left|x_i-m{(k)}\right|$ , fornendo l'argomento è una norma di una funzione affine dei tuoi parametri. Qualsiasi aiuto o intuizione sarebbe fantastico su questo.
La convergenza sembra funzionare nella pratica, ma ho alcune preoccupazioni al riguardo. Devo ancora vederne una prova. Dopo alcune semplici simulazioni di Matlab vedo che un'iterazione di questo non è una mappatura della contrazione (ho generato due istanze casuali di calcolo e ha notato che occasionalmente è maggiore di 1). Anche la mappatura definita da più iterazioni consecutive non è strettamente una mappatura della contrazione, ma la probabilità che la costante di Lipschitz sia superiore a 1 diventa molto bassa. Quindi esiste una nozione di mappatura della contrazione in probabilità ? Quali sono i macchinari che utilizzerei per dimostrare che questo converge? Converge persino? $m$ $\frac{\left|m_1(k+1) - m_2(k+1)\right|}{\left|m_1(k)-m_2(k)\right|}$

Qualsiasi consiglio è utile.

Modifica: mi piace il documento su IRLS per il recupero sparso / rilevamento compressivo di Daubechies et al. 2008 "Minimizzazione iterativamente ridimensionata dei minimi quadrati per il recupero rado" su arXiv. Ma sembra concentrarsi principalmente sui pesi per problemi non convessi. Il mio caso è notevolmente più semplice.

— Chris A.
fonte

Guardando la pagina wiki su IRWLS, faccio fatica a fare la differenza tra la procedura che descrivi e IRWLS (usano semplicemente come loro particolare funzione ). Puoi spiegare in che modo ritieni che l'algoritmo che proponi sia diverso dall'IRWLS?

| y_{i} - x x_{i}^{'} β β |^{2}

$|y_i-\pmb x_i'\pmb\beta|^2$

ρ

$\rho$

— user603

Non ho mai affermato che fosse diverso, e se lo avessi insinuato, non intendevo farlo.

— Chris A.

Per quanto riguarda la tua prima domanda, si dovrebbe definire "standard" o riconoscere che un "modello canonico" è stato gradualmente stabilito. Come indicato da un commento, sembra almeno che il modo in cui usi IRWLS sia piuttosto standard.

Per quanto riguarda la tua seconda domanda, "la mappatura della contrazione in probabilità" potrebbe essere collegata (comunque informalmente) alla convergenza di "algoritmi stocastici ricorsivi". Da quello che ho letto, c'è un'enorme letteratura sull'argomento principalmente in Ingegneria. In Economia ne usiamo un po ', in particolare le opere seminali di Lennart Ljung - il primo articolo era Ljung (1977) - che mostrava che la convergenza (o meno) di un algoritmo stocastico ricorsivo può essere determinata dalla stabilità (o non) di un'equazione differenziale ordinaria correlata.

(ciò che segue è stato rielaborato dopo una fruttuosa discussione con l'OP nei commenti)

Convergenza

Userò come riferimento Sabre Elaydi "An Introduction to Difference Equations", 2005, 3d ed. L'analisi è subordinata a un dato campione di dati, quindi le vengono trattate come fisse. $x's$

La condizione del primo ordine per la minimizzazione della funzione obiettivo, vista come una funzione ricorsiva in , $m$

m (k + 1) = \sum_{i = 1}^{N} v_{i} [m (k)] x_{i}, v_{i} [m (k)] \equiv \frac{w_{i} [m (k)]}{\sum_{i = 1}^{N} w_{i} [m (k)]} [1]

$m(k+1) = \sum_{i=1}^{N} v_i[m(k)] x_i, \;\; v_i[m(k)] \equiv \frac{w_i[m(k)]}{ \sum_{i=1}^{N} w_i[m(k)]} \qquad [1]$

ha un punto fisso (l'argmin della funzione oggettiva). Con Teorema 1.13 pp. 27-28 di Elaydi, se la prima derivata rispetto a dell'RHS di , valutata nel punto fisso , denota , è minore dell'unità in valore assoluto, quindi è asintoticamente stabile (AS). Inoltre, secondo il Teorema 4.3 p.179, ciò implica anche che il punto fisso è uniformemente AS (UAS). "Asintoticamente stabile" significa che per un intervallo di valori attorno al punto fisso, un vicinato , non necessariamente di piccole dimensioni, il punto fisso è attraente $m$ $[1]$ $m^*$ $A'(m^*)$ $m^*$
$(m^* \pm \gamma)$ e quindi se l'algoritmo fornisce valori in questo vicinato, converge. Essendo la proprietà "uniforme", significa che il confine di questo quartiere, e quindi la sua dimensione, è indipendente dal valore iniziale dell'algoritmo. Il punto fisso diventa UAS globale , se . Quindi nel nostro caso, se lo dimostriamo $\gamma = \infty$

| A^{'} (m^{*}) | \equiv | \sum_{i = 1}^{N} \frac{\partial v_{i} (m^{*})}{\partial m} x_{i} | < 1 [2]

$|A'(m^*)|\equiv \left|\sum_{i=1}^{N} \frac{\partial v_i(m^*)}{\partial m}x_i\right| <1 \qquad [2]$

abbiamo dimostrato la proprietà UAS, ma senza convergenza globale. Quindi possiamo provare a stabilire che il quartiere di attrazione è in realtà l'intero numero reale esteso, oppure che lo specifico valore iniziale utilizzato dall'OP come menzionato nei commenti (ed è standard nella metodologia IRLS), ovvero la media del campione delle 's, , appartiene sempre al quartiere di attrazione del punto fisso. $x$ $\bar x$

Calcoliamo la derivata

\frac{\partial v_{i} (m^{*})}{\partial m} = \frac{\frac{\partial w_{i} (m^{*})}{\partial m} \sum_{i = 1}^{N} w_{i} (m^{*}) - w_{i} (m^{*}) \sum_{i = 1}^{N} \frac{\partial w_{i} (m^{*})}{\partial m}}{{(\sum_{i = 1}^{N} w_{i} (m^{*}))}^{2}}

$\frac{\partial v_i(m^*)}{\partial m} = \frac {\frac{\partial w_i(m^*)}{\partial m}\sum_{i=1}^{N} w_i(m^*)-w_i(m^*)\sum_{i=1}^{N}\frac{\partial w_i(m^*)}{\partial m}}{\left(\sum_{i=1}^{N} w_i(m^*)\right)^2}$

= \frac{1}{\sum_{i = 1}^{N} w_{i} (m^{*})} \cdot [\frac{\partial w_{i} (m^{*})}{\partial m} - v_{i} (m^{*}) \sum_{i = 1}^{N} \frac{\partial w_{i} (m^{*})}{\partial m}]

$=\frac 1{\sum_{i=1}^{N} w_i(m^*)}\cdot\left[\frac{\partial w_i(m^*)}{\partial m}-v_i(m^*)\sum_{i=1}^{N}\frac{\partial w_i(m^*)}{\partial m}\right]$ Quindi

A^{'} (m^{*}) = \frac{1}{\sum_{i = 1}^{N} w_{i} (m^{*})} \cdot [\sum_{i = 1}^{N} \frac{\partial w_{i} (m^{*})}{\partial m} x_{i} - (\sum_{i = 1}^{N} \frac{\partial w_{i} (m^{*})}{\partial m}) \sum_{i = 1}^{N} v_{i} (m^{*}) x_{i}]

$A'(m^*) = \frac 1{\sum_{i=1}^{N} w_i(m^*)}\cdot\left[\sum_{i=1}^{N}\frac{\partial w_i(m^*)}{\partial m}x_i-\left(\sum_{i=1}^{N}\frac{\partial w_i(m^*)}{\partial m}\right)\sum_{i=1}^{N}v_i(m^*)x_i\right]$

= \frac{1}{\sum_{i = 1}^{N} w_{i} (m^{*})} \cdot [\sum_{i = 1}^{N} \frac{\partial w_{i} (m^{*})}{\partial m} x_{i} - (\sum_{i = 1}^{N} \frac{\partial w_{i} (m^{*})}{\partial m}) m^{*}]

$=\frac 1{\sum_{i=1}^{N} w_i(m^*)}\cdot\left[\sum_{i=1}^{N}\frac{\partial w_i(m^*)}{\partial m}x_i-\left(\sum_{i=1}^{N}\frac{\partial w_i(m^*)}{\partial m}\right)m^*\right]$

| A^{'} (m^{*}) | < 1 \Rightarrow | \sum_{i = 1}^{N} \frac{\partial w_{i} (m^{*})}{\partial m} (x_{i} - m^{*}) | < | \sum_{i = 1}^{N} w_{i} (m^{*}) | [3]

$|A'(m^*)| <1 \Rightarrow \left|\sum_{i=1}^{N}\frac{\partial w_i(m^*)}{\partial m}(x_i-m^*)\right| < \left|\sum_{i=1}^{N} w_i(m^*)\right| \qquad [3]$

noi abbiamo

\begin{aligned} \frac{\partial w_{i} (m^{*})}{\partial m} = & \frac{- ρ^{″} (| x_{i} - m^{*} |) \cdot \frac{x_{i} - m^{*}}{| x_{i} - m^{*} |} | x_{i} - m^{*} | + \frac{x_{i} - m^{*}}{| x_{i} - m^{*} |} ρ^{'} (| x_{i} - m^{*} |)}{| x_{i} - m^{*} |^{2}} \\ = \frac{x_{i} - m^{*}}{| x_{i} - m^{*} |^{3}} ρ^{'} (| x_{i} - m^{*} |) - ρ^{″} (| x_{i} - m^{*} |) \cdot \frac{x_{i} - m^{*}}{| x_{i} - m^{*} |^{2}} \\ = \frac{x_{i} - m^{*}}{| x_{i} - m^{*} |^{2}} \cdot [\frac{ρ^{'} (| x_{i} - m^{*} |)}{| x_{i} - m^{*} |} - ρ^{″} (| x_{i} - m^{*} |)] \\ = \frac{x_{i} - m^{*}}{| x_{i} - m^{*} |^{2}} \cdot [w_{i} (m^{*}) - ρ^{″} (| x_{i} - m^{*} |)] \end{aligned}

$\begin{align}\frac{\partial w_i(m^*)}{\partial m} = &\frac{-\rho''(|x_i-m^*|)\cdot \frac {x_i-m^*}{|x_i-m^*|}|x_i-m^*|+\frac {x_i-m^*}{|x_i-m^*|}\rho'(|x_i-m^*|)}{|x_i-m^*|^2} \\ \\ &=\frac {x_i-m^*}{|x_i-m^*|^3}\rho'(|x_i-m^*|) - \rho''(|x_i-m^*|)\cdot \frac {x_i-m^*}{|x_i-m^*|^2} \\ \\ &=\frac {x_i-m^*}{|x_i-m^*|^2}\cdot \left[\frac {\rho'(|x_i-m^*|)}{|x_i-m^*|}-\rho''(|x_i-m^*|)\right]\\ \\ &=\frac {x_i-m^*}{|x_i-m^*|^2}\cdot \left[w_i(m^*)-\rho''(|x_i-m^*|)\right] \end{align}$

Inserendo questo in abbiamo $[3]$

| \sum_{i = 1}^{N} \frac{x_{i} - m^{*}}{| x_{i} - m^{*} |^{2}} \cdot [w_{i} (m^{*}) - ρ^{″} (| x_{i} - m^{*} |)] (x_{i} - m^{*}) | < | \sum_{i = 1}^{N} w_{i} (m^{*}) |

$\left|\sum_{i=1}^{N}\frac {x_i-m^*}{|x_i-m^*|^2}\cdot \left[w_i(m^*)-\rho''(|x_i-m^*|)\right](x_i-m^*)\right| < \left|\sum_{i=1}^{N} w_i(m^*)\right|$

\Rightarrow | \sum_{i = 1}^{N} w_{i} (m^{*}) - \sum_{i = 1}^{N} ρ^{″} (| x_{i} - m^{*} |) | < | \sum_{i = 1}^{N} w_{i} (m^{*}) | [4]

$\Rightarrow \left|\sum_{i=1}^{N}w_i(m^*)-\sum_{i=1}^{N}\rho''(|x_i-m^*|)\right| < \left|\sum_{i=1}^{N} w_i(m^*)\right| \qquad [4]$

Questa è la condizione che deve essere soddisfatta affinché il punto fisso sia UAS. Poiché nel nostro caso la funzione di penalità è convessa, le somme coinvolte sono positive. Quindi la condizione è equivalente a $[4]$

\sum_{i = 1}^{N} ρ^{″} (| x_{i} - m^{*} |) < 2 \sum_{i = 1}^{N} w_{i} (m^{*}) [5]

$\sum_{i=1}^{N}\rho''(|x_i-m^*|) < 2\sum_{i=1}^{N}w_i(m^*) \qquad [5]$

Se è la funzione di perdita di Hubert, allora abbiamo un ramo quadratico ( ) e un lineare ( ), $\rho(|x_i-m|)$ $q$ $l$

ρ (| x_{i} - m |) = {\begin{cases} (1 / 2) | x_{i} - m |^{2} | x_{i} - m | \leq δ \\ δ (| x_{i} - m | - δ / 2) | x_{i} - m | > δ \end{cases}

$\rho(|x_i-m|)=\cases{ (1/2)|x_i- m|^2 \qquad\;\;\;\; |x_i-m|\leq \delta \\ \\ \delta\big(|x_i-m|-\delta/2\big) \qquad |x_i-m|> \delta}$

ρ^{'} (| x_{i} - m |) = {\begin{cases} | x_{i} - m | | x_{i} - m | \leq δ \\ δ | x_{i} - m | > δ \end{cases}

$\rho'(|x_i-m|)=\cases{ |x_i- m| \qquad |x_i-m|\leq \delta \\ \\ \delta \qquad \qquad \;\;\;\; |x_i-m|> \delta}$

ρ^{″} (| x_{i} - m |) = {\begin{cases} 1 | x_{i} - m | \leq δ \\ 0 | x_{i} - m | > δ \end{cases}

$\rho''(|x_i-m|)=\cases{ 1\qquad |x_i-m|\leq \delta \\ \\ 0 \qquad |x_i-m|> \delta}$

{\begin{cases} w_{i, q} (m) = 1 | x_{i} - m | \leq δ \\ w_{i, l} (m) = \frac{δ}{| x_{i} - m |} < 1 | x_{i} - m | > δ \end{cases}

$\cases{ w_{i,q}(m) =1\qquad \qquad \qquad |x_i-m|\leq \delta \\ \\ w_{i,l}(m) =\frac {\delta}{|x_i-m|} <1 \qquad |x_i-m|> \delta}$

Dal momento che non sappiamo quanti dei nel ramo quadratico e quanti nel lineare, scomponiamo la condizione come ( ) $|x_i-m^*|$ $[5]$ $N_q + N_l = N$

\sum_{i = 1}^{N_{q}} ρ_{q}^{″} + \sum_{i = 1}^{N_{l}} ρ_{l}^{″} < 2 [\sum_{i = 1}^{N_{q}} w_{i, q} + \sum_{i = 1}^{N_{l}} w_{i, l}]

$\sum_{i=1}^{N_q}\rho_q''+\sum_{i=1}^{N_l}\rho_l'' < 2\left[\sum_{i=1}^{N_q}w_{i,q} +\sum_{i=1}^{N_l}w_{i,l}\right]$

\Rightarrow N_{q} + 0 < 2 [N_{q} + \sum_{i = 1}^{N_{l}} w_{i, l}] \Rightarrow 0 < N_{q} + 2 \sum_{i = 1}^{N_{l}} w_{i, l}

$\Rightarrow N_q + 0 < 2\left[N_q +\sum_{i=1}^{N_l}w_{i,l}\right] \Rightarrow 0 < N_q+2\sum_{i=1}^{N_l}w_{i,l}$

che regge. Quindi per la funzione di perdita di Huber il punto fisso dell'algoritmo è uniformemente asintoticamente stabile, indipendentemente dalle 's. Notiamo che la prima derivata è più piccola dell'unità in valore assoluto per qualsiasi , non solo il punto fisso. $x$ $m$

Quello che dovremmo fare ora è dimostrare che anche la proprietà UAS è globale, o che, se allora appartiene al quartiere di attrazione di . $m(0) = \bar x$ $m(0)$ $m^*$

— Alecos Papadopoulos
fonte

Grazie per la risposta. Dammi un po 'di tempo per analizzare questa risposta.

— Chris A.

Certamente. Dopotutto, la domanda ha aspettato 20 mesi.

— Alecos Papadopoulos,

Sì, mi è stato ricordato il problema e ho deciso di fare una taglia. :)

— Chris A.

Fortunato me. Non ci sono stato 20 mesi fa - avrei accettato questa domanda, generosità o meno.

— Alecos Papadopoulos,

Grazie mille per questa risposta. Sembra che, finora, tu abbia guadagnato la taglia. A proposito, la tua indicizzazione sulla derivata di wrt è notoriamente strana. Le somme sulla seconda riga di questo non potrebbero usare un'altra variabile, come ?

v_{i}

$v_i$

m

$m$

j

$j$

— Chris A.