Per quanto riguarda la tua prima domanda, si dovrebbe definire "standard" o riconoscere che un "modello canonico" è stato gradualmente stabilito. Come indicato da un commento, sembra almeno che il modo in cui usi IRWLS sia piuttosto standard.
Per quanto riguarda la tua seconda domanda, "la mappatura della contrazione in probabilità" potrebbe essere collegata (comunque informalmente) alla convergenza di "algoritmi stocastici ricorsivi". Da quello che ho letto, c'è un'enorme letteratura sull'argomento principalmente in Ingegneria. In Economia ne usiamo un po ', in particolare le opere seminali di Lennart Ljung - il primo articolo era Ljung (1977) - che mostrava che la convergenza (o meno) di un algoritmo stocastico ricorsivo può essere determinata dalla stabilità (o non) di un'equazione differenziale ordinaria correlata.
(ciò che segue è stato rielaborato dopo una fruttuosa discussione con l'OP nei commenti)
Convergenza
Userò come riferimento Sabre Elaydi "An Introduction to Difference Equations", 2005, 3d ed.
L'analisi è subordinata a un dato campione di dati, quindi le vengono trattate come fisse. x′s
La condizione del primo ordine per la minimizzazione della funzione obiettivo, vista come una funzione ricorsiva in ,
m ( k + 1 ) = N ∑ i = 1 v i [ m ( k ) ] x i ,m
m(k+1)=∑i=1Nvi[m(k)]xi,vi[m(k)]≡wi[m(k)]∑Ni=1wi[m(k)][1]
ha un punto fisso (l'argmin della funzione oggettiva). Con Teorema 1.13 pp. 27-28 di Elaydi, se la prima derivata rispetto a dell'RHS di , valutata nel punto fisso , denota , è minore dell'unità in valore assoluto, quindi è asintoticamente stabile (AS). Inoltre, secondo il Teorema 4.3 p.179, ciò implica anche che il punto fisso è uniformemente AS (UAS).
"Asintoticamente stabile" significa che per un intervallo di valori attorno al punto fisso, un vicinato , non necessariamente di piccole dimensioni, il punto fisso è attraente[ 1 ] m ∗ A ′ ( m ∗ ) m ∗ ( m ∗ ± γ ) γ = ∞m[1]m∗A′(m∗)m∗
(m∗±γ)e quindi se l'algoritmo fornisce valori in questo vicinato, converge. Essendo la proprietà "uniforme", significa che il confine di questo quartiere, e quindi la sua dimensione, è indipendente dal valore iniziale dell'algoritmo. Il punto fisso diventa UAS globale , se .
Quindi nel nostro caso, se lo dimostriamoγ=∞
|A′(m∗)|≡∣∣∣∣∑i=1N∂vi(m∗)∂mxi∣∣∣∣<1[2]
abbiamo dimostrato la proprietà UAS, ma senza convergenza globale. Quindi possiamo provare a stabilire che il quartiere di attrazione è in realtà l'intero numero reale esteso, oppure che lo specifico valore iniziale utilizzato dall'OP come menzionato nei commenti (ed è standard nella metodologia IRLS), ovvero la media del campione delle 's, , appartiene sempre al quartiere di attrazione del punto fisso.ˉ xxx¯
Calcoliamo la derivata
∂vi(m∗)∂m=∂wi(m∗)∂m∑Ni=1wi(m∗)−wi(m∗)∑Ni=1∂wi(m∗)∂m(∑Ni=1wi(m∗))2
=1∑Ni=1wi(m∗)⋅[∂wi(m∗)∂m−vi(m∗)∑i=1N∂wi(m∗)∂m]
Quindi
A′(m∗)=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)∑i=1Nvi(m∗)xi]
=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)m∗]
e
|A′(m∗)|<1⇒∣∣∣∣∑i=1N∂wi(m∗)∂m(xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[3]
noi abbiamo
∂wi(m∗)∂m=−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗||xi−m∗|+xi−m∗|xi−m∗|ρ′(|xi−m∗|)|xi−m∗|2=xi−m∗|xi−m∗|3ρ′(|xi−m∗|)−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗|2=xi−m∗|xi−m∗|2⋅[ρ′(|xi−m∗|)|xi−m∗|−ρ′′(|xi−m∗|)]=xi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)]
Inserendo questo in abbiamo[3]
∣∣∣∣∑i=1Nxi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)](xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣
⇒∣∣∣∣∑i=1Nwi(m∗)−∑i=1Nρ′′(|xi−m∗|)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[4]
Questa è la condizione che deve essere soddisfatta affinché il punto fisso sia UAS. Poiché nel nostro caso la funzione di penalità è convessa, le somme coinvolte sono positive. Quindi la condizione è equivalente a[4]
∑i=1Nρ′′(|xi−m∗|)<2∑i=1Nwi(m∗)[5]
Se è la funzione di perdita di Hubert, allora abbiamo un ramo quadratico ( ) e un lineare ( ),ρ(|xi−m|)ql
ρ(|xi−m|)=⎧⎩⎨(1/2)|xi−m|2|xi−m|≤δδ(|xi−m|−δ/2)|xi−m|>δ
e
ρ′(|xi−m|)={|xi−m||xi−m|≤δδ|xi−m|>δ
ρ′′(|xi−m|)={1|xi−m|≤δ0|xi−m|>δ
⎧⎩⎨⎪⎪wi,q(m)=1|xi−m|≤δwi,l(m)=δ|xi−m|<1|xi−m|>δ
Dal momento che non sappiamo quanti dei nel ramo quadratico e quanti nel lineare, scomponiamo la condizione come ( )|xi−m∗|[5]Nq+Nl=N
∑i=1Nqρ′′q+∑i=1Nlρ′′l<2[∑i=1Nqwi,q+∑i=1Nlwi,l]
⇒Nq+0<2[Nq+∑i=1Nlwi,l]⇒0<Nq+2∑i=1Nlwi,l
che regge. Quindi per la funzione di perdita di Huber il punto fisso dell'algoritmo è uniformemente asintoticamente stabile, indipendentemente dalle 's. Notiamo che la prima derivata è più piccola dell'unità in valore assoluto per qualsiasi , non solo il punto fisso. xm
Quello che dovremmo fare ora è dimostrare che anche la proprietà UAS è globale, o che, se allora appartiene al quartiere di attrazione di .m(0)=x¯m(0)m∗