Stime di regressione L1 mediane mentre stime di regressione L2 significano?


24

Quindi mi è stata posta una domanda sulla stima delle misure centrali L1 (es. Lazo) e L2 (es. Regressione della cresta). La risposta è L1 = mediana e L2 = media. C'è qualche tipo di ragionamento intuitivo in questo? O deve essere determinato algebricamente? In tal caso, come posso fare per farlo?


4
Con L1 / L2 ti riferisci alla funzione obiettivo o ai vincoli? Se la funzione obiettiva, sì, l'errore L1 è minimizzato con la mediana condizionale e L2 la media condizionale. Se i vincoli (a cui si riferisce la cresta / lazo), questo è il modo sbagliato di pensarci. Le loro "misure centrali" stanno ancora puntando a una media condizionata, ma con penalità diverse su . β
muratoa,

Risposte:


24

C'è una semplice spiegazione geometrica del perché la funzione di perdita L1 produce la mediana.

Ricordiamo che stiamo lavorando in una dimensione, quindi immagina una linea numerica che si diffonde in senso orizzontale. Tracciare ciascuno dei punti dati sulla linea numerica. Metti il ​​dito da qualche parte sulla linea; il tuo dito sarà la tua stima del candidato attuale.

Supponiamo di spostare leggermente il dito verso destra, ad esempio unità verso destra. Cosa succede alla perdita totale? Bene, se il dito si trovava tra due punti dati e lo sposti su un punto dati, hai aumentato la perdita totale di per ciascun punto dati a sinistra del dito e diminuita di per ciascun dato punta a destra del dito. Quindi, se ci sono più punti dati a destra del dito di quanti ce ne siano a sinistra, spostando il dito a destra diminuisce la perdita totale. In altre parole, se più della metà dei punti dati sono a destra del dito, è necessario spostare il dito verso destra.δ δδδδ

Questo ti porta a muovere il dito verso un punto in cui metà dei punti dati si trovano su quel punto e metà sono a destra. Quel punto è la mediana.

Questa è L1 e la mediana. Sfortunatamente, non ho una spiegazione simile, "tutta l'intuizione, nessuna algebra" per L2 e la media.


7
Se stiamo parlando di una semplice stima puntuale, allora è un calcolo semplice. ddβ1ni=1n(yiβ)2=21ni=1n(yiβ)=0β=1niyi
muratoa

3
@muratoa, sì, conosco la derivazione del calcolo, ma la domanda richiede specificamente una spiegazione che si concentri sull'intuizione ed eviti l'algebra. Suppongo che chi pone la domanda conosce già la derivazione del calcolo, ma è alla ricerca di qualcosa che fornisca più intuizione.
DW,

Pensavo che l'OP menzionasse la regressione, il che suggerisce che stesse parlando della stima di y dato x, che è una media condizionale che usa il minimo dei quadrati e la mediana condizionale per l'errore assoluto medio. Le stesse spiegazioni dovrebbero funzionare ma il problema è leggermente diverso. La spiegazione del calcolo per la media è piuttosto chiara e semplice. Forse una spiegazione per la media può essere data in modo simile ai DW per la mediana. La media del campione è una stima imparziale per la media della popolazione.
Michael R. Chernick,

Allontanando la stima dal campione, l'errore quadratico medio cambia a causa di un aumento della distorsione. L'errore quadratico medio aumenta effettivamente di d quando la stima aggiunge d alla media del campione come stima del candidato. 2
Michael R. Chernick,

11
Esiste una versione rapida e sporca dell'algebra data da muratoa per il caso L1. Osserva che tranne quando , la derivata diwrt è , ovvero if e if . Quindi , tranne quando è un . Il derivato svanisce quando c'è lo stesso numero di termini positivi e negativi tra , che in termini approssimativi si presenta quando| y i - β | β - s g n ( y i - β ) - 1 β < y i + 1 β > y i dβ=yi|yiβ|βsgn(yiβ)1β<yi+1β>yiβ y i y i - β β y iddβ1ni|yiβ|=1nisgn(yiβ)βyiyiββ è la mediana di . yi
Yves,

17

Questa spiegazione è una sintesi dei commenti di muratoa e Yves sulla risposta di DW. Sebbene sia basato sul calcolo, l'ho trovato semplice e facile da capire.

Supponendo che abbiamo e desideriamo ottenere una nuova stima basata su di essi. La perdita più piccola si ottiene quando troviamo che porta a zero la derivata della perdita. β βy1,y2,...ykββ

Perdita L1

L1

L1=1ki=1k|yiβ|
sgn(yi-β)yi>βyi<βyi-ββyi
L1β=1ki=1ksgn(yiβ)
sgn(yiβ) è 1 quando , -1 quando . La derivata è uguale a 0 quando c'è lo stesso numero di termini positivi e negativi tra , il che significa che dovrebbe essere la mediana di .yi>βyi<βyiββyi

Perdita di L2

L2

L2=1ki=1k(yiβ)2
L2
L2β=2ki=1k(yiβ)
βyi
L2β=0β=1ki=1kyi

Quindi per minimizzare la perdita di L2, dovrebbe essere la media di .βyi

3

Aggiungendo alla risposta di DW un esempio ancora più pratico (anche per la funzione di perdita di L2):

Immagina un piccolo villaggio fatto di 4 case vicine (es. 10 metri). A 1 chilometro da quelli, hai un'altra casa molto isolata. Ora arrivi in ​​quella città e vuoi costruire la tua casa da qualche parte. Vuoi vivere vicino alle altre case ed essere amico di tutti. Considera questi due scenari alternativi:

  1. Decidi di trovarti nel luogo in cui la distanza media da qualsiasi casa è la più piccola (ovvero ridurre al minimo una funzione di perdita L1).

    • Se metti la tua casa al centro del villaggio, sarai a circa 10 metri da 4 case e 1 chilometro da una casa, il che ti darà una distanza media di circa 200 metri (10 + 10 + 10 + 10 + 1000 / 5).
    • Se posizioni la tua casa a 500 metri dal villaggio, sarai a circa 500 metri da 5 case, il che ti dà una distanza media di 500 metri.
    • Se posizioni la tua casa vicino alla casa isolata, sarai a 1 km dal villaggio (4 case) e circa 10 metri da 1 casa, che ti dà una distanza media di circa 800 metri.

    Quindi la distanza media più bassa di 100 metri è raggiunta costruendo la tua casa nel villaggio. Più specificamente, costruirai la tua casa nel mezzo di queste 4 case per guadagnare qualche metro in più di distanza media. E si scopre che questo punto è il " punto mediano ", che avresti ottenuto in modo simile usando la formula mediana.

  2. Decidi di adottare un approccio democratico. Chiedi a ciascuno dei tuoi cinque futuri vicini la loro posizione preferita per la tua nuova casa. Tutti piaci e vogliono che tu viva vicino a loro. Quindi dichiarano tutti che la loro posizione preferita è il posto proprio accanto alla propria casa. Prendi la media di tutte le posizioni votate dei tuoi cinque vicini e il risultato è "200 metri di distanza dal villaggio" (media dei voti: 0 + 0 + 0 + 0 + 1000/5 = 200), che è il " punto medio " delle 5 case, che avresti ottenuto in modo simile usando la formula media. E questa posizione risulta esattamente la stessa che imita la somma delle distanze al quadrato (cioè la funzione di perdita di L2). Facciamo solo i calcoli per vederlo:
    • In questa posizione, la somma delle distanze al quadrato è: 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000
    • Se costruiamo la casa al centro del villaggio, la nostra somma di distanze quadrate sarebbe: 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1000 ^ 2 = 1 000 000
    • Se costruiamo costruiamo la casa a 100 metri di distanza dal villaggio (come in 1), la somma delle distanze al quadrato è: 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 900 ^ 2 = 850 000
    • Se costruiamo la casa a 100 metri dalla casa isolata, la somma delle distanze quadrate è: 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3 250 000

Quindi sì, è interessante notare che, un po 'controintuitivamente, quando minimizziamo la somma delle distanze, non finiamo per essere nel "mezzo" nel senso della media, ma nel senso della mediano. Questo è uno dei motivi per cui OLS, uno dei modelli di regressione più popolari, utilizza errori al quadrato anziché errori assoluti.


1

Oltre alle risposte già pubblicate (che mi sono state molto utili!), C'è una spiegazione geometrica per la connessione tra la norma L2 e la media.

Per usare la stessa notazione di chefwen , la formula per la perdita di L2 è:

L2=1ki=1k(yiβ)2

Desideriamo trovare il valore di che minimizza . Si noti che ciò equivale a minimizzare quanto segue, poiché moltiplicando per e prendendo la radice quadrata entrambi preservano l'ordine:L 2 kβL2k

i=1k(yiβ)2

Se consideri il vettore di dati come un punto nello spazio tridimensionale , questa formula calcola la distanza euclidea tra il punto e il punto .ykyβ=(β,β,...,β)

Quindi il problema è trovare il valore che minimizza la distanza euclidea tra i punti e . Poiché i possibili valori di giacciono tutti sulla linea parallela a per definizione, questo equivale a trovare la proiezione vettoriale di su .βyββ1=(1,1,...,1)y1

È davvero possibile visualizzarlo solo quando , ma ecco un esempio in cui . Come mostrato, proiettando su ottengono come previsto.k=2y=(2,6)1(4,4)

il vettore y proiettato su beta

Per mostrare che questa proiezione produce sempre la media (anche quando ), possiamo applicare la formula per la proiezione :k>2

β=proj1y=y1|1|21β=i=1kyik
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.