Perché la regressione lineare utilizza una funzione di costo basata sulla distanza verticale tra l'ipotesi e il punto dati di input?


14

Diciamo che abbiamo i punti di dati di input (predittore) e output (risposta) A, B, C, D, E e vogliamo adattare una linea attraverso i punti. Questo è un semplice problema per illustrare la domanda, ma può essere esteso anche a dimensioni più elevate.

Dichiarazione problema

inserisci qui la descrizione dell'immagine

L'attuale miglior adattamento o ipotesi è rappresentato dalla linea nera sopra. La freccia blu ( ) rappresenta la distanza verticale tra il punto dati e l'attuale adattamento ottimale, disegnando una linea verticale dal punto fino a quando non interseca la linea.

La freccia verde ( ) è disegnata in modo tale da essere perpendicolare all'ipotesi corrente nel punto di intersezione, e quindi rappresenta la minima distanza tra il punto dati e l'ipotesi corrente. Per i punti A e B, una linea disegnata in modo che sia verticale rispetto alla migliore ipotesi corrente ed è simile a una linea verticale rispetto all'asse x. Per questi due punti, le linee blu e verde si sovrappongono, ma non per i punti C, D ed E.

Il principio dei minimi quadrati definisce la funzione di costo per la regressione lineare tracciando una linea verticale attraverso i punti dati (A, B, C, D o E) fino all'ipotesi stimata ( ), in ogni dato ciclo di allenamento , ed è rappresentato da

CostFunction=i=1N(yihθ(xi))2

Qui rappresenta i punti dati e rappresenta la soluzione migliore.(xi,yi)hθ(xi)

La distanza minima tra un punto (A, B, C, D o E) è rappresentata da una linea perpendicolare tracciata da quel punto fino alla migliore ipotesi corrente (frecce verdi).

L'obiettivo della funzione meno quadrata è definire una funzione obiettiva che, se minimizzata, darebbe origine alla minima distanza tra l'ipotesi e tutti i punti combinati, ma non minimizzerà necessariamente la distanza tra l'ipotesi e un singolo punto di input.

**Domanda**

Perché non definiamo la funzione di costo per la regressione lineare come la minima distanza tra il punto di dati di input e l'ipotesi (definita da una linea perpendicolare all'ipotesi) che passa attraverso il datapoin di input, come indicato da ( )?


5
La regressione lineare semplice presuppone che non vi siano errori nei valori delle coordinate x delle osservazioni (ad es. Perché sono manipolazioni sperimentali). Se ci sono errori sull'asse x, è possibile spiegarli minimizzando una funzione di costo simile a quella che si propone; ciò richiede di impostare il rapporto tra la varianza degli errori sull'asse xey. Se il rapporto , ciò equivale a minimizzare la distanza perpendicolare tra i punti e la linea (regressione ortogonale). Se il rapporto 1 si chiama Deeming regression=11
matteo

Vedi questo post su PCA: cerebralmastication.com/2010/09/…
James

Risposte:


13

Quando si hanno disturbi sia nella variabile dipendente (errori verticali) che nella variabile indipendente (errori orizzontali), la funzione obiettivo dei minimi quadrati può essere modificata per incorporare questi errori orizzontali. Il problema su come ponderare questi due tipi di errori. Questa ponderazione di solito dipende dal rapporto tra le varianze dei due errori:

  1. Se la varianza dell'errore verticale è estremamente grande rispetto alla varianza dell'errore orizzontale, OLS è corretto.
  2. Se la varianza dell'errore orizzontale è estremamente grande rispetto alla varianza dell'errore verticale, è appropriato il minimo quadrato inverso (in cui viene regredito su y e l'inverso della stima del coefficiente per y come stima di β ).xyyβ
  3. Se il rapporto tra la varianza dell'errore verticale e la varianza dell'errore orizzontale è uguale al rapporto tra le varianze delle variabili dipendenti e indipendenti, abbiamo il caso della regressione "diagonale", in cui una stima coerente risulta essere la media geometrica degli stimatori OLS e dei minimi quadrati inversi.
  4. Se il rapporto di queste varianze di errore è uno, allora abbiamo il caso della regressione "ortogonale", in cui la somma degli errori al quadrato misurata lungo una linea perpendicolare alla linea di stima è ridotta al minimo. Questo è ciò che avevi in ​​mente.

In pratica, il grande svantaggio di questa procedura è che il rapporto tra le varianze di errore non è di solito noto e di solito non può essere stimato, quindi il percorso da seguire non è chiaro.


Ho provato a modificare per cambiare da "dipendente" a "indipendente" nella prima frase ma le modifiche devono essere di 6 caratteri. Forse aggiorni la risposta per correggere l'errore di battitura?
Ryan Stout,

@RyanStout Grazie e fatto. Penso che l'inserimento di spazi ti aggiri.
Dimitriy V. Masterov,

Ora sono un po 'confuso: gli errori verticali non sono gli errori nella variabile dipendente (y) e gli errori orizzontali nella variabile indipendente (x)?
Ryan Stout,

@RyanStout L'ho incasinato di nuovo
Dimitriy V. Masterov il

9

Uno dei motivi è che è relativamente facile da calcolare e ottimizzare, mentre il costo proposto N i = 1 min x , y [ ( y i - h θ ( x ) ) 2 + ( x i - x ) 2 ]

i=1N(yihθ(xi))2
i=1Nminx,y[(yihθ(x))2+(xix)2]
hθ(x)

È un buon punto. Stavo pensando a come calcolare la funzione di costo in generale.
alpha_989,

Non sono necessariamente sicuro di come valutare la distanza tra il punto e un piano / superficie non lineare, ma per valutare la distanza tra un punto e una superficie / piano lineare, potrebbe non essere necessaria una minimizzazione nidificata: mathinsight.org/distance_point_plane
alpha_989

In secondo luogo, quando utilizziamo la regressione, il nostro obiettivo è valutare i pesi per trovare la soluzione migliore. Da quello che ho capito, durante il calcolo effettivo, valutiamo raramente la funzione di costo, ma qualche derivata della funzione di costo?
alpha_989,

1
@whuber. Vedo. Una volta stabiliti quei significati per quei due termini, sono d'accordo che i problemi risolti sono diversi (c'è o non c'è la possibilità che ci sia un errore in x). Non credo che otterrete un ampio consenso da parte di persone competenti sul significato di quei termini, ma questo è un aspetto secondario.
stocastico il

1
@Stochastic Sono d'accordo sul fatto che potrebbe esserci confusione sul concetto di "adattamento alla curva", ma il concetto di regressione che sto invocando appare negli scritti delle migliori autorità.
whuber

2

La versione semplificata prevede che X non abbia errori. Quindi, se ad esempio si osserva il punto E nella trama, si presume che la sua coordinata X sia esattamente accurata. In genere questo è il caso in cui possiamo controllare X, in altre parole quando possiamo impostarlo su un valore specifico. In tal caso, l'unico errore che può esistere è nella direzione Y, ed è per questo che la funzione errore / costo include solo la direzione Y.

Ogni volta che non è così, ogni volta che non controlliamo X e X può avere un errore, le persone incorporano la direzione X nella funzione di errore in qualcosa chiamato regressione di tipo II o modello II e le sue varianti. Può essere difficile farlo se X e Y hanno scale diverse, quindi devi pensare a normalizzazioni e simili.


1

A rischio di essere prosaici, la ragione della funzione di errore è che l'interpretazione standard è che viene data la x e si sta cercando di descrivere (o prevedere) al meglio la componente y. Quindi non ci sono errori nella 'x'. Ad esempio, potresti provare a capire (o prevedere) il prezzo di chiusura di un titolo domani in base al prezzo di chiusura di oggi. Allo stesso modo si potrebbe provare a capire la temperatura media domani in termini di temperatura media di oggi. Ovviamente questi esempi sono semplici, ma questa è l'idea. Per inciso qualcosa che la maggior parte delle persone non capisce, ma penso che sia chiaro dai tuoi esempi, è che se si regredisce y contro x la linea di regressione non deve avere alcuna somiglianza particolare con la regressione di x contro y. La regressione ortogonale è il termine per una regressione in cui si cerca di trovare la linea che minimizza la distanza dei punti da una linea. Ad esempio, se si cercasse di capire la relazione tra il prezzo delle azioni IBM e il prezzo delle azioni AAPL, sarebbe il metodo appropriato.


1

Hai ragione nel dire che, quando si adatta una linea attraverso punti, la distanza ortogonale è la funzione di perdita più naturale che può essere applicata a linee arbitrarie (si noti che la distanza y diventa insignificante per le linee perpendicolari all'asse x). Questo problema è noto con diversi nomi, ad esempio "regressione ortogonale" o (il termine più utilizzato, AFAIK) "Analisi dei componenti principali" (PCA). Per una discussione di questo problema in dimensioni arbitrarie, vedere

Späth: "Raccordi minimi quadrati ortogonali con collettori lineari." Numerische Mathematik 48, pagg. 441–445, 1986

Come già sottolineato da @aginensky, l'idea alla base della regressione lineare non è quella di adattare una linea attraverso i punti, ma di prevedere i valori y per determinati valori x. Ecco perché viene utilizzata solo la distanza in y, che è la precisione della previsione.

x(t)pii=1Nt

Wang, Pottmann, Liu: "Adattamento delle curve B-spline alle nuvole di punti mediante minimizzazione della distanza quadrata basata sulla curvatura." Transazioni ACM su grafica 25.2, pagg. 214-238, 2006

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.