Perché le distanze verticali?


11

Perché la stima OLS comporta il rilevamento di deviazioni verticali dei punti rispetto alla linea anziché distanze orizzontali?


1
Vecchia domanda, ma penso che sia utile visualizzare i dati come un campione di una distribuzione di probabilità che è parametrizzata da x
Bendy,

Risposte:


12

OLS ( minimi quadrati ordinari ) presume che i valori rappresentati dalle distanze orizzontali siano predeterminati dallo sperimentatore o misurati con elevata precisione (rispetto alle distanze verticali). Quando c'è una domanda di incertezza nelle distanze orizzontali, non dovresti usare OLS, ma invece dovresti esaminare i modelli di errori nelle variabili o, possibilmente, l' analisi dei componenti principali .


La "regressione ortogonale" è un'altra cosa che si potrebbe incontrare quando si cercano metodi per affrontare ascisse e ordinate contaminate.
JM non è uno statistico il

+1 Questa è ancora una nicchia solo nelle statistiche; i metodi dei minimi quadrati più complessi (non solo aggiungendo la variabilità X ma anche penalità diverse per i punti basati su approssimazioni di errori) sono comuni nella fisica sperimentale; Il framework ROOT ne ha dozzine.

1

Domanda interessante La mia risposta sarebbe che quando stiamo adattando un modello OLS, stiamo implicitamente e principalmente cercando di prevedere / spiegare la variabile dipendente a portata di mano - la "Y" nella "Y vs X". Pertanto, la nostra principale preoccupazione sarebbe quella di ridurre al minimo la distanza dalla nostra linea adattata alle osservazioni effettive rispetto al risultato, il che significa ridurre al minimo la distanza verticale. Questo ovviamente definisce i residui.

Inoltre, le formule dei minimi quadrati sono più facili da ricavare rispetto alla maggior parte degli altri metodi concorrenti, motivo per cui è nato prima. : P

Come 'whuber' allude a sopra, ci sono altri approcci che trattano X e Y con uguale enfasi quando si adatta una linea più adatta. Uno di questi approcci di cui sono a conoscenza è la regressione delle "linee principali" o delle "curve principali", che minimizza le distanze ortogonali tra i punti e la linea (invece di una linea di errore verticale ne hai una a 90 gradi rispetto alla linea adattata) . Pubblico un riferimento di seguito per la tua lettura. È lungo ma molto accessibile e illuminante.

Spero che questo aiuti, Brenden

  1. Trevor Hastie. Principali curve e superfici , tesi di dottorato, Stanford University; 1984

1

Probabilmente si riferisce anche a esperimenti progettati: se x è una quantità controllata che fa parte del disegno sperimentale, viene trattato come deterministico; mentre y è il risultato ed è una quantità casuale. x potrebbe essere una quantità continua (ad es. concentrazione di alcuni farmaci) ma potrebbe essere una divisione 0/1 (che porta a un test t di 2 campioni supponendo che y sia gaussiano). Se x è una quantità continua, potrebbe esserci un errore di misurazione, ma in genere se questo è molto più piccolo della variabilità di y, questo viene ignorato.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.