È possibile eseguire una semplice regressione lineare senza utilizzare grafici e algebra lineare?


47

Sono completamente cieco e provengo da un background di programmazione.

Quello che sto cercando di fare è imparare l'apprendimento automatico e, per fare ciò, devo prima conoscere la regressione lineare. Tutte le spiegazioni su Internet che sto trovando su questo argomento tracciano prima i dati. Sto cercando una spiegazione pratica della regressione lineare che non dipende da grafici e grafici.

Ecco la mia comprensione dell'obiettivo della semplice regressione lineare:

La regressione lineare semplice sta cercando di trovare la formula che una volta data Xad essa, ti fornirà la stima più vicina di Y.

Quindi, a quanto ho capito, ciò che deve essere fatto è confrontare il predittore (ad esempio l'area di una casa in piedi quadrati) con la variabile indipendente (il prezzo). Nel mio esempio, probabilmente puoi creare un modo non visivo per ottenere la formula migliore per calcolare il prezzo di una casa dalla sua area. Ad esempio, potresti ottenere l'area e il prezzo di 1000 case in un quartiere e dividere il prezzo per l'area? Il risultato (almeno in Iran, dove vivo) avrebbe una variazione molto trascurabile. Quindi probabilmente otterrai qualcosa del genere:

Price = 2333 Rials * Area of the house

Ovviamente, dovresti quindi esaminare tutte le 1000 case nel tuo set di dati, mettere l'area nella formula sopra, confrontare la stima con il prezzo reale, quadrare i risultati (immagino che per evitare che le varianze si annullino a vicenda) e quindi ottenere un numero, quindi continuare a giocare con il 2333per ridurre gli errori.

Naturalmente, questa è l'opzione della forza bruta in cui probabilmente ci vorranno anni per calcolare gli errori e arrivare all'opzione migliore, ma vedi cosa sto dicendo? Non ho parlato di un grafico, di una linea, di punti su un diagramma o del modo migliore per adattare una linea ai dati esistenti.

Quindi, perché dovresti aver bisogno di un diagramma a dispersione e di un'algebra lineare per questo? Non c'è un modo non visivo?

Innanzitutto, ho ragione nelle mie ipotesi? Altrimenti, mi piacerebbe essere corretto. Che io sia o no, c'è un modo per elaborare la formula senza giocare con l'algebra lineare?

Gradirei molto se potessi ottenere un esempio con la spiegazione, in modo da poterlo fare insieme al testo per testare la mia comprensione.


2
Ma hai un'immaginazione spaziale che può assumere la visione? Se sì, suppongo che un grafico a dispersione possa essere immaginato in qualche modo. Dubito che l'essenza della regressione possa essere catturata solo dal pensiero proposizionale (come quello verbale).
ttnphns

3
Qual è il tuo background in matematica? La pagina di Wikipedia chiamata Simple Linear Regression è per lo più di testo e contiene quella che penso sia una descrizione ragionevolmente chiara nel primo paragrafo. In che modo l'articolo si confronta con il livello di dettaglio che stai cercando?
Shadowtalker

3
Continuerò a pensarci, vedrò se riesco a venire, ma subito, penso alla regressione come a risolvere un'equazione che non ha soluzione. Tutti i tuoi punti dati saranno erroneamente previsti dal tuo regressore (l'area della casa). Stai cercando un'equazione che renda i tuoi errori il più tollerabili possibile.
Antoni Parellada,

8
domanda eccellente, dobbiamo pensare di più a spiegare i nostri concetti alle persone con disabilità
Aksakal

4
Non è necessario utilizzare una trama. In effetti, per la regressione lineare multipla (regressione con molti predittori) non è possibile tracciare uno spazio dimensionale . Tuttavia, l'algebra lineare funziona ancora. Tutte le formule di algebra lineare coinvolte nella regressione lineare possono essere ridotte a operazioni su semplici numeri scalari. Non vorrai farlo in questo modo a mano se apprezzi la tua sanità mentale. p+1
congetture il

Risposte:


17

Sì, ci sei. Devi continuare a giocare con il 2333 fino a trovare quello giusto che minimizza l'errore. Ma c'è un modo matematico per trovare quello "giusto". Chiamiamo quel numero . , la somma degli errori al quadrato (SSE) è una funzione di poiché per ogni scelta di possibile calcolare la quantità di ogni stima, quadrarla e sommarli insieme.E β ββEββ

Cosa minimizza la somma totale degli errori al quadrato? Questo è solo un problema di calcolo. Prendi la derivata di per e impostala uguale a zero. Ciò fornisce un'equazione per . Verifica che la seconda derivata sia positiva per sapere che è un minimo. Quindi ottieni un'equazione per che minimizza l'errore.ββ β βEβββ

Se la ricavi in ​​questo modo, otterrai come somma. Se scrivi la forma di algebra lineare del preventivo vedrai che è la stessa cosa.β

Modifica: ecco un link ad alcune note con questo tipo di derivazione. La matematica diventa un po 'confusa, ma alla base è solo un problema di calcolo.


OH MIO DIO. Finalmente! Un modo di algebra non lineare per calcolare questo. I concetti di cui stai parlando nella tua risposta sono sopra la mia testa, ma esaminerò sicuramente i derivati ​​nel tentativo di comprendere meglio questa linea di pensiero.
Parham Doustdar,

1
Ho collegato ad alcune note che lo spiegano a un livello piuttosto elementare. Penso che qualsiasi risposta avrà bisogno di calcolo perché il modo in cui risolvi problemi come "trova il minimo di " è prendere un derivato e impostarlo uguale a zero. Intuitivamente, questo sta solo dicendo che il minimo (o massimo) di una collina sarà dove la collina è piatta (poiché la pendenza è più alta lungo il lato della collina!). Derivata = pendenza. Quindi nelle aree che cambiano inizia a causare piccoli cambiamenti in sei vicino al minimo (o al massimo. Devi assicurarti che non sia un massimo!). β EE(β)βE
Chris Rackauckas,

4
Questa idea ti porta quindi all'apprendimento automatico. Uno dei metodi di base nell'apprendimento automatico è gradiente decente. Questo in pratica si traduce in "seguire la pendenza". se continui a far rotolare la palla nella direzione in cui la collina è più ripida, colpirai un minimo. Quindi il metodo gradiente decente è quello di fare esattamente questo: scopri quale modo di cambiare fa sì che l'errore diminuisca di più e vai in quel modo! β
Chris Rackauckas,

2
Per la regressione dei minimi quadrati non è necessario eseguire un gradiente decente poiché è possibile risolvere un'equazione che è la risposta, ma ciò fornisce un buon modo di comprendere cos'è l'apprendimento automatico. Si riduce a scegliere un modo per misurare l'errore e quindi a trovare un modo per ridurre al minimo l'equazione dell'errore. Il risultato è l'equazione di stima "migliore" appresa tramite i dati. Spero che ti aiuti nel tuo percorso verso l'apprendimento automatico!
Chris Rackauckas,

10

La tua comprensione è vicina, ma ha bisogno di una certa estensione: la semplice regressione lineare sta cercando di trovare la formula che una volta che le Xdai, ti fornirà la stima più vicina Y basata su una relazione lineare tra X e Y .

Il tuo esempio di prezzi delle case, se esteso un po ', mostra perché finisci con grafici a dispersione e simili. Innanzitutto, la semplice suddivisione del prezzo per area non funziona in altri casi, come i prezzi dei terreni nella mia città natale, dove le norme sulla costruzione significano che possedere un appezzamento di terreno sul quale è possibile costruire una casa ha un valore elevato. Quindi i prezzi dei terreni non sono semplicemente proporzionali alle aree. Ogni aumento dell'area del pacco potrebbe dare lo stesso aumento del valore del pacco, ma se scendessi fino a un pacco (mitico) di area 0 ci sarebbe comunque un prezzo apparente associato che rappresenta il valore di possedere un pacco di terra che è approvato per la costruzione.

Questa è ancora una relazione lineare tra area e valore, ma c'è un'intercettazione nella relazione, che rappresenta il valore di possedere un pacco. Ciò che rende ciò tuttavia una relazione lineare è che la variazione di valore per unità di variazione dell'area, dell'inclinazione o del coefficiente di regressione, è sempre la stessa indipendentemente dalle dimensioni dell'area o del valore.

Supponiamo quindi che tu sappia già in qualche modo sia l'intercettazione che la pendenza che mettono in relazione le aree dei pacchi con il valore e confronti i valori di quella relazione lineare con i valori effettivi rappresentati dalle vendite recenti. Scoprirai che i valori previsti ed effettivi raramente coincidono mai. Queste discrepanze rappresentano gli errori nel modello e determinano una dispersione di valori attorno alla relazione prevista. Si ottiene un diagramma a dispersione di punti raggruppati attorno alla relazione in linea retta prevista tra area e valore.

Negli esempi più pratici non si conosce già l'intercettazione e la pendenza, quindi è necessario provare a stimarli dai dati. Questo è ciò che la regressione lineare cerca di fare.

Potrebbe essere meglio pensare alla regressione lineare e alla modellazione correlata dal punto di vista della stima della massima verosimiglianza , che è una ricerca dei valori dei parametri particolari nel modello che rendono i dati più probabili. È simile all'approccio della "forza bruta" che proponi nella tua domanda, ma con una misura leggermente diversa di ciò che stai cercando di ottimizzare. Con i moderni metodi di calcolo e la progettazione intelligente del modello di ricerca, è possibile farlo abbastanza rapidamente.

La stima della massima verosimiglianza può essere concettualizzata in modi che non richiedono un diagramma grafico ed è simile al modo in cui sembri già pensare. Nel caso della regressione lineare, sia la regressione dei minimi quadrati standard sia la massima probabilità forniscono le stesse stime di intercettazione e pendenza.

Pensare in termini di massima verosimiglianza ha l'ulteriore vantaggio di estendersi meglio ad altre situazioni in cui non esistono relazioni strettamente lineari. Un buon esempio è la regressione logistica in cui si tenta di stimare la probabilità che si verifichi un evento in base alle variabili predittive. Ciò può essere realizzato con la massima probabilità, ma a differenza della regressione lineare standard non esiste una semplice equazione che produce l'intercettazione e le pendenze nella regressione logistica.


1
x2

@fcop hai ragione. Stavo partendo dall'esempio fornito dal PO, che presentava una proporzionalità tra valori e aree. Tendo a pensare ai valori trasformati delle variabili predittive originali come alle effettive variabili indipendenti nella regressione quando vengono utilizzate trasformazioni come potenze o registri. Penso che ciò finisca in pratica principalmente come una differenza nella terminologia, sebbene vi siano differenze nei modelli di errore implicito.
EdM

Vedo il tuo punto, comunque, è stata una buona risposta (+1)

7

Innanzitutto i miei complimenti. È difficile per tutti lottare con le statistiche (io sono un medico, quindi puoi indovinare quanto sia difficile per me) ...

Non posso proporre una spiegazione visiva della regressione lineare , ma qualcosa di molto vicino: una spiegazione tattile della regressione lineare .

Immagina di entrare in una stanza da una porta. La stanza ha più o meno una forma quadrata e la porta si trova nell'angolo in basso a sinistra. Desideri raggiungere la stanza successiva, la cui porta ti aspetti sarà nell'angolo in alto a destra, più o meno. Immagina di non poter dire esattamente dove si trova la porta accanto (mai!), Ma ci sono alcune persone sparse nella stanza e possono dirti quale doveva andare. Neanche loro possono vedere, ma possono dirti cosa c'è vicino a loro. Il percorso finale che seguirai per raggiungere la porta successiva, guidato da questa gente, è analogo a una linea di regressione, che minimizza la distanza tra queste persone e ti porta verso la porta, vicino (se non su) al percorso corretto.


1
(+1) Mi piace molto il tuo esempio ed è divertente che per pura coincidenza abbiamo usato illustrazioni molto simili per questo problema!
Tim

"La stanza ha più o meno una forma quadrata" - che cos'è la piazza per i non vedenti? Con questa frase ci riporta al punto di partenza.
Aksakal,

4
Non sono d'accordo Lascia che camminino di 10 piedi in una direzione, quindi lasciali girare di 90 ° (come un braccio) e lasciali camminare di nuovo di 10 piedi. È un quadrato se non riesci a vedere correttamente.
Joe_74

@ GiuseppeBiondi-Zoccai, se sto costruendo un modello di pressione nella camera sulla temperatura, perché dovrei richiamare quadrati e linee e altri concetti spaziali? È sicuramente conveniente se non sei cieco, ma per un cieco queste analogie spaziali non portano nulla sul tavolo per il problema in questione, complicano solo l'esposizione
Aksakal

2
Ancora una volta, sono educatamente in disaccordo ... la mia ipotesi è sempre stata che i ciechi abbiano sviluppato abilità spaziali tattili particolarmente. Ad ogni modo, qualsiasi esempio che funzioni bene, e più è bello.
Joe_74

3

YX

Y=β0+β1X+ε

β0yx

Xvariabile, ovvero l'area della casa, in tre gruppi: case "piccole", "medie" e "grandi" (descrivono come prendere in modo ottimale tale decisione, ma questo è di minore importanza). Quindi, calcola la dimensione media della casa "piccola" e la dimensione media della casa "grande". Calcola anche il prezzo medio della casa "piccola" e di quella "grande". Ora, riduci i tuoi dati a due punti: i centri delle nuvole di punti dati per case piccole e grandi sparsi nello spazio e rimuovi tutti i punti dati su case "medie". Ti rimangono due punti nello spazio bidimensionale. La linea di regressione è la linea che collega i punti: puoi pensarla come una direzione da un punto all'altro. β1

Lo stesso accade quando abbiamo più punti, sparsi nello spazio: la linea di regressione trova la sua strada minimizzando la sua distanza quadrata da ogni punto. Quindi la linea passa esattamente attraverso il centro della nuvola di punti sparsi nello spazio. Invece di collegare due punti, puoi immaginarlo come un numero illimitato di punti centrali.


Gelman, A., & Park, DK (2012). Dividere un predittore nel quarto o terzo superiore e nel quarto o terzo inferiore. The American Statistician, 62 (4), 1-8.


3

La risposta breve è sì. Quale linea passa meglio attraverso il centro di tutti i punti che comprendono la totalità o solo la superficie di un aeroplano o di un giavellotto? Disegnalo; nella tua testa o in una foto. Stai cercando e quella linea solitaria da cui ogni punto (di interesse, che tu li pianifichi o meno) che contribuirebbe alla deviazione minima (tra i punti) totale da quella linea. Se lo fai ad occhio, implicitamente dal buon senso, approssimerai (notevolmente bene) un risultato calcolato matematicamente. Per questo ci sono formule che infastidiscono l'occhio e potrebbero non avere buon senso. In simili problemi formalizzati in ingegneria e scienza, gli scatter invitano ancora una valutazione preliminare a occhio, ma in quelle arene si suppone che si verifichi una probabilità "di prova" che una linea sia la linea. Da lì scende. Però, apparentemente stai cercando di insegnare a una macchina a dimensionare (in effetti) i limiti e i limiti di (a) un grande cortile e (b) il bestiame sparso al suo interno. Se dai alla tua macchina ciò che equivale a un'immagine (grafica, algebrica) dei beni immobili e degli occupanti, dovrebbe essere in grado di capire (linea mediana che divide ordinatamente il blob in due, calcolare il discatter in una linea) cosa vuoi che faccia. Qualsiasi manuale di statistica decente (chiedi agli insegnanti o ai professori di nominarne più di uno) dovrebbe in primo luogo indicare sia l'intero punto della regressione lineare, sia il modo in cui farlo nei casi più semplici (che vanno dai casi non semplici). Un numero di salatini più tardi, lo avrai giù pat. Se dai alla tua macchina ciò che equivale a un'immagine (grafica, algebrica) dei beni immobili e degli occupanti, dovrebbe essere in grado di capire (linea mediana che divide ordinatamente il blob in due, calcolare il discatter in una linea) cosa vuoi che faccia. Qualsiasi manuale di statistica decente (chiedi agli insegnanti o ai professori di nominarne più di uno) dovrebbe in primo luogo indicare sia l'intero punto della regressione lineare, sia il modo in cui farlo nei casi più semplici (che vanno dai casi non semplici). Un numero di salatini più tardi, lo avrai giù pat. Se dai alla tua macchina ciò che equivale a un'immagine (grafica, algebrica) dei beni immobili e degli occupanti, dovrebbe essere in grado di capire (linea mediana che divide ordinatamente il blob in due, calcolare il discatter in una linea) cosa vuoi che faccia. Qualsiasi manuale di statistica decente (chiedi agli insegnanti o ai professori di nominarne più di uno) dovrebbe in primo luogo indicare sia l'intero punto della regressione lineare, sia il modo in cui farlo nei casi più semplici (che vanno dai casi non semplici). Un numero di salatini più tardi, lo avrai giù pat. Qualsiasi manuale di statistica decente (chiedi agli insegnanti o ai professori di nominarne più di uno) dovrebbe in primo luogo indicare sia l'intero punto della regressione lineare, sia il modo in cui farlo nei casi più semplici (che vanno dai casi non semplici). Un numero di salatini più tardi, lo avrai giù pat. Qualsiasi manuale di statistica decente (chiedi agli insegnanti o ai professori di nominarne più di uno) dovrebbe in primo luogo indicare sia l'intero punto della regressione lineare, sia il modo in cui farlo nei casi più semplici (che vanno dai casi non semplici). Un numero di salatini più tardi, lo avrai giù pat.


In riferimento al commento di Silverfish al mio post supra (non sembra altro che aggiungere un commento a quel commento), sì, l'OP è cieco, sta imparando l'apprendimento automatico e ha richiesto praticità senza grafici o grafici, ma suppongo che è in grado di distinguere la "visualizzazione" dalla "visione", visualizza e ha immagini vere nella sua testa, e ha un'idea di base di ogni tipo di fisico negli oggetti del mondo che lo circonda (case, tra gli altri), quindi può ancora " disegna "sia matematicamente che altrimenti nella sua testa, e probabilmente può mettere una buona parvenza di 2D e 3D su carta. Una vasta gamma di libri e altri testi al giorno d'oggi è disponibile in Braille fisico e in voce elettronica sul proprio computer (come forum, dizionari, ecc.), e molte scuole per non vedenti hanno curricula abbastanza completi. Anziché l'aereo o il giavellotto, il divano o la canna non sarebbero necessariamente i più appropriati e probabilmente sono disponibili testi statistici. È meno preoccupato per il modo in cui le macchine potrebbero imparare a tracciare, rappresentare graficamente o calcolare la regressione, quindi per come le macchine potrebbero imparare a fare qualcosa di equivalente (e più semplice) al fine di comprendere la regressione (se una macchina potrebbe visualizzarla, reagire ad essa, seguire esso, evitalo o altro). La spinta essenziale (sia per gli studenti non vedenti che per quelli vedenti) è ancora come visualizzare ciò che può essere non visivo (come il concetto di linearità piuttosto che l'istanza di una linea tracciata, sin da prima di Euclide e Pitagora) e come visualizzare il scopo di base di un tipo speciale di linearità (regressione, il cui punto base si adatta meglio alla minima deviazione, sin dagli inizi in matematica e statistica). L'output di regressione Fortran di una lineprinter è appena "visivo" fino a quando non viene assimilato mentalmente, ma anche il punto base di regressione è immaginario (una linea che non è presente finché non viene creata per uno scopo).


2
Forse sto fraintendendo questa risposta, ma "disegnare, nella tua testa o su una foto" sembra in qualche modo mancare il punto della domanda: la domanda originale è posta da qualcuno che è completamente cieco, e quindi alla ricerca di un non- modo visivo di avvicinarsi alla regressione.
Silverfish

@Silverfish Response (troppo tempo per un commento) è stato modificato nella risposta sopra

Grazie. Ho pensato che il downvote fosse un po 'duro (non sono stato io) ma alcune delle scelte linguistiche in questa risposta sono state sfortunate (ad esempio ci sono molti riferimenti a fare le cose "ad occhio"). Tuttavia, posso capire perché vorresti distinguere tra percezione visiva e cosa può essere visualizzato attraverso "l'occhio della mente".
Silverfish

2
Posso visualizzare le cose nella mia mente. È solo che non uso gli stessi modi di visualizzazione. Non si tratta di non usare drawo visualize. Si tratta solo di usare il concetto per derivare la visualizzazione, piuttosto che il contrario. Ho scoperto che ciò accade in molti luoghi della matematica. Per spiegare un argomento difficile, di solito vengono utilizzate forme e immagini, piuttosto che mettere in relazione il calcolo con concetti che lo studente potrebbe conoscere dalla vita reale.
Parham Doustdar,

3

Il motivo per cui le trame sono universalmente utilizzate per introdurre una semplice regressione - una risposta prevista da un singolo predittore - è che aiutano a capire.

Tuttavia, credo di poter dare qualcosa del sapore che potrebbe aiutare a capire cosa sta succedendo. In questo mi concentrerò principalmente sul tentativo di trasmettere parte della comprensione che danno, il che può aiutare con alcuni degli altri aspetti che incontrerai in genere nella lettura della regressione. Quindi questa risposta affronterà principalmente un aspetto particolare del tuo post.

Immagina di essere seduto di fronte a un grande tavolo rettangolare come una semplice scrivania da ufficio, uno lungo un braccio (forse 1,8 metri), forse la metà così largo.

Ti siedi davanti al tavolo nella solita posizione, nel mezzo di un lato lungo. Su questo tavolo un gran numero di unghie (con teste abbastanza lisce) sono state martellate nella superficie superiore in modo che ognuna sporga un po '(abbastanza per sentire dove si trovano e abbastanza per legare una corda o attaccare un elastico ).

Questi chiodi si trovano a varie distanze dal bordo della scrivania, in modo tale che verso un'estremità (diciamo l'estremità sinistra) siano in genere più vicini al bordo della scrivania e quindi mentre si spostano verso l'altra estremità le teste delle unghie tende ad essere più lontano dal tuo limite.

Immagina inoltre che sarebbe utile avere un'idea di quanto in media le unghie siano dal tuo bordo in qualsiasi posizione lungo il tuo bordo.

Scegli un posto lungo il bordo della scrivania e posiziona la mano lì, quindi allunga la mano in avanti direttamente attraverso il tavolo, trascinando delicatamente la mano direttamente indietro verso di te, quindi allontanandola di nuovo, spostando la mano avanti e indietro sulle teste delle unghie. Incontrate diverse dozzine di protuberanze da queste unghie - quelle all'interno di quella stretta larghezza della mano (mentre si allontana direttamente dal bordo, a distanza costante dall'estremità sinistra della scrivania), una sezione o una striscia, larga circa dieci centimetri .

L'idea è quella di capire una distanza media di un chiodo dal bordo della scrivania in quella piccola sezione. Intuitivamente è solo la metà dei dossi che colpiamo, ma se misurassimo ogni distanza da un chiodo in quella sezione larga della scrivania, potremmo calcolare facilmente quelle medie.

Ad esempio, potremmo usare un quadrato a T la cui testa scivola lungo il bordo della scrivania e il cui asta corre verso l'altro lato della scrivania, ma appena sopra la scrivania in modo da non colpire i chiodi mentre scivola a sinistra o a destra - quando passiamo un determinato chiodo possiamo ottenere la sua distanza lungo l'albero del quadrato a T.

Quindi, a una progressione di posti lungo il nostro bordo, ripetiamo questo esercizio di trovare tutte le unghie in una striscia di larghezza della mano che corre verso e lontano da noi e di trovare la loro distanza media. Forse dividiamo la scrivania in strisce larghe a mano lungo il bordo (quindi ogni chiodo si incontra esattamente in una striscia).

Ora immagina che dicessero 21 strisce di questo tipo, la prima sul bordo sinistro e l'ultima sul bordo destro. I mezzi si allontanano ulteriormente dalla nostra scrivania mentre avanziamo attraverso le strisce.

Questi mezzi formano un semplice stimatore della regressione non parametrica dell'aspettativa di y (la nostra distanza) data x (distanza lungo il nostro bordo dall'estremità sinistra), cioè E (y | x). In particolare, si tratta di uno stimatore della regressione non parametrica, chiamato anche regressogramma

Se quelle strisce significano un aumento regolare - cioè, la media stava generalmente aumentando di circa la stessa quantità per striscia di come ci siamo spostati attraverso le strisce - allora potremmo meglio stimare la nostra funzione di regressione assumendo che il valore atteso di y fosse un lineare funzione di x - ovvero che il valore atteso di y dato x fosse una costante più un multiplo di x. Qui la costante rappresenta dove le unghie tendono a trovarsi quando a x è zero (spesso potremmo posizionarlo all'estremità sinistra ma non deve essere), e il multiplo particolare di x è la velocità media media cambia mentre ci spostiamo di un centimetro (diciamo) a destra.

Ma come trovare una funzione così lineare?

Immagina di avvolgere un elastico su ogni testa di unghia e di attaccare ciascuno a un lungo bastone sottile che si trova appena sopra la scrivania, sopra le unghie, in modo che si trovi da qualche parte vicino al "centro" di ogni striscia che eravamo stati per.

Fissiamo le fasce in modo tale che si estendano solo nella direzione verso e lontano da noi (non a sinistra o a destra) - a sinistra a se stesse si tirerebbero in modo da fare la loro direzione di allungamento ad angolo retto con il bastone, ma qui lo impediamo, in modo che la loro direzione di allungamento rimanga solo nelle direzioni verso o lontano dal nostro bordo della scrivania. Ora lasciamo che il bastoncino si stabilizzi mentre le fasce lo tirano verso ogni unghia, con chiodi più distanti (con elastici più allungati) che tirano corrispondentemente più duramente rispetto ai chiodi vicino al bastoncino.

Quindi il risultato combinato di tutte le fasce che tirano il bastone sarebbe (idealmente, almeno) di tirare il bastone per minimizzare la somma delle lunghezze quadrate degli elastici allungati; in quella direzione direttamente attraverso il tavolo, la distanza dal nostro bordo del tavolo allo stick in una data posizione x sarebbe la nostra stima del valore atteso di y dato x.

Questa è essenzialmente una stima di regressione lineare.

Ora, immagina che al posto delle unghie abbiamo molti frutti (come forse piccole mele) che pendono da un grande albero e desideriamo trovare la distanza media dei frutti dal suolo poiché varia con la posizione sul terreno. Immagina che in questo caso le altezze dal suolo aumentano man mano che andiamo avanti e leggermente più grandi quando ci muoviamo a destra, sempre in modo regolare, quindi ogni passo in avanti generalmente cambia l'altezza media di circa la stessa quantità, e ogni passo verso il right cambierà anche la media di un valore approssimativamente costante (ma questa quantità di cambiamento nella media che fa un passo avanti è diversa dalla quantità di cambiamento che fa un passo avanti).

Se minimizziamo la somma delle distanze verticali quadrate dai frutti su un foglio piatto sottile (forse un foglio sottile di plastica molto rigida) per capire come cambia l'altezza media mentre ci muoviamo in avanti o avanziamo a destra, sarebbe una regressione lineare con due predittori: una regressione multipla.

Questi sono gli unici due casi che le trame possono aiutare a capire (possono mostrare rapidamente ciò che ho appena descritto a lungo, ma speriamo che tu abbia una base su cui concettualizzare le stesse idee). Al di là di questi due casi più semplici, ci resta solo la matematica.

Ora prendi il tuo esempio di prezzo della casa; puoi rappresentare l'area di ogni casa a una distanza lungo il bordo della scrivania - rappresentare la dimensione della casa più grande come una posizione vicino al bordo destro, ogni altra dimensione della casa sarà una posizione più a sinistra dove un certo numero di centimetri rappresenterà un po ' numero di metri quadri. Ora la distanza rappresenta il prezzo di vendita. Rappresenta la casa più costosa come una certa distanza particolare vicino al bordo più lontano della scrivania (come sempre, il bordo più lontano dalla tua sedia), e ogni centimetro spostato rappresenterà un certo numero di Rial.

Per il momento immagina di aver scelto la rappresentazione in modo che il bordo sinistro della scrivania corrisponda a un'area della casa pari a zero e il bordo vicino a un prezzo della casa pari a 0. Abbiamo quindi inserito un chiodo per ogni casa.

Probabilmente non avremo alcun chiodo vicino all'estremità sinistra del bordo (potrebbero essere principalmente verso destra e lontano da noi) perché questa non è necessariamente una buona scelta di scala ma la tua scelta di un modello senza intercettazione rende questo un modo migliore per discuterne.

Ora nel tuo modello costringi il bastone a passare attraverso un anello di stringa nell'angolo sinistro del bordo vicino della scrivania - costringendo così il modello montato ad avere un prezzo zero per l'area zero, che potrebbe sembrare naturale - ma immagina se ci sono alcune componenti del prezzo abbastanza costanti che hanno influenzato ogni vendita. Quindi avrebbe senso avere l'intercetta diversa da zero.

In ogni caso, con l'aggiunta di quel ciclo, lo stesso esercizio con l'elastico di prima troverà la nostra stima dei minimi quadrati della linea.


Wow, grazie per questa lunga risposta spaziale. Spiegava molto. Grazie.
Parham Doustdar,

2

Hai incontrato il tipo di tostapane che ottieni spesso negli hotel. Metti il ​​pane su un nastro trasportatore a un'estremità e ne esce come brindisi dall'altra. Sfortunatamente, nel tostapane di questo hotel economico, i riscaldatori sono stati tutti spostati ad altezze e distanze casuali dall'ingresso al tostapane. Non è possibile spostare i riscaldatori o piegare il percorso della cinghia (che è dritto, tra l'altro (qui è dove entra la punta lineare), ma è possibile modificare l'altezza e l'inclinazione della cinghia.

Date le posizioni di tutti i riscaldatori, la regressione lineare ti dirà l'altezza e l'angolazione corrette per posizionare la cinghia per ottenere il massimo calore complessivo. Questo perché la regressione lineare minimizzerà la distanza media tra il toast e i riscaldatori.

Il mio primo lavoro durante le vacanze era fare regressioni lineari a mano. Il ragazzo che ha detto che non vuoi farlo è GIUSTO !!!


2

La mia spiegazione preferita della regressione lineare è geometrica, ma non visiva. Tratta il set di dati come un singolo punto in uno spazio ad alta dimensione, piuttosto che suddividerlo in una nuvola di punti in uno spazio bidimensionale.

ap(a,p)a1,,a1000p1,,p1000

D=(a1,,a1000,p1,,p1000)
D

D

M(ρ,β)=(a1,,a1000,ρa1+β,,ρa1000+β).
ρβa1,,a1000ρβ

DM(ρ,β)D

DM(ρ,β)

[p1(ρa1+β)]2++[p1000(ρa1000+β)]2.
In altre parole, la distanza tra il punto dati e il punto del modello è l'errore quadrato totale del modello! Ridurre al minimo l'errore al quadrato totale di un modello equivale a minimizzare la distanza tra il modello e i dati nello spazio dati.

ρβDM(ρ,β)


1

Le risposte di @Chris Rackauckas e @ EDM sono esatte. Esistono molti modi per affrontare la regressione lineare semplice che non richiede la rappresentazione grafica o spiegazioni visive della stima dei minimi quadrati ordinari e forniscono spiegazioni molto solide di ciò che accade effettivamente quando si esegue OLS.

Potrei aggiungere che l'utilizzo di scatterplots come strumento di istruzione per apprendere qualsiasi tipo di nuova procedura di modellazione, che si tratti di un modello parametrico di vecchia scuola, materiale avanzato di machine learning o algoritmi bayesiani, la rappresentazione grafica può aiutare a ridurre il tempo necessario per imparare ciò che un particolare l'algoritmo lo fa.

La rappresentazione grafica è anche molto importante per l'analisi dei dati esplorativi quando si inizia a lavorare con un nuovo set di dati. Ho avuto situazioni in cui ho raccolto molti dati, elaborato la teoria, pianificato con cura il mio modello e poi eseguito, solo per finire con risultati che essenzialmente non avevano alcun potere predittivo. Tracciare relazioni bivariate può eliminare alcune delle congetture: nel tuo esempio, è possibile che il prezzo della casa sia linearmente correlato all'area, ma forse la relazione non è lineare. Gli scatterplots ti aiutano a decidere se hai bisogno di termini di ordine superiore nella tua regressione, o se vuoi usare un metodo diverso dalla regressione lineare, o se vuoi usare una sorta di metodo non parametrico.


1

Quartetto Google per Anscombe.

Mostra 4 serie di dati che sull'ispezione numerica non mostrano molta differenza.

Tuttavia, creando un grafico a dispersione visiva, le differenze diventano drammaticamente visibili.

Dà una visione abbastanza chiara del perché dovresti sempre tracciare i tuoi dati, la regressione o nessuna regressione :-)


0

Vogliamo avere una soluzione che minimizzi la differenza tra i valori previsti e quelli effettivi.

y=bx+a

yy

Se assumiamo che la distribuzione degli errori sia normalmente distribuita, si scopre che esiste una soluzione analitica a questo problema di minimizzazione. La somma dei quadrati delle differenze è il valore migliore da minimizzare per una migliore vestibilità. Ma la normalità non è richiesta nel caso generale.

Non c'è molto altro.

y=bx+a

Oggi è lasciato più come un aiuto alla comprensione, ma non è necessario comprendere davvero la regressione lineare.

EDIT: sostituito la normalità dell'assunzione di errori con un elenco corretto ma meno conciso. La normalità doveva avere una soluzione analitica e può essere assunta per molti casi pratici e in tal caso la somma dei quadrati è ottimale non solo per lo stimatore lineare e massimizza anche la probabilità.

Se ulteriormente l'assunzione della normalità della distribuzione dell'errore è valida, la somma dei quadrati è ottimale tra gli stimatori sia lineari che non lineari e sta massimizzando la probabilità.


1
Il presupposto della distribuzione normale non è richiesto per tutto ciò che hai descritto
Aksakal

Per favore controlla questa spiegazione stats.stackexchange.com/a/1516/98469
Diego

Il link non ha nulla a che fare con la tua risposta. Se si espande in piccole proprietà di esempio o MLE, è possibile introdurre la normale ipotesi di distribuzione, ma per come sta la descrizione OLS nella risposta non è necessaria una distribuzione normale. Infatti per minimizzare la somma dei quadrati non hai bisogno di alcuna distribuzione o statistica. È pura algebra.
Aksakal,

Il punto è sul perché stiamo minimizzando la somma dei quadrati e non qualche altra metrica. Non su come minimizzare la somma dei quadrati.
Diego,

Ridurre al minimo la somma dei quadrati non ha nulla a che fare con la distribuzione normale. È solo la tua funzione di perdita. Qualsiasi altra distribuzione di errori può essere utilizzata con questa funzione di perdita. In alcuni casi sono necessarie le distribuzioni, ad esempio se si desidera fare inferenze sui valori dei parametri in piccoli campioni, ecc. Anche in questo caso è possibile utilizzare altre distribuzioni, non sono sicuro del motivo per cui si è bloccati sul normale.
Aksakal,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.