In che modo l'interpolazione è collegata al concetto di regressione?


17

Spiega brevemente Cosa si intende per interpolazione. In che modo è correlato al concetto di regressione?

l'interpolazione è arte della lettura tra le righe di una tabella e nella matematica elementare il termine indica solitamente il processo di calcolo dei valori intermedi di una funzione da un insieme di valori dati o tabulari di quella funzione.

Non posso dare la risposta alla seconda domanda. Per favore aiuto


4
La regressione mira a identificare una funzione per descrivere il valore atteso di (la variabile dipendente) dato X (le variabili indipendenti). Interpolazione utilizza regressione per predire il valore di Y a valori prefissati di X . La differenza è sottile ma viene alla ribalta nei modelli in cui le Y sono correlate, perché i valori previsti in genere differiscono dai loro valori di regressione. Né regressione né previsione si applicano direttamente all'interpolazione in tabelle matematiche, che di solito si presume non abbiano errori casuali, ma i loro algoritmi possono ancora essere utilizzati. YXYXY
susseguono

2
Questo lavoro è per qualche lezione?
Glen_b

Risposte:


23

La differenza principale tra interpolazione e regressione è la definizione del problema che risolvono.

Dato punti dati, quando interpoli, cerchi una funzione che abbia una forma predefinita che abbia i valori in quei punti esattamente come specificato. Ciò significa che date le coppie ( x i , y i ) cerchi F di una forma predefinita che soddisfa F ( x i ) = y i . Penso che più comunemente F sia scelto per essere polinomiale, spline (polinomi di basso grado su intervalli tra punti dati).n(Xio,yio)FF(Xio)=yioF

Quando esegui la regressione, cerchi una funzione che riduca al minimo alcuni costi, in genere la somma dei quadrati di errori. Non hai bisogno che la funzione abbia i valori esatti in determinati punti, vuoi solo una buona approssimazione. In generale, la funzione trovata potrebbe non soddisfare F ( x i ) = y i per qualsiasi punto dati, ma la funzione di costo, ovvero n i = 1 ( F ( x i ) - y i ) 2FF(xi)=yii=1n(F(xi)yi)2 sarà la più piccola possibile di tutte le funzioni di una determinata forma.

Un buon esempio del motivo per cui potresti voler solo approssimare invece di interpolare sono i prezzi sul mercato azionario. Puoi prendere i prezzi in qualche k unità di tempo recenti e provare a interpolarli per ottenere una previsione del prezzo nella successiva unità di tempo. Questa è piuttosto una cattiva idea, perché non c'è motivo di pensare che le relazioni tra i prezzi possano essere espresse esattamente da un polinomio. Ma la regressione lineare potrebbe fare il trucco, poiché i prezzi potrebbero avere una certa "pendenza" e una funzione lineare potrebbe essere una buona approssimazione, almeno a livello locale (suggerimento: non è così facile, ma la regressione è sicuramente un'idea migliore dell'interpolazione in questo caso ).


Bella risposta. Vorrei aggiungere che con la regressione, c'è un modello statistico dietro che definisce la relazione tra e X in termini di una certa distribuzione, in cui stimiamo che sia media (o mediana, o quantili ecc. In diversi gusti di regressione), ad esempio stats .stackexchange.com / questions / 173660 /…YX
Tim

L'esempio che hai descritto non sarebbe l'estrapolazione piuttosto che l'interpolazione?
bi_scholar,

6

Le due risposte precedenti hanno spiegato la relazione tra interpolazione lineare e regressione lineare (o anche interpolazione generale e regressione polinomiale). Ma una connessione importante è che una volta adattato un modello di regressione, è possibile utilizzarlo per interpolare tra i punti dati dati.


Quindi quando regredisco, per esempio, all'altezza rispetto al genere, posso interpolare per trovare l'altezza prevista di un mezzo maschio e metà femmina! Questo esempio fantasioso evidenzia il difetto di base in questa risposta, che è il presupposto che tutti i regressori in un modello di regressione debbano essere variabili continue.
whuber

2
La mia risposta si applica quando tutte le variabili predittive sono continue ..
Michael R. Chernick,

4

Speriamo che questo arrivi piuttosto rapidamente con un semplice esempio e visualizzazione.

Supponiamo di avere i seguenti dati:

X  Y
1  6
10 15
20 25
30 35
40 45
50 55

Possiamo usare la regressione per modellare Y come risposta a X. Usando R: lm(y ~ x)

I risultati sono un'intercetta di 5 e un coefficiente di x di 1. Il che significa che una Y arbitraria può essere calcolata per una data X come X + 5. Come immagine, puoi vedere in questo modo:

enter image description here

Notate come se andaste sull'asse X, ovunque lungo esso, e tracciate una linea fino alla linea adattata, quindi tracciate una linea sull'asse Y, potete ottenere un valore, indipendentemente dal fatto che abbia fornito o meno un punto valore per Y. La regressione si sta livellando su aree senza dati stimando la relazione sottostante.


2

la differenza di base in b / n Interpolazione e regressione è la seguente: Interpolazione: supponiamo che ci siano n punti (es: 10 punti dati), nell'interpolazione ci adatteremo alla curva che passa attraverso tutti i punti dati (cioè qui 10 punti dati) con un grado del polinomio (n. di punti dati -1; cioè qui è 9). dove come nella regressione non tutti i dati indicano solo un insieme di essi necessario per l'adattamento della curva.

generalmente l'ordine di Interpolazione e regressione sarà (1,2 o 3) se l'ordine è superiore a 3, nella curva si vedranno più oscillazioni.


2
Ciò implica che l'interpolazione si basa su polinomi, ma ci sono molti altri metodi, come la spline cubica, l'ermite cubica a tratti, il vicino più vicino, ecc.
Nick Cox

@Nick Sebbene tu abbia ragione, è curioso che ogni metodo che dai in realtà sia basato su polinomi! Forse l'interpolatore non polinomiale più semplice e più noto è la ponderazione a distanza inversa (IDW).
whuber

@whuber Concordato; se i polinomi possono essere applicati con vincoli, la maggior parte dei metodi si qualifica, ad es. vicino più vicino = costante a tratti, ecc.
Nick Cox

2

La regressione è il processo per trovare la linea più adatta [1]. L'interpolazione è il processo di utilizzo della linea della migliore misura per stimare il valore di una variabile dal valore di un'altra, a condizione che il valore che si sta utilizzando rientri nell'intervallo dei dati. Se è al di fuori dell'intervallo, allora useresti Extrapolation [1].

[1] http://mathhelpforum.com/advanced-applied-math/182558-interpolation-vs-regression.html


2
Questa risposta non distingue l'interpolazione dall'estrapolazione. Credi che siano la stessa cosa? A proposito, i forum di matematica (e anche i libri di testo e gli articoli) in genere non sono buone fonti di informazioni su questioni statistiche, perché tendono a concentrarsi su significati matematici ristretti che, sebbene corretti e utili in applicazioni puramente matematiche, potrebbero non applicarsi più ampiamente .
whuber

1

Con l'interpolazione o l'adattamento spline, ciò che otteniamo è un dato numerico (scommessa interpolata tra ogni coppia di dati originali) di dimensioni maggiori, che quando tracciato genera l'effetto di una curva regolare. In realtà, tra ciascuna coppia di dati originali viene inserito un diverso polinomio, quindi l'intera curva dopo l'interpolazione è una curva continua saggia, in cui ogni pezzo è formato da un diverso polinomio.

Se si sta cercando una rappresentazione parametrica dei dati numerici originali, è necessario eseguire la regressione. Puoi anche provare ad adattare un polinomio di alto grado alla spline. In ogni caso, la rappresentazione sarà un'approssimazione. Puoi anche verificare la precisione dell'approssimazione.


Sembra che tu non abbia ancora avuto la possibilità di leggere il commento di Nick Cox , che sottolinea che non tutti gli interpolatori sono polinomi (locali).
whuber

0

Sia la regressione che l'interpolazione vengono utilizzate per prevedere i valori di una variabile (Y) per un dato valore di un'altra variabile (X). In Regressione possiamo prevedere qualsiasi valore della variabile dipendente (Y) per un dato valore della variabile indipendente (X) Anche se è al di fuori dell'intervallo dei valori tabulati, ma in caso di interpolazione possiamo solo prevedere i valori della variabile dipendente (Y) per un valore di variabile indipendente (X) che rientra nell'intervallo di valori dati di X.


0

L'interpolazione è il processo di adattamento di un numero di punti tra x = a e x = b esattamente a un polinomio interpolante. L'interpolazione può essere utilizzata per trovare il valore approssimativo (o il valore mancante) di y nel dominio x = [a, b] con una precisione maggiore rispetto alla tecnica di regressione.

D'altra parte, la regressione è un processo di adattamento di un numero di punti a una curva che passa attraverso o vicino ai punti con un minimo errore al quadrato. La regressione non approssimerà il valore di y nel dominio x = [a, b] accurato come l'interpolazione, tuttavia la regressione fornisce previsioni migliori dell'interpolazione per i valori di y nel dominio tra x = (- infinito, a) e x = ( b, + infinito).

In sintesi, l'interpolazione fornisce una migliore accuratezza nel valore di y all'interno del dominio di un intervallo x noto mentre la regressione fornisce migliori previsioni di y nel dominio sottostante e oltre l'intervallo noto di x.


3
Non è una definizione di interpolazione che viene utilizzato un polinomio. Altre funzioni regolari potrebbero essere appropriate.
Nick Cox,

3
Ci sono altri problemi con i tuoi reclami. Ad esempio, la regressione può essere più accurata dell'interpolazione. La distinzione statistica tra le due procedure è abbastanza diversa da ciò che rappresenti: vedi gli altri post in questa discussione.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.