Estrapolazione v. Interpolazione


28

Qual è la differenza tra estrapolazione e interpolazione e qual è il modo più preciso di usare questi termini?

Ad esempio, ho visto una dichiarazione in un documento usando l'interpolazione come:

"La procedura interpola la forma della funzione stimata tra i punti bin"

Una frase che utilizza sia l'estrapolazione che l'interpolazione è, ad esempio:

Il passaggio precedente in cui estrapolavamo la funzione interpolata usando il metodo Kernel alle code di temperatura sinistra e destra.

Qualcuno può fornire un modo chiaro e semplice per distinguerli e guidare come utilizzare correttamente questi termini con un esempio?




@ usεr11852 Penso che le due domande coprano un terreno simile ma sono diverse perché questa chiede il contrasto con l'interpolazione.
mkt - Ripristina Monica il

Questa distinzione tra interpolazione ed estrapolazione è stata formalizzata rigorosamente in un modo generalmente concordato, (ad esempio tramite scafi convessi) o questi termini sono ancora soggetti al giudizio e all'interpretazione umani?
Nick Alger, il

Risposte:


51

Per aggiungere una spiegazione visiva a questo: consideriamo alcuni punti che prevedi di modellare.

inserisci qui la descrizione dell'immagine

Sembrano che potrebbero essere descritti bene con una linea retta, quindi si adatta una regressione lineare a loro:

inserisci qui la descrizione dell'immagine

Questa linea di regressione consente sia di interpolare (generare valori previsti tra i punti di dati) sia di estrapolare (generare valori previsti al di fuori dell'intervallo dei punti di dati). Ho evidenziato l'estrapolazione in rosso e la più grande regione di interpolazione in blu. Per essere chiari, anche le minuscole regioni tra i punti sono interpolate, ma sto solo evidenziando quella grande qui.

inserisci qui la descrizione dell'immagine

Perché l'estrapolazione è generalmente più preoccupante? Perché di solito sei molto meno sicuro della forma della relazione al di fuori dell'intervallo dei tuoi dati. Considera cosa potrebbe accadere quando raccogli altri punti dati (cerchi vuoti):

inserisci qui la descrizione dell'immagine

Si scopre che la relazione non è stata catturata bene con la tua ipotetica relazione dopo tutto. Le previsioni nell'area estrapolata sono molto lontane. Anche se avessi indovinato la funzione precisa che descrive correttamente questa relazione non lineare, i tuoi dati non si sono estesi su un intervallo sufficiente per catturare bene la non linearità, quindi potresti essere stato piuttosto lontano. Si noti che questo è un problema non solo per la regressione lineare, ma per qualsiasi relazione - ecco perché l'estrapolazione è considerata pericolosa.

Anche le previsioni nella regione interpolata sono errate a causa della mancanza di non linearità nell'adattamento, ma il loro errore di previsione è molto più basso. Non vi è alcuna garanzia che non si avrà una relazione inaspettata tra i punti (ovvero la regione di interpolazione), ma è generalmente meno probabile.


Aggiungerò che l'estrapolazione non è sempre un'idea terribile: se estrapoli un po 'fuori dall'intervallo dei tuoi dati, probabilmente non sbaglierai (anche se è possibile!). Gli antichi che non avevano un buon modello scientifico del mondo non si sarebbero sbagliati se avessero previsto che il sole sarebbe sorto di nuovo il giorno successivo e quello successivo (anche se un giorno lontano nel futuro, anche questo fallirà).

E a volte, estrapolazione può anche essere informativo - per esempio, semplici estrapolazioni a breve termine della crescita esponenziale di CO atmosferica sono stati ragionevolmente accurata nel corso degli ultimi decenni. Se tu fossi uno studente che non aveva esperienza scientifica ma desiderava una previsione approssimativa a breve termine, questo avrebbe dato risultati abbastanza ragionevoli. Ma più lontano dai tuoi dati estrapoli, più è probabile che la tua previsione fallisca e fallisca in modo disastroso, come descritto molto bene in questo grande thread: Cosa c'è di sbagliato nell'estrapolazione? (grazie a @JMisnotastatistician per avermelo ricordato).2

Modifica in base ai commenti: interpolazione o estrapolazione, è sempre meglio avere una teoria per fondare le aspettative. Se si deve fare un modello privo di teoria , il rischio di interpolazione è generalmente inferiore a quello dell'estrapolazione. Ciò detto, con l'aumentare del divario tra i punti di dati, anche l'interpolazione diventa sempre più irta di rischi.


5
Mi piace la tua risposta e la considero complementare alla mia e in nessun modo in competizione. Ma un piccolo punto, importante per alcuni lettori, è che il rosso e il verde sono difficili da distinguere visivamente per un bel po 'di persone.
Nick Cox,

1
@NickCox Un buon punto, grazie per averlo sollevato: ora ho cambiato la combinazione di colori.
mkt - Ripristina Monica il

1
@leftaroundabout Il mio punto era che il modello della curva di Keeling è così forte che le estrapolazioni che ignorano l'economia e la fisica sono ancora ragionevolmente accurate sulla scala degli anni o di alcuni decenni. Ho notato "decenni scorsi" proprio perché questa è la scala temporale su cui abbiamo avuto misurazioni ad alta risoluzione. Questo è un esempio in cui l'estrapolazione non ti avrebbe portato molto male e penso che valga la pena notare. Penso che ci vorrebbe una cattiva lettura intenzionale per affermare che questa risposta sta sostenendo l'estrapolazione senza teoria.
mkt - Ripristina Monica il

1
Allo stesso modo, ho dato l'esempio di tacchino di Taleb in questa risposta come avvertimento per le persone che usano l'estrapolazione.
JM non è uno statistico il

1
L'estrapolazione è particolarmente problematica in caso di eccesso di adattamento; con un modello polinomiale, ad esempio, andare significativamente al di fuori del set di dati comporterà l'esplosione del termine di ordine più elevato.
Accumulazione il

21

In sostanza, l' interpolazione è un'operazione all'interno del supporto dati o tra punti dati noti esistenti; l'estrapolazione va oltre il supporto dei dati . Altrimenti, il criterio è: dove sono i valori mancanti?

Uno dei motivi della distinzione è che l'estrapolazione è di solito più difficile da fare bene, e persino pericolosa, statisticamente se non praticamente. Ciò non è sempre vero: ad esempio, le alluvioni fluviali possono sopraffare i mezzi di misurazione dello scarico o persino dello stadio (livello verticale), lacerando un buco nella registrazione misurata. In tali circostanze, anche l'interpolazione della dimissione o della fase è difficile ed essere all'interno del supporto dati non aiuta molto.

A lungo termine, il cambiamento qualitativo di solito sostituisce il cambiamento quantitativo. Intorno al 1900 c'era molta preoccupazione che la crescita del traffico trainato da cavalli avrebbe inondato le città con escrementi per lo più indesiderati. L'esponenziale negli escrementi fu sostituito dal motore a combustione interna e dai suoi diversi esponenziali.

Una tendenza è una tendenza è una tendenza,
ma la domanda è: si piegherà?
Cambierà il suo corso
attraverso una forza imprevista
e giungerà a una fine prematura?

- Alexander Cairncross

Cairncross, A. 1969. Previsioni economiche. The Economic Journal , 79: 797-812. doi: 10.2307 / 2229792 (citazione a p. 797)


1
Buona risposta. L'interpretazione è proprio lì nel nome: interpolazione = lisciare dentro, estrapolazione = lisciare oltre.
Nuclear Wang,

1
IMO questa è la risposta corretta. Il "supporto dati" è la parte cruciale; anche se il punto che si desidera raggiungere è compreso tra due misurati, è possibile che rimanga al di fuori del supporto dati. Ad esempio, se si dispone di dati di prosperità per le persone nell'antichità romana e dei tempi moderni, ma non nel mezzo, l'interpolazione nel Medioevo sarebbe molto problematica. Chiamerei questa estrapolazione. OTOH, se i dati sono sparsi in modo sparso ma uniforme nell'arco dell'intero arco di tempo, l'interpolazione in un determinato anno è molto più plausibile.
lasciato il

1
@leftaroundabout Solo perché l'interpolazione può essere fatta su un enorme divario nei dati non ne fa l'estrapolazione. Stai sbagliando l'opportunità della procedura per la procedura stessa. A volte anche l'interpolazione è una cattiva idea.
mkt - Ripristina Monica il

1
@mkt: andrò dalla parte di leftaroundabout che il suo primo esempio potrebbe essere considerato estrapolazione, in quanto interpolazione vs estrapolazione non è così ben definita come potremmo pensare. Una semplice trasformazione di variabili può trasformare l'interpolazione in estrapolazione. Nel suo esempio, usare qualcosa come le funzioni di distanza invece del tempo grezzo significa che mentre nel tempo grezzo stiamo interpolando, nelle distanze stiamo estrapolando ... e usare i tempi grezzi sarebbe probabilmente una cattiva idea.
Cliff AB,

1
Questa è la mia risposta Non sento il bisogno di qualificarlo. Un'ampia distinzione tra interpolazione ed estrapolazione non esclude che sia un po 'difficile decidere quale sia in corso. Se hai un grosso buco nel mezzo dello spazio dati, l'etichettatura potrebbe andare in entrambi i modi. Come sottolineato da alcuni carri, il fatto che la fine del giorno e l'inizio della notte si confondano l'uno con l'altro non rende inutile o inutile la distinzione tra giorno e notte.
Nick Cox,

12

TL; versione DR:

  • L' interazione avviene tra punti dati esistenti.
  • La polazione extra ha luogo al di là di loro.

Mnemonico: in terpolazione => in lato.

FWIW: il prefisso intercorre tra , ed extra significa oltre . Pensa anche alle autostrade interstatali che vanno tra stati o terrestri extra oltre il nostro pianeta.


1

Esempio:

Studio: vuoi inserire una semplice regressione lineare sull'altezza dell'età per le ragazze di età compresa tra 6 e 15 anni. La dimensione del campione è 100, l'età è calcolata da (data di misurazione - data di nascita) /365.25.

Dopo la raccolta dei dati, il modello viene adattato e ottiene la stima dell'intercetta b0 e della pendenza b1. significa che abbiamo E (altezza | età) = b0 + b1 * età.

Quando vuoi l'altezza media per i 13 anni, scopri che non ci sono ragazze di 13 anni nel tuo campione di 100 ragazze, una delle quali ha 12,83 anni e una ha 13,24.

Ora inserisci età = 13 nella formula E (altezza | età) = b0 + b1 * età. Si chiama interpolazione perché 13 anni è coperto dall'intervallo dei dati utilizzati per adattarsi al modello.

Se vuoi ottenere l'altezza media per i 30 anni e utilizzare quella formula, detta estrapolazione, perché l'età 30 è al di fuori dell'intervallo di età coperto dai tuoi dati.

Se il modello ha diverse covariate, è necessario fare attenzione perché è difficile tracciare il bordo coperto dai dati.

Nelle statistiche, non sosteniamo l'estrapolazione.


"Nelle statistiche, non sosteniamo l'estrapolazione". Una grande parte dell'analisi delle serie storiche fa esattamente questo ...
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.