Per aggiungere una spiegazione visiva a questo: consideriamo alcuni punti che prevedi di modellare.
Sembrano che potrebbero essere descritti bene con una linea retta, quindi si adatta una regressione lineare a loro:
Questa linea di regressione consente sia di interpolare (generare valori previsti tra i punti di dati) sia di estrapolare (generare valori previsti al di fuori dell'intervallo dei punti di dati). Ho evidenziato l'estrapolazione in rosso e la più grande regione di interpolazione in blu. Per essere chiari, anche le minuscole regioni tra i punti sono interpolate, ma sto solo evidenziando quella grande qui.
Perché l'estrapolazione è generalmente più preoccupante? Perché di solito sei molto meno sicuro della forma della relazione al di fuori dell'intervallo dei tuoi dati. Considera cosa potrebbe accadere quando raccogli altri punti dati (cerchi vuoti):
Si scopre che la relazione non è stata catturata bene con la tua ipotetica relazione dopo tutto. Le previsioni nell'area estrapolata sono molto lontane. Anche se avessi indovinato la funzione precisa che descrive correttamente questa relazione non lineare, i tuoi dati non si sono estesi su un intervallo sufficiente per catturare bene la non linearità, quindi potresti essere stato piuttosto lontano. Si noti che questo è un problema non solo per la regressione lineare, ma per qualsiasi relazione - ecco perché l'estrapolazione è considerata pericolosa.
Anche le previsioni nella regione interpolata sono errate a causa della mancanza di non linearità nell'adattamento, ma il loro errore di previsione è molto più basso. Non vi è alcuna garanzia che non si avrà una relazione inaspettata tra i punti (ovvero la regione di interpolazione), ma è generalmente meno probabile.
Aggiungerò che l'estrapolazione non è sempre un'idea terribile: se estrapoli un po 'fuori dall'intervallo dei tuoi dati, probabilmente non sbaglierai (anche se è possibile!). Gli antichi che non avevano un buon modello scientifico del mondo non si sarebbero sbagliati se avessero previsto che il sole sarebbe sorto di nuovo il giorno successivo e quello successivo (anche se un giorno lontano nel futuro, anche questo fallirà).
E a volte, estrapolazione può anche essere informativo - per esempio, semplici estrapolazioni a breve termine della crescita esponenziale di CO atmosferica sono stati ragionevolmente accurata nel corso degli ultimi decenni. Se tu fossi uno studente che non aveva esperienza scientifica ma desiderava una previsione approssimativa a breve termine, questo avrebbe dato risultati abbastanza ragionevoli. Ma più lontano dai tuoi dati estrapoli, più è probabile che la tua previsione fallisca e fallisca in modo disastroso, come descritto molto bene in questo grande thread: Cosa c'è di sbagliato nell'estrapolazione? (grazie a @JMisnotastatistician per avermelo ricordato).2
Modifica in base ai commenti: interpolazione o estrapolazione, è sempre meglio avere una teoria per fondare le aspettative. Se si deve fare un modello privo di teoria , il rischio di interpolazione è generalmente inferiore a quello dell'estrapolazione. Ciò detto, con l'aumentare del divario tra i punti di dati, anche l'interpolazione diventa sempre più irta di rischi.