Cosa c'è di sbagliato nell'estrapolazione?


68

Ricordo di aver frequentato i corsi di statistica come un'audizione sui perché l'estrapolazione fosse una cattiva idea. Inoltre, ci sono una varietà di fonti online che commentano questo. C'è anche una menzione qui .

Qualcuno può aiutarmi a capire perché l'estrapolazione è una cattiva idea? Se lo è, come mai le tecniche di previsione non sono statisticamente non valide?


3
@Firebug Mark Twain aveva qualcosa da dire al riguardo. Il passaggio pertinente è citato verso la fine della mia risposta all'indirizzo stats.stackexchange.com/a/24649/919 .
whuber

1
@whuber Immagino che non sia esattamente l'estrapolazione a pensarci adesso. Supponiamo che formiamo e convalidiamo correttamente un algoritmo per prevedere i dati una settimana nella funzione. Facendo il ricampionamento corretto (e sintonizzazione, se ci sono iperparametri da sintonizzare), allora non riesco a vedere cosa c'è che non va, hai una risposta e dovresti anche conoscere la fiducia di quella risposta. Ora, se ti alleni il tuo algoritmo in una settimana alla settimana, non puoi aspettarti di prevedere con precisione un anno nel futuro. Ci scusiamo per la possibile confusione.
Firebug,

7
@Firebug Non c'è bisogno di scusarsi: le tue osservazioni contengono utili informazioni di chiarimento. Mentre li leggo, suggeriscono che "estrapolare" può avere più interpretazioni in un'impostazione di previsione. Uno è che comporta una "estrapolazione" del tempo. Ma quando si guardano i modelli standard di serie temporali, in particolare quelli in cui il tempo non è una covariata esplicita, essi prevedono i valori futuri in termini di valori precedenti . Quando quei valori precedenti rimangono all'interno degli intervalli dei valori precedenti, il modello non esegue alcuna estrapolazione! Qui può trovarsi una risoluzione dell'apparente paradosso.
whuber


2
Sono deluso dal tempo impiegato per l'apparizione del xkcd obbligatorio
Duncan X Simpson,

Risposte:


89

Un modello di regressione viene spesso utilizzato per l'estrapolazione, ovvero prevedere la risposta a un input che si trova al di fuori dell'intervallo dei valori della variabile predittore utilizzata per adattarsi al modello. Il pericolo associato all'estrapolazione è illustrato nella figura seguente. grafico che mostra la linea estrapolata che continua verso l'alto dove il valore "vero" diminuisce

Il modello di regressione è "per costruzione" un modello di interpolazione e non dovrebbe essere utilizzato per l'estrapolazione, a meno che ciò non sia adeguatamente giustificato.


1
Questo è un terribile esempio contro l'estrapolazione. La linea di regressione diretta adatta i punti dati molto meglio della tua vera funzione curvy.
horaceT

9
"La linea di regressione diretta adatta i punti dati molto meglio della tua vera funzione curvy" Questa affermazione è falsa. L'RSS per la vera funzione di regressione è più piccolo dell'RSS per la semplice linea di regressione,
Kostia,

Punto preso e potresti (dovrebbe) avere ragione. Ma a giudicare dalla serie di punti, non è possibile dedurre la vera funzione.
horaceT

27
Esattamente. E questo perché l'estrapolazione può essere una cattiva idea.
Kostia,

"Il modello di regressione è" per costruzione "un modello di interpolazione" -> Suppongo che possiamo avere esattamente lo stesso problema con l'interpolazione (anche se è meno probabile che accada)
Metariat,

88

Questo fumetto di xkcd spiega tutto.

comico xkcd

Usando i punti dati di Cueball (l'uomo con il bastone), ha estrapolato che la donna avrà "quattro dozzine" di mariti entro la fine del mese prossimo e ha usato questa estrapolazione per portare alla conclusione di acquistare la torta nuziale sfusa.

Modifica 3: Per quelli di voi che dicono "non ha abbastanza punti dati", ecco un altro fumetto di xkcd :

comico xkcd

Qui, l'uso della parola "sostenibile" nel tempo viene mostrato su un diagramma semi-log ed estrapolando i punti dati riceviamo una stima irragionevole della frequenza con cui la parola "sostenibile" si verificherà in futuro.

Modifica 2: per quelli di voi che dicono "sono necessari anche tutti i punti dati passati", l'ennesimo fumetto xkcd: comico xkcd

Qui abbiamo tutti i punti dati passati ma non siamo in grado di prevedere con precisione la risoluzione di Google Earth. Si noti che anche questo è un grafico semi-log.

Modifica: a volte, anche la più forte delle correlazioni (r = .9979 in questo caso) è semplicemente sbagliata.


Se estrapoli senza altre prove a sostegno, anche la violazione della correlazione non implica la causalità ; un altro grande peccato nel mondo della statistica.

Se estrapoli X con Y, tuttavia, devi assicurarti di poter prevedere con precisione (abbastanza per soddisfare le tue esigenze) X con solo Y. Quasi sempre, ci sono più fattori che influenzano X.

Vorrei condividere un link a un'altra risposta che lo spiega nelle parole di Nassim Nicholas Taleb.


14
xkcd ha una battuta su ogni possibile problema di matematica / statistica che si possa incontrare, no?
Ander Biguri,

24
Questa idea potrebbe anche essere usata come argomento contro l'interpolazione: "ieri sera hai avuto 0,5 mariti".
JiK,

3
@JiK Se tutto ciò che sai è che ora ne ha uno, e due giorni fa non ne aveva nessuno, non è una brutta stima ;-)
Dennis Jaheruddin,

9
Sostenibile sostenibile Sostenibile sostenibile sostenibile sostenibile Sostenibile sostenibile. en.wikipedia.org/wiki/…
Meni Rosenfeld il

1
più xkcd, gente!
noɥʇʎԀʎzɐɹƆ

24

"La previsione è molto difficile, soprattutto se riguarda il futuro". La citazione è attribuita a molte persone in qualche forma . Nella seguente "estrapolazione" mi limito a "previsione al di fuori dell'intervallo noto" e, in un'impostazione unidimensionale, estrapolazione da un passato noto a un futuro sconosciuto.

Quindi cosa c'è di sbagliato nell'estrapolazione. Innanzitutto, non è facile modellare il passato . In secondo luogo, è difficile sapere se un modello del passato può essere utilizzato per il futuro . Dietro entrambe le asserzioni si nascondono profonde domande sulla causalità o ergodicità, sulla sufficienza delle variabili esplicative, ecc. Che sono abbastanza dipendenti dal caso. Ciò che è sbagliato è che è difficile scegliere un unico schema di estrapolazione che funzioni bene in contesti diversi, senza molte informazioni extra.

x

Quartetto Anscombe

Tuttavia, le previsioni possono essere rettificate in una certa misura. Aggiungendo ad altre risposte, un paio di ingredienti può aiutare l'estrapolazione pratica:

  1. npfp(n)pn
  2. È possibile utilizzare diversi modelli di estrapolazione e combinarli o selezionare i migliori ( Combinando le previsioni , J. Scott Armstrong, 2001). Di recente, ci sono stati diversi lavori sulla loro combinazione ottimale (posso fornire riferimenti se necessario).

Di recente, sono stato coinvolto in un progetto di estrapolazione di valori per la comunicazione di sottosistemi di simulazione in un ambiente in tempo reale. Il dogma in questo dominio era che l'estrapolazione potrebbe causare instabilità. In realtà ci siamo resi conto che la combinazione dei due ingredienti di cui sopra era molto efficiente, senza evidente instabilità (senza ancora una prova formale, e attualmente in fase di revisione ). E l'estrapolazione ha funzionato con semplici polinomi, con un onere computazionale molto basso, la maggior parte delle operazioni è stata calcolata in anticipo e memorizzata in tabelle di consultazione.

Infine, poiché l'estrapolazione suggerisce un disegno divertente, il seguente è l'effetto arretrato della regressione lineare:

Divertimento con amore e regressione lineare


+1 bella risposta. Secondo questo sito web sembra improbabile che Bohr l'abbia detto. Sembra più probabile che sia un proverbio danese non comune ma generico.
usεr11852 dice Reinstate Monic il

@ usεr11852 È improbabile che "l'abbia mai detto"? Ecco perché ho detto "attribuito", dovrei essere più cauto?
Laurent Duval,

2
Non ho mai detto la parte in assoluto . Ho fatto questo commento perché dato che il detto sembra molto più probabile che sia un proverbio danese, attribuendolo a un particolare (estremamente emblematico) Dane sembra un po 'troppo esagerato, soprattutto dato che non ci sono registrazioni di Bohr che lo dica. L'autore originale potrebbe essere un pescatore senza nome che commenta la cattura di domani! Sto tifando per il piccoletto qui! : D
usεr11852 dice Reinstate Monic il

2
Molto difficile modellare anche le leggende delle citazioni passate.
Laurent Duval,

3
Certamente la domanda usa entrambe le parole: l'intero punto è se la "previsione" debba essere considerata una forma di "estrapolazione". Secondo i tuoi commenti introduttivi, sembra che tu definisca l'estrapolazione come usare il passato per "modellare il futuro". Fino a quando non offrirai definizioni chiare e distinte di ciascuno, la tua risposta potrebbe essere fraintesa.
whuber

17

Sebbene l'adattamento di un modello possa essere " buono ", l'estrapolazione oltre l'intervallo dei dati deve essere trattata in modo scettico. Il motivo è che in molti casi l'estrapolazione (purtroppo e inevitabilmente) si basa su ipotesi non verificabili sul comportamento dei dati al di là del loro supporto osservato.

xout

Un ulteriore avvertimento è che molte tecniche di stima non parametriche non consentono l'estrapolazione in modo nativo. Questo problema è particolarmente evidente nel caso del livellamento della spline in cui non ci sono più nodi per ancorare la spline montata.

Vorrei sottolineare che l'estrapolazione è tutt'altro che malvagia. Ad esempio, i metodi numerici ampiamente utilizzati in Statistica (ad esempio il processo delta-quadrato di Aitken e l'Extrapolation di Richardson ) sono essenzialmente schemi di estrapolazione basati sull'idea che il comportamento sottostante della funzione analizzata per i dati osservati rimanga stabile attraverso il supporto della funzione.


εΔ2

15

Contrariamente ad altre risposte, direi che non c'è nulla di sbagliato nell'estrapolazione nella misura in cui non viene usata in modo insensato. Innanzitutto, notare che l' estrapolazione è :

il processo di stima, oltre l'intervallo di osservazione originale, il valore di una variabile sulla base della sua relazione con un'altra variabile.

... quindi è un termine molto ampio e molti metodi diversi che vanno dalla semplice estrapolazione lineare , alla regressione lineare, alla regressione polinomiale o persino ad alcuni metodi avanzati di previsione di serie temporali si adattano a tale definizione. In effetti, estrapolazione, previsione e previsione sono strettamente correlate. In statistica abbiamo spesso facciamo previsioni e le previsioni . Questo è anche ciò che dice il link a cui ti riferisci:

Dal primo giorno delle statistiche ci viene insegnato che l'estrapolazione è un grande no-no, ma è esattamente quello che è la previsione.

Molti metodi di estrapolazione sono usati per fare previsioni, inoltre, spesso alcuni metodi semplici funzionano abbastanza bene con piccoli campioni, quindi possono essere preferiti a quelli complicati. Il problema è, come notato in altre risposte, quando si utilizza il metodo di estrapolazione in modo errato.

Ad esempio, molti studi dimostrano che l'età dell'iniziazione sessuale diminuisce nel tempo nei paesi occidentali. Dai un'occhiata a una trama sotto sull'età del primo rapporto negli Stati Uniti. Se avessimo usato ciecamente la regressione lineare per prevedere l'età del primo rapporto, prevedremmo che scendesse sotto lo zero ad un certo numero di anni (di conseguenza con il primo matrimonio e la prima nascita che si verificano dopo la morte) ... Tuttavia, se fosse necessario previsione di un anno prima, quindi immagino che la regressione lineare porterebbe a previsioni a breve termine abbastanza accurate per la tendenza.

inserisci qui la descrizione dell'immagine

(fonte guttmacher.org )

Tutti i modelli sono sbagliati , anche l'estrapolazione è sbagliata, poiché non ti permetterebbe di fare previsioni precise. Come altri strumenti matematici / statistici ti permetterà di fare previsioni approssimative . La misura in cui saranno precisi dipenderà dalla qualità dei dati che hai, usando metodi adeguati al tuo problema, i presupposti che hai fatto durante la definizione del tuo modello e molti altri fattori. Ma questo non significa che non possiamo usare tali metodi. Possiamo, ma dobbiamo ricordare i loro limiti e dovremmo valutare la loro qualità per un dato problema.


4
Quando i dati utilizzati per la regressione terminano all'inizio degli anni '80, è probabile che tu possa facilmente verificare per quanto tempo la estrapolazione avrebbe funzionato.
Gerrit,

@gerrit Sono d'accordo, ma sfortunatamente non sono riuscito a trovare dati adeguati. Ma se qualcuno potesse indicarmelo, sarei felice di aggiornare la mia risposta per tale confronto.
Tim

In questo caso, l'estrapolazione fallisce, dato che l'età del primo sesso è saltata negli ultimi anni. (Ma i dati per questo ritardano sempre l'anno di nascita di un paio di decenni, per ragioni che dovrebbero essere ovvie.)
David Manheim,

13

Mi piace abbastanza l'esempio di Nassim Taleb (che era un adattamento di un precedente esempio di Bertrand Russell):

Considera un tacchino che viene nutrito ogni giorno. Ogni singola alimentazione rafforzerà la convinzione dell'uccello secondo cui la regola generale della vita deve essere alimentata ogni giorno da membri amichevoli della razza umana "alla ricerca dei suoi migliori interessi", come direbbe un politico. Nel pomeriggio del mercoledì prima del Ringraziamento, al tacchino succederà qualcosa di inaspettato. Dovrà sostenere una revisione della convinzione.

Alcuni analoghi matematici sono i seguenti:

  • la conoscenza dei primi coefficienti di Taylor di una funzione non garantisce sempre che i coefficienti successivi seguano il modello presunto.

  • la conoscenza delle condizioni iniziali di un'equazione differenziale non garantisce sempre la conoscenza del suo comportamento asintotico (ad esempio le equazioni di Lorenz, talvolta distorte nel cosiddetto "effetto farfalla")

Ecco un bel thread MO sull'argomento.


3
... e, naturalmente, Taleb deve sottolineare la lezione morale: "non essere un tacchino"! In questo contesto: non essere un estrapolatore incurante e non soccombere al peccato di arroganza.
JM non è uno statistico il

@ uoɥʇʎPʎzɐɹC, non lo stavo chiedendo, ma grazie!
JM non è uno statistico

non sono davvero utili per la reputazione con convalida incrociata - e nessuno ha visto la tua risposta ed è stato davvero buono. Godere!
noɥʇʎԀʎzɐɹƆ

12

Rifletti sulla storia seguente, se vuoi.

Ricordo anche di aver partecipato a un corso di Statistica e il professore ci disse che l'estrapolazione era una cattiva idea. Poi durante la lezione successiva ci disse che era di nuovo una cattiva idea; in effetti, lo disse due volte.

Ero malato per il resto del semestre, ma ero certo che non avrei potuto perdere molto materiale, perché dall'ultima settimana il ragazzo sicuramente non avrebbe fatto altro che dire alla gente ancora e ancora come l'estrapolazione era una cattiva idea .

Stranamente, non ho ottenuto punteggi molto alti nell'esame.


6
La domanda si pone "cosa c'è di sbagliato nell'estrapolazione?". Siamo alla ricerca di risposte che spieghino perché l'estrapolazione potrebbe essere una cattiva idea.
Robert Long,

8
@RobertLong: In realtà è una specie di risposta a meta / scherzo, e abbastanza simile a xkcd.com/605 - forse meglio come commento che come risposta.
Neil Slater,

@NeilSlater: Avresti dovuto pubblicare il tuo commento come risposta ... :)
usεr11852 dice Reinstate Monic,

@RobertLong: questo è quel tipo di risposta. Ha semplicemente la forma di una parabola.
einpoklum - ripristina Monica il

2
Non è chiaro che il tuo modello sia esponenziale.
Gerrit,

6

La domanda non è solo statistica, è anche epistemologica. L'estrapolazione è uno dei modi in cui apprendiamo sulla natura, è una forma di induzione . Diciamo che abbiamo dati per la conducibilità elettrica di un materiale in un intervallo di temperature da 0 a 20 gradi Celsius, cosa possiamo dire della conducibilità a 40 gradi Celsius?

È strettamente correlato alla piccola inferenza del campione: cosa possiamo dire dell'intera popolazione dalle misurazioni condotte su un piccolo campione? Questo è stato avviato da Gosset nei panni di Guiness , che ha ideato le distribuzioni t di Student. Prima di lui gli statistici non si preoccupavano di pensare a piccoli campioni supponendo che la dimensione del campione potesse essere sempre grande. Era a Guinnes e ha dovuto fare i conti con campioni di birra per decidere cosa fare con l'intero lotto di birra da spedire.

Quindi, in pratica (affari), ingegneria e scienza, dobbiamo sempre estrapolare in qualche modo. Potrebbe estrapolare piccoli campioni da uno grande, o da una gamma limitata di condizioni di input a un insieme più ampio di condizioni, da quello che sta succedendo nell'acceleratore a quello che è successo a un buco nero a miliardi di miglia di distanza ecc. È particolarmente importante nella scienza però , come apprendiamo davvero studiando le discrepanze tra le nostre stime di estrapolazione e le misurazioni effettive. Spesso troviamo nuovi fenomeni quando le discrepanze sono grandi o coerenti.

quindi, dico che non c'è nessun problema con l'estrapolazione. È qualcosa che dobbiamo fare ogni giorno. È solo difficile.


4

L'estrapolazione in sé non è necessariamente malvagia, ma è un processo che si presta a conclusioni che sono più irragionevoli di quanto si arriva con l'interpolazione.

  • L'estrapolazione viene spesso eseguita per esplorare valori abbastanza lontani dalla regione campionata. Se sto campionando 100 valori da 0 a 10, e poi estrapolando solo un po ', semplicemente a 11, il mio nuovo punto è probabilmente 10 volte più lontano da qualsiasi punto di dati di qualsiasi interpolazione possa mai ottenere. Ciò significa che c'è molto più spazio perché una variabile possa sfuggire di mano (qualitativamente). Nota che ho scelto intenzionalmente solo un'estrapolazione minore. Può andare molto peggio
  • L'estrapolazione deve essere eseguita con adattamenti delle curve che erano previsti per l'estrapolazione. Ad esempio, molti adattamenti polinomiali sono molto scarsi per l'estrapolazione perché i termini che si comportano bene nell'intervallo campionato possono esplodere una volta usciti. Una buona estrapolazione dipende da una "buona ipotesi" su ciò che accade al di fuori della regione campionata. Il che mi porta a ...
  • Spesso è estremamente difficile utilizzare l'estrapolazione a causa della presenza di transizioni di fase. Molti processi su cui si potrebbe desiderare di estrapolare hanno proprietà decisamente non lineari che non sono sufficientemente esposte sulla regione campionata. L'aeronautica attorno alla velocità del suono è un esempio eccellente. Molte estrapolazioni da velocità più basse cadono a pezzi man mano che si raggiunge e si supera la velocità di trasferimento delle informazioni nell'aria. Ciò si verifica anche abbastanza spesso con le scienze leggere, in cui la politica stessa può influire sul successo della politica. L'economia keynesiana ha estrapolato il modo in cui l'economia si sarebbe comportata con diversi livelli di inflazione e ha previsto il miglior risultato possibile. Sfortunatamente, ci furono effetti del secondo ordine e il risultato non fu la prosperità economica, ma piuttosto alcuni dei più alti tassi di inflazione che gli Stati Uniti abbiano visto.
  • Alla gente piacciono le estrapolazioni. In generale, le persone vogliono davvero che qualcuno scruta una sfera di cristallo e dica loro il futuro. Accetteranno estrapolazioni sorprendentemente cattive semplicemente perché sono tutte le informazioni che hanno. Questo potrebbe non rendere di per sé cattiva l'estrapolazione, ma è sicuramente qualcosa di cui bisogna tener conto quando lo si utilizza.

Per il massimo dell'estrapolazione, considera il Progetto Manhattan. I fisici lì furono costretti a lavorare con test su scala estremamente ridotta prima di costruire la realtà. Semplicemente non avevano abbastanza uranio da sprecare nei test. Hanno fatto il meglio che potevano ed erano intelligenti. Tuttavia, quando si è verificato il test finale, è stato deciso che ogni scienziato avrebbe deciso quanto lontano volessero essere quando si è spento. C'erano sostanziali differenze di opinione su quanto lontano fosse "sicuro" perché tutti gli scienziati sapevano che stavano estrapolando abbastanza lontano dai loro test. C'era anche una non banale considerazione sul fatto che avrebbero potuto dare fuoco all'atmosfera con la bomba nucleare, un problema anche posto a una sostanziale estrapolazione!


3

Molte buone risposte qui, voglio solo provare a sintetizzare quello che vedo come il nocciolo del problema: è pericoloso estrapolare oltre quel processo di generazione di dati che ha dato origine al campione di stima. Questo a volte viene chiamato un "cambiamento strutturale".

La previsione viene fornita con ipotesi, la principale è che il processo di generazione dei dati è (quasi non fa alcuna differenza significativa) lo stesso di quello che ha generato il campione (ad eccezione delle variabili rhs, le cui modifiche sono esplicitamente spiegate nel modello) . Se si verifica un cambiamento strutturale (ovvero il Ringraziamento nell'esempio di Taleb), tutte le scommesse sono disattivate.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.