Qual è la giustificazione statistica dell'interpolazione?


16

Supponiamo di avere due punti (la seguente figura: cerchi neri) e vogliamo trovare un valore per un terzo punto tra loro (croce). Effettivamente lo stimeremo in base ai nostri risultati sperimentali, i punti neri. Il caso più semplice è disegnare una linea e quindi trovare il valore (cioè interpolazione lineare). Se avessimo dei punti di supporto, ad es., In quanto punti marroni su entrambi i lati, preferiremmo trarne vantaggio e adattarci a una curva non lineare (curva verde).

La domanda è: qual è il ragionamento statistico per contrassegnare la croce rossa come soluzione? Perché le altre croci (ad es. Quelle gialle) non sono risposte dove potrebbero essere? Che tipo di inferenza o (?) Ci spinge ad accettare quello rosso?

Svilupperò la mia domanda originale sulla base delle risposte ottenute per questa domanda molto semplice.

inserisci qui la descrizione dell'immagine


7
Questa è una domanda molto ben posta e interessante. Potresti voler distinguere tra interpolazione di serie temporali e altre forme di interpolazione (come spline o interpolazione spaziale), a causa della direzionalità intrinseca delle serie temporali.
whuber

1
Il mio apprezzamento va a questo commento molto motivazionale.
Sviluppatore

Risposte:


14

Qualsiasi forma di adattamento delle funzioni, anche non parametriche (che tipicamente fanno ipotesi sulla scorrevolezza della curva in questione), implica ipotesi, e quindi un salto di fiducia.

L'antica soluzione dell'interpolazione lineare è quella che "funziona" quando i dati che hai sono a grana fine "abbastanza" (se guardi un cerchio abbastanza vicino, sembra anche piatto - basta chiedere a Columbus), ed era fattibile anche prima dell'era dei computer (che non è il caso di molte soluzioni di spline moderne). È logico supporre che la funzione "continuerà nella stessa materia (cioè lineare)" tra i due punti, ma non esiste una ragione a priori per questo (escludendo la conoscenza dei concetti a portata di mano).

Diventa rapidamente chiaro quando hai tre (o più) punti non lineari (come quando aggiungi i punti marroni sopra), che l'interpolazione lineare tra ciascuno di essi comporterà presto angoli acuti in ciascuno di essi, che è tipicamente indesiderato. Ecco dove le altre opzioni saltano dentro.

Tuttavia, senza ulteriore conoscenza del dominio, non c'è modo di affermare con certezza che una soluzione è migliore dell'altra (per questo, dovresti sapere qual è il valore degli altri punti, sconfiggendo lo scopo di adattare la funzione nel primo posto).

Sul lato positivo, e forse più pertinente alla tua domanda, in "condizioni di regolarità" (leggi: ipotesi : se sappiamo che la funzione è ad esempio fluida), sia l'interpolazione lineare che le altre soluzioni popolari possono essere dimostrate "ragionevoli" approssimazioni. Tuttavia: richiede ipotesi e, per queste, in genere non disponiamo di statistiche.


Questa è una buona risposta ed è il mio candidato ad essere contrassegnato come risposta. Ho capito che non esiste una giustificazione statistica per una scelta così comune, giusto?
Sviluppatore

In effetti credo che non ce ne sia uno, no.
Nick Sabbe,

2
Alcune pubblicazioni (che coinvolgono concorsi per interpolare campioni di set di dati noti) convalidano parzialmente questa risposta, ma non del tutto. Si può imparare molto sulla correlazione spaziale dei dati attraverso l'analisi statistica dei dati da soli, senza "condizioni di regolarità". Ciò che è necessario è un modello dei dati come campione di una realizzazione di un processo stocastico insieme a (1) un'ipotesi ergodica e (nella maggior parte dei casi) (2) una sorta di ipotesi di stazionarietà. In questo quadro, l'interpolazione diventa la previsione di un'aspettativa, ma sono ammesse anche curve non distinguibili.
whuber

1
@whuber: Sono fuori dalla mia zona di comfort qui, ma tutto ciò che segue "condizioni di regolarità" nel tuo commento sembra una quantità abbastanza solida di ipotesi (la stazionarietà equivarrebbe probabilmente a una condizione di regolarità, no?). In realtà, penso che dipenderà dal fatto che la dimensione del campione sia grande rispetto alle irregolarità nella forma funzionale ... Puoi dare un riferimento a un articolo o cose simili dove non è così?
Nick Sabbe,

2
Non puoi fare nulla senza ipotesi, Nick! Ma la regolarità (come la fluidità della funzione) non è necessaria: può essere dedotta dai dati, almeno sulla scala a cui viene campionata la funzione. (La stazionarietà è un presupposto molto più mite della fluidità.) È corretto che siano necessari campioni di grandi dimensioni, ma molto può essere appreso in 2D anche con 30-50 posizioni di campionamento ben scelte. La letteratura è ampia; per esempio, la maggior parte delle questioni di geologia matematica sono dedicate a questo. Per un'introduzione rigorosa, vedere Statistiche spaziali
whuber

0

È possibile elaborare l'equazione lineare per la linea di adattamento ottimale (ad es. Y = 0,4554x + 0,7525), tuttavia ciò funzionerebbe solo se esistesse un asse etichettato. Tuttavia questo non ti darebbe la risposta esatta solo quella più adatta in relazione agli altri punti.


Ma la regressione non è interpolazione .
Scortchi - Ripristina Monica

1
@Scortchi Credo che la regressione possa essere intesa come interpolazione. Tuttavia, proporre la regressione come soluzione non risponde alla domanda, il che ci chiede di spiegare perché qualsiasi tipo di interpolazione sia giustificabile (e ci invita implicitamente a descrivere le ipotesi necessarie per giustificarlo).
whuber

@whuber: grazie. Stavo pensando all'interpolazione, almeno prototipicamente, come join-the- points - stats.stackexchange.com/a/33662/17230 .
Scortchi - Ripristina Monica

@Scortchi Quella discussione affronta principalmente il concetto matematico di interpolazione in una tabella. In un commento alla sua domanda ho sottolineato la comprensione statistica convenzionale dell'interpolazione, che è leggermente diversa. La regressione funziona in entrambi i mondi: una funzione di regressione può fungere da interpolatore matematico (per una funzione ben definita che viene campionata in una tabella) e come un interpolatore statistico (mediante previsioni statistiche dei valori di un processo stocastico subordinato a un numero finito di valori derivati ​​da quel processo).
whuber

1
nn
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.