Usando Regressione per proiettare al di fuori dell'intervallo di dati ok? mai ok? a volte ok?


10

Cosa ne pensi dell'utilizzo della regressione per proiettare al di fuori dell'intervallo di dati? Se siamo sicuri che segue una forma del modello lineare o di potenza, il modello non potrebbe essere utile oltre l'intervallo di dati? Ad esempio, ho un volume guidato dal prezzo. Credo che dovremmo essere in grado di proiettare prezzi al di fuori dell'intervallo di dati. I vostri pensieri?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92

1
Dipende da quanto bene i tuoi presupposti rimangono al di fuori dell'intervallo di dati. Prevedere per non osservate è la ragione principale per cui si fa regressione in primo luogo. yx
Ben

3
Anche quando sei davvero, davvero, sicuro che la relazione lineare continui oltre l'intervallo dei predittori nel tuo campione di osservazioni, c'è un termine nella varianza della risposta prevista per una nuova osservazione - viz - che dovrebbe preoccuparti. x1,,xnnx(xx¯)2in(xix¯)2
Scortchi - Ripristina Monica

Ben tendo ad essere d'accordo, non è la previsione di y per X inosservati il ​​punto? Altrimenti perché anche fare una regressione? Forse fissare un limite su quanto mi permetto di avventurarmi lontano dall'intervallo di dati osservato potrebbe essere responsabile. Sicuramente il 10% sarebbe sicuro .. no?
Johnson Jason,

Il mio metro preferito su questo argomento è bmj.com/content/317/7155/409 .
Carlo Lazzaro,

@ Ben, @ Johnson - Forse un cavillo. C'è un altro uso per la regressione. Può essere usato per spiegare piuttosto che prevedere. Penso, in particolare nelle scienze sociali, questo sia un uso importante della regressione. Ho letto molti argomenti come Pensiamo che (variabili) A effetto esito B, eseguiamo una regressione, scopriamo che l'intervallo di confidenza al 95% dei coefficienti di A non contiene 0 e concludiamo che c'è una relazione della forma A causa B. Per inciso, questo non è qualcosa che io abbia mai fatto!
Meh

Risposte:


13

Quasi tutte le risposte e i commenti mettono in guardia contro i pericoli dell'estrapolazione. Vorrei offrire un modo più formale di vedere se la previsione è prudente. Il metodo si basa sulla matrice di proiezione sullo spazio attraversato dalle colonne di che assumiamo al massimo, cioè supponiamo che lo spazio della colonna sia p-dimensionale. Come ricorderete,X

H=X(XTX)1X

Si può dimostrare che gli elementi diagonali di soddisfano , questa è una conseguenza dell'idempotenza tra l'altro, e possono essere interpretati come distanze dal centroide dello spazio predittore. Questo è vero perché esiste una corrispondenza uno-a-uno tra le leve e le distanze quadrate di Mahalanobis. Un modo per individuare le estrapolazioni nascoste sarebbe quindi vedere fino a che punto si trova la nuova osservazione dal centroide, giusto? Questo può essere fatto calcolando il nuovo elemento diagonale. Ricordando alcune regole di base della moltiplicazione di matrici, abbiamo 0 < H i i < 1 , i = 1 , , n H i iH0<Hii<1, i=1,,nHii

Hnew,new=xnewT(XTX)1xnew

Se è molto più grande del resto degli elementi diagonali, allora questo ti dice che la tua nuova osservazione si trova abbastanza lontano dal centroide e la previsione è probabilmente una mossa rischiosa. Ci vuole un po 'di giudizio per decidere quanto è grande, quindi ovviamente la tecnica non è infallibile. La sua bellezza è comunque che funziona in tutte le dimensioni, quando non si può guardare un semplice diagramma a dispersione.Hnew,new

Non sono sicuro del software che stai utilizzando, ma quasi tutti restituiranno la matrice cappello con il comando giusto. Quindi ti consiglio di dare un'occhiata prima di prendere una decisione.


Ben fatto JohnK, questo è molto utile. Cordiali saluti, sto usando la regressione di Excel.
Johnson Jason,

9

L'errore di previsione aumenta quadraticamente con la distanza dalla media. L'equazione e i risultati della regressione consentono di misurare la dimensione dell'errore sull'intervallo di dati osservato e il modello è adeguato solo sullo stesso intervallo.

Al di fuori di tale intervallo possono succedere molte cose. Innanzitutto, la previsione peggiora sempre di più a causa dell'aumento dell'errore di previsione.

In secondo luogo, il modello potrebbe rompersi completamente. Il modo più semplice per vederlo è provare a proiettare un modello relativo al prezzo nel tempo: non è possibile fare previsioni per il tempo negativo.

Terzo, la relazione lineare può essere inadeguata. Nel tuo esempio, ci sono quasi certamente economie di scala, che diventerebbero molto evidenti se provassi a prevedere molto al di fuori dell'intervallo dei valori osservati.

Un esempio umoristico di questo stesso effetto appare in una delle opere di Mark Twain , dove tenta di modellare la lunghezza del fiume Mississippi nel tempo --- è / era piuttosto ventoso e si accorcia / annua ogni anno a causa dell'erosione di alcuni delle curve così come delle scorciatoie artificiali --- e "prevede" che in così tanti anni la distanza tra Il Cairo, Illinois e New Orleans si sarà ridotta a circa un miglio e tre quarti).

Infine, nota che l'intervallo di valori osservati può essere piuttosto complicato se hai più di una variabile predittore. (A causa delle correlazioni tra i predittori spesso non si può semplicemente prendere la casella definita dai massimi e minimi in ciascun predittore.)


1
(+1) Anche se dire che il modello è adeguato solo nell'intervallo dei dati osservati è un po 'forte - è che i problemi che descrivi diventano sempre più relativi all'ulteriore distanza da esso.
Scortchi - Ripristina Monica

Quindi c'è qualche soluzione per quanto riguarda la distanza di sicurezza per avventurarsi lontano dall'intervallo di dati osservato? Meno di 1 deviazione standard va bene?
Johnson Jason,

1
@Scortchi. Punto preso. Nella maggior parte dei casi il degrado del modello è graduale. Tuttavia, a volte ci sono confini difficili e provare ad andare oltre questi causerà dolore.
user3697176,

1
@JohnsonJason: non ha senso cercare una regola empirica. Puoi facilmente calcolare gli intervalli di previsione, supponendo che il tuo modello possa essere estrapolato; il grado in cui puoi fidarti dell'estrapolazione dipende dalla conoscenza della materia: ciò che è accettabile varia da caso a caso.
Scortchi - Ripristina Monica

1
Punti eccellenti (+1). Ma non esiste alcun problema logico nel prevedere il prezzo per un tempo negativo. Il vero problema è se si prevede un prezzo negativo per un certo tempo (di solito in passato, in pratica). Spesso ciò significa che il modello è qualitativamente sbagliato tanto quanto l'estrapolazione sta allungando una linea (o curva) troppo lontano. Una funzione di collegamento logaritmico, ad esempio, implica sempre previsioni positive.
Nick Cox,

4

Non è possibile prendere decisioni basate sui dati per aree in cui non si dispone di dati. Fine della storia. I dati possono benissimo supportare una forma lineare per l'intervallo di raccolta dei dati, ma non si hanno ragioni basate sui dati per ritenere che questa forma continui ad essere lineare al di fuori dell'intervallo. Potrebbe essere qualsiasi forma sotto il sole!

È possibile supporre che la forma lineare continui al di fuori dell'intervallo di dati, ma si tratta di un presupposto soggettivo non supportato dai dati raccolti. Suggerirei di consultare un esperto in materia per vedere, in base alla loro competenza in materia, quanto sia sicura questa ipotesi.


2
Quindi qual è il punto di fare davvero la regressione se non possiamo prevedere Y's per X non osservati
Johnson Jason,

2
Penso che il punto sia che puoi ancora prevedere all'interno dell'intervallo, non è consigliabile prevedere al di fuori dell'intervallo. Presumibilmente la maggior parte dei nuovi punti dati sarebbe all'interno dell'intervallo, quindi il modello rimarrebbe utile la maggior parte delle volte
Ryan Zotti,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.