Usare un modello di regressione per fare previsioni: quando fermarsi?


9

Ho calcolato un semplice modello di regressione lineare dalle mie misure dell'esperimento per fare previsioni. Ho letto che non dovresti calcolare le previsioni per i punti che si discostano troppo dai dati disponibili. Tuttavia, non sono riuscito a trovare alcuna guida per aiutarmi a sapere fino a che punto posso estrapolare. Ad esempio, se calcolo la velocità di lettura per una dimensione del disco di 50 GB, immagino che il risultato sarà vicino alla realtà. Che dire di una dimensione del disco di 100 GB, 500 GB? Come faccio a sapere se le mie previsioni sono vicine alla realtà?

I dettagli del mio esperimento sono:

Sto misurando la velocità di lettura di un software utilizzando dimensioni del disco diverse. Finora l'ho misurato da 5 GB a 30 GB aumentando la dimensione del disco di 5 GB tra gli esperimenti (6 misure in totale).

I miei risultati sono lineari e gli errori standard sono piccoli, secondo me.


2
Penso che per ottenere risposte utili dovrai ampliare notevolmente e chiarire la tua seconda frase.
rolando2,

rolando2 ha ragione. Cosa intendi con "troppe previsioni"?
David Robinson,

Non riesco a trovare i termini esatti che sono stati utilizzati nel documento che ho letto. L'idea è "troppo lontana dalle mie misure originali". Quindi ho misurato la velocità di lettura con un disco da 30 GB. Se prevedo la velocità di lettura per un disco da 100 GB, è "troppo lontano"?
Flanfl,

La risposta di gung è sufficiente per delineare i problemi in questione. un'altra cosa che può aiutare nel tuo caso specifico è quella di considerare il processo fisico coinvolto nella lettura del software. Che tipo di operazioni devono essere eseguite? il software deve organizzare o ordinare il disco come parte del processo di lettura? queste domande aiuteranno a fornire alcune basi per l'assunzione della linearità
probabilitlogica del

Risposte:


19

Il termine che stai cercando è "estrapolazione". Il problema è che non importa quanti dati hai e quanti livelli intermedi hai tra i tuoi endpoint sulla dimensione del disco (cioè tra 5 e 30), è sempre possibile che ci sia un certo grado di curvatura nella vera funzione sottostante , che semplicemente non hai il potere di rilevare. Di conseguenza, quando estrapoli lontano dall'endpoint, viene ingrandito ciò che era un piccolo grado di curvatura, in quanto la vera funzione si sposta sempre più lontano dalla linea di adattamento. Un'altra possibilità è che la vera funzione sia davvero perfettamente entro l'intervallo esaminato, ma che forse c'è un punto di cambiamento ad una certa distanza dall'estremità del tuo studio. Questo genere di cose è impossibile da escludere; la domanda è, quanto sono probabili e quanto imprecisa sarebbe la tua previsione se si rivelasse reale? Non so come fornire una risposta analitica a tali domande. La mia idea è che la 500 sia molto lontana quando l'intervallo in studio era [5, 30], ma non c'è alcun motivo reale per pensare che le mie impressioni siano più utili delle tue. Le formule standard per calcolare gli intervalli di previsione ti mostreranno un intervallo in espansione mentre ti allontanix¯ , vedere l'aspetto di quell'intervallo potrebbe essere utile. Tuttavia, è necessario tenere presente che si sta presupponendo teoricamente che la linea sia davvero perfettamente dritta e rimanga tale fino al valore che si utilizzerà per la previsione. La legittimità di tale previsione dipende sia dai dati e dall'adeguatezza, sia da tale ipotesi. x


2
Totalmente d'accordo (+1). La risposta a questa domanda non può essere strettamente statistica. Parlare con un software e un ingegnere informatico sarebbe rilevante qui!
Dominic Comtois,

Grazie per la risposta, è davvero utile. Sono autodidatta, quindi mi mancano molte conoscenze di base (come conoscere il vocabolario).
Flanfl,

L'inverso della larghezza dell'intervallo di confidenza non potrebbe essere considerato una sorta di indicatore di "forza" della predizione? Ovviamente dovresti scegliere alcuni valori arbitrari per usarlo ..
nought101

2
@ naught101, se si è disposti a ritenere che la linea di regressione sia perfettamente diritta, l'ampiezza dell'intervallo di previsione può essere considerata come una misura della forza della previsione (con intervalli più ampi che indicano previsioni più deboli), ma è comunque dipende da tale presupposto.
gung - Ripristina Monica

7

Vorrei aggiungere alcuni punti all'ottima risposta di @ gung:

  • A seconda del campo, potrebbero esserci norme pertinenti (come in DIN / EN o ISO). Questo probabilmente non è un problema con la previsione della velocità di lettura del disco rigido, ma ad esempio nella chimica analitica la regola non è un'estrapolazione . Periodo. Se vuoi arrivare fino a 500 GB, vai e fai alcune misurazioni fino a 500 GB inclusi.

  • Il solito modo di impostare un modello lineare ha due presupposti importanti

    • Ovviamente, la funzione è lineare. In pratica, di solito non è un presupposto molto valido che la linearità si estenda all'infinito. Ad esempio, puoi aspettarti di trovare ancora linearità se leggi quantità maggiori rispetto al volume del disco rigido?

    • Di solito, si assume anche l'omoschedasticità. Ciò significa che la quantità assoluta di errore / rumore non dipende dalla variabile dipendente ( ), qui: la quantità di dati da leggere. Non sono sicuro delle letture del disco rigido, ma ho esperienza (chimica / chemiometria) di solito qualcosa tra costante rumore assoluto e costante relativo (o comportamento più complicato a causa di diverse fonti di rumore). Qualsiasi deviazione dalla costante quantità assoluta del regime di rumore comporterà che gli intervalli di previsione per l'estrapolazione sono gravemente errati - di solito saranno troppo stretti.x

  • Anche se questi presupposti sono soddisfatti, considera quanto è grande l'intervallo di previsione effettivamente per quel tipo di estrapolazione:

    gamma di calibrazione Estrapolazione


    xt


1
+1, l'ipotesi di omoscedasticità in particolare è una bella aggiunta alla discussione qui. (Piccola nota, con "Punto", intendi Periodo. Come modo per enfatizzare la finalità della regola dichiarata nella frase precedente?)
gung - Ripristina Monica

@gung: Se punto è la parola allora è quello che voglio dire :-) grazie.
cbeleites insoddisfatto di SX il

2
Chiamare un punto "punto" viene utilizzato solo nella terminologia informatica e specialmente per gli URL (ad es. "Stats dot stackexchange dot com"). È un uso abbastanza nuovo in inglese, probabilmente di circa 20 anni.
gung - Ripristina Monica

1
Grazie per i tuoi punti aggiuntivi. Ho finito il mio lavoro qualche tempo fa, ma spero che entrambe le risposte a questa domanda possano aiutare gli altri studenti!
Flanfl,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.