La banda grigia è una banda di confidenza per la linea di regressione. Non ho abbastanza familiarità con ggplot2 per sapere con certezza se si tratta di una banda di confidenza 1 SE o di una fascia di confidenza al 95%, ma credo che sia la prima ( Modifica: evidentemente è una CI al 95% ). Una banda di confidenza fornisce una rappresentazione dell'incertezza sulla linea di regressione. In un certo senso, potresti pensare che la vera linea di regressione sia alta quanto la parte superiore di quella banda, bassa quanto la parte inferiore, o che si muova diversamente all'interno della banda. (Nota che questa spiegazione è intesa come intuitiva e non tecnicamente corretta, ma la spiegazione completamente corretta è difficile da seguire per la maggior parte delle persone.)
Dovresti usare la banda di confidenza per aiutarti a capire / pensare alla linea di regressione. Non dovresti usarlo per pensare ai punti di dati grezzi. Ricorda che la linea di regressione rappresenta la media di in ogni punto di (se hai bisogno di capirlo più a fondo, può aiutarti a leggere la mia risposta qui: qual è l'intuizione dietro le distribuzioni gaussiane condizionate? ). D'altra parte, certamente non ti aspetti che tutti i punti di dati osservati siano uguali alla media condizionale. In altre parole, non è necessario utilizzare la banda di confidenza per valutare se un punto dati è un valore anomalo. YX
( Modifica: questa nota è periferica rispetto alla domanda principale, ma cerca di chiarire un punto per il PO. )
Una regressione polinomiale non è una regressione non lineare, anche se ciò che si ottiene non sembra una linea retta. Il termine "lineare" ha un significato molto specifico in un contesto matematico, in particolare, che i parametri che si stanno valutando - i beta - sono tutti coefficienti. Una regressione polinomiale significa solo che le tue covariate sono , , , ecc., Cioè hanno una relazione non lineare tra loro, ma i tuoi beta sono ancora coefficienti, quindi è ancora un modello lineare . Se i tuoi beta fossero, diciamo, esponenti, allora avresti un modello non lineare. XX2X3
In breve, il fatto che una linea appaia o meno dritta non ha nulla a che fare con il fatto che un modello sia lineare o meno. Quando si adatta un modello polinomiale (diciamo con e ), il modello non "sa" che, ad esempio, è in realtà solo il quadrato di . "Pensa" che queste siano solo due variabili (sebbene possa riconoscere che esiste una certa multicollinearità). Così, in realtà è giusto una regressione (dritto / piatto) piano in uno spazio tridimensionale piuttosto che un (curvo) regressione linea in uno spazio bidimensionale. Questo non è utile per noi a cui pensare, e in effetti, estremamente difficile da vedere poiché è una funzione perfetta diXX2X2X1X2X. Di conseguenza, non ci preoccupiamo di pensarlo in questo modo e i nostri grafici sono in realtà proiezioni bidimensionali sul piano . Tuttavia, nello spazio appropriato, la linea è in realtà "diritta" in un certo senso. ( X, Y )
Da una prospettiva matematica, un modello è lineare se i parametri che si sta tentando di stimare sono coefficienti. Per chiarire ulteriormente, prendere in considerazione il confronto tra il modello di regressione lineare standard (OLS) e un semplice modello di regressione logistica presentato in due diverse forme:
Il modello principale è la regressione OLS, mentre i due inferiori sono la regressione logistica, sebbene presentati in modi diversi. In tutti e tre i casi, quando si adatta il modello, si stanno valutando i . I primi due modelli sono lineari , perché tutti i
Y= β0+ β1X+ ε
ln( π( Y)1 - π( Y)) = β0+ β1X
π( Y) = exp( β0+β1X)1 + exp( β0+β1X)
ββs sono coefficienti, ma il modello inferiore non è lineare (in questa forma) perché s sono esponenti. (Questo può sembrare abbastanza strano, ma la regressione logistica è un'istanza del modello lineare
generalizzato , perché può essere riscritta come modello lineare. Per ulteriori informazioni a riguardo, può essere utile leggere la mia risposta qui:
Differenza tra i modelli logit e probit .)
β