Per rispondere alla prima domanda , considera il modello
Y=X+sin(X)+ε
con iid di zero medio e varianza finita. All'aumentare dell'intervallo di (pensato come fisso o casuale), diventa 1. Tuttavia, se la varianza di è piccola (circa 1 o meno), i dati sono "notevolmente non lineari". Nei grafici, .X R 2 ε v a r ( ε ) = 1εXR2εvar(ε)=1
Per inciso, un modo semplice per ottenere un piccolo è quello di dividere le variabili indipendenti in intervalli ristretti. La regressione (utilizzando esattamente lo stesso modello ) all'interno di ciascun intervallo avrà un basso anche quando la regressione completa basata su tutti i dati ha un valore elevatoR 2 R 2R2R2R2 . Contemplare questa situazione è un esercizio informativo e una buona preparazione per la seconda domanda.
Entrambi i grafici seguenti utilizzano gli stessi dati. L' per la regressione completa è 0,86. Le per le sezioni (di larghezza 1/2 da -5/2 a 5/2) sono .16, .18, .07, .14, .08, .17, .20, .12, .01 , .00, lettura da sinistra a destra. Semmai, gli adattamenti migliorano nella situazione suddivisa perché le 10 linee separate possono conformarsi più da vicino ai dati nei loro intervalli ristretti. Sebbene l' per tutte le sezioni sia molto al di sotto dell'intero , né la forza della relazione, la linearità , né alcun aspetto dei dati (tranne l'intervallo di utilizzato per la regressione) è cambiato.R 2 R 2 R 2 XR2R2R2R2X
(Si potrebbe obiettare che questa procedura di slicing modifica la distribuzione di Questo è vero, ma corrisponde tuttavia all'uso più comune di nella modellazione ad effetti fissi e rivela il grado in cui sta parlando del varianza di nella situazione degli effetti casuali. In particolare, quando è costretto a variare entro un intervallo più piccolo del suo intervallo naturale,R 2 R 2 X X R 2XR2R2XXR2 solito diminuisce.)
Il problema di base con è che dipende da troppe cose (anche se regolate in regressione multipla), ma soprattutto dalla varianza delle variabili indipendenti e dalla varianza dei residui. Normalmente non ci dice nulla sulla "linearità" o sulla "forza della relazione" o addirittura sulla "bontà di adattamento" per confrontare una sequenza di modelli.R2
Il più delle volte puoi trovare una statistica migliore diR2 . Per la selezione del modello è possibile consultare AIC e BIC; per esprimere l'adeguatezza di un modello, guarda la varianza dei residui.
Questo ci porta finalmente alla seconda domanda . Una situazione in cui potrebbe essere utile è quando le variabili indipendenti sono impostate su valori standard, essenzialmente controllando l'effetto della loro varianza. Quindi è in realtà un proxy per la varianza dei residui, opportunamente standardizzata. 1 - R 2R21−R2