È


234

Stavo sfogliando alcune note di lezione di Cosma Shalizi (in particolare, la sezione 2.1.1 della seconda lezione ), e mi è stato ricordato che puoi ottenere molto bassi R2anche quando hai un modello completamente lineare.

Per parafrasare l'esempio di Shalizi: supponiamo di avere un modello Y=aX+ϵ , dove a è noto. Quindi e la quantità di varianza spiegata è , quindi . Questo va a 0 come e a 1 come .Var[Y]=a2Var[x]+Var[ϵ]R 2 = a 2 V a r [ x ]a2Var[X] Var[X]0Var[X]R2=a2Var[x]a2Var[X]+Var[ϵ]Var[X]0Var[X]

Al contrario, puoi ottenere un elevato anche quando il tuo modello è notevolmente non lineare. (Qualcuno ha un buon esempio di mano?)R2

Quindi quando una statistica utile e quando dovrebbe essere ignorata?R2


5
Si prega di notare il thread di commento correlato in un'altra domanda recente
whuber

36
Non ho nulla di statistico da aggiungere alle eccellenti risposte fornite (specialmente quella di @whuber) ma penso che la risposta giusta sia "R-quadrato: utile e pericoloso". Piace praticamente qualsiasi statistica.
Peter Flom

32
La risposta a questa domanda è: "Sì"
Fomite

Vedi stats.stackexchange.com/a/265924/99274 per l'ennesima risposta.
Carl

L'esempio dallo script non è molto utile a meno che tu non possa dirci cos'è ? Se anche è una costante, allora il tuo argomento è sbagliato, da allora Tuttavia, se non è costante , per favore traccia contro per il piccolo e dimmi che è lineare ........ϵ ϵ Var ( a X + b ) = a 2 Var ( X ) ϵ Y X Var ( X )Var(aX+ϵ)ϵϵVar(aX+b)=a2Var(X)ϵYXVar(X)
Dan

Risposte:


264

Per rispondere alla prima domanda , considera il modello

Y=X+sin(X)+ε

con iid di zero medio e varianza finita. All'aumentare dell'intervallo di (pensato come fisso o casuale), diventa 1. Tuttavia, se la varianza di è piccola (circa 1 o meno), i dati sono "notevolmente non lineari". Nei grafici, .X R 2 ε v a r ( ε ) = 1εXR2εvar(ε)=1

Breve distanza di X

Gamma più ampia di X

Per inciso, un modo semplice per ottenere un piccolo è quello di dividere le variabili indipendenti in intervalli ristretti. La regressione (utilizzando esattamente lo stesso modello ) all'interno di ciascun intervallo avrà un basso anche quando la regressione completa basata su tutti i dati ha un valore elevatoR 2 R 2R2R2R2 . Contemplare questa situazione è un esercizio informativo e una buona preparazione per la seconda domanda.

Entrambi i grafici seguenti utilizzano gli stessi dati. L' per la regressione completa è 0,86. Le per le sezioni (di larghezza 1/2 da -5/2 a 5/2) sono .16, .18, .07, .14, .08, .17, .20, .12, .01 , .00, lettura da sinistra a destra. Semmai, gli adattamenti migliorano nella situazione suddivisa perché le 10 linee separate possono conformarsi più da vicino ai dati nei loro intervalli ristretti. Sebbene l' per tutte le sezioni sia molto al di sotto dell'intero , né la forza della relazione, la linearità , né alcun aspetto dei dati (tranne l'intervallo di utilizzato per la regressione) è cambiato.R 2 R 2 R 2 XR2R2R2R2X

Nuvola di punti con regressione completa

Nuvola di punti affettata con 10 regressioni

(Si potrebbe obiettare che questa procedura di slicing modifica la distribuzione di Questo è vero, ma corrisponde tuttavia all'uso più comune di nella modellazione ad effetti fissi e rivela il grado in cui sta parlando del varianza di nella situazione degli effetti casuali. In particolare, quando è costretto a variare entro un intervallo più piccolo del suo intervallo naturale,R 2 R 2 X X R 2XR2R2XXR2 solito diminuisce.)

Il problema di base con è che dipende da troppe cose (anche se regolate in regressione multipla), ma soprattutto dalla varianza delle variabili indipendenti e dalla varianza dei residui. Normalmente non ci dice nulla sulla "linearità" o sulla "forza della relazione" o addirittura sulla "bontà di adattamento" per confrontare una sequenza di modelli.R2

Il più delle volte puoi trovare una statistica migliore diR2 . Per la selezione del modello è possibile consultare AIC e BIC; per esprimere l'adeguatezza di un modello, guarda la varianza dei residui.

Questo ci porta finalmente alla seconda domanda . Una situazione in cui potrebbe essere utile è quando le variabili indipendenti sono impostate su valori standard, essenzialmente controllando l'effetto della loro varianza. Quindi è in realtà un proxy per la varianza dei residui, opportunamente standardizzata. 1 - R 2R21R2


26
Che risposta sorprendentemente completa e reattiva di @whuber
Peter Flom

AIC e BIC non si adattano esplicitamente al numero di parametri stimati? In tal caso, fare un confronto con R ^ 2 non aggiustato sembra ingiusto. Quindi chiedo, la tua critica è corretta R ^ 2? Sembra che se vieni penalizzato per il "taglio" che R ^ 2 aggiustato potrebbe tornare a raccontarti la bontà di adattamento del modello.
russellpierce,

7
@dr La mia critica si applica perfettamente a regolato . Gli unici casi in cui c'è molta differenza tra e la regolazione sono quando si utilizzano carichi di parametri rispetto ai dati. Nell'esempio di slicing c'erano quasi 1.000 punti dati e lo slicing aggiungeva solo 18 parametri; le rettifiche a non influirebbero nemmeno sulla seconda cifra decimale, tranne forse nei segmenti finali in cui c'erano solo poche decine di punti dati: e li abbasserebbe , rafforzando in realtà l'argomento. R 2 R 2 R 2R2R2R2R2
whuber

5
La risposta alla domanda nel tuo primo commento dovrebbe dipendere dal tuo obiettivo e ci sono diversi modi per interpretare "test per una relazione lineare". Uno è, si desidera verificare se il coefficiente è diverso da zero. Un altro è, vuoi sapere se ci sono prove di non linearità. (di per sé) non è terribilmente utile per nessuno dei due, anche se sappiamo che un alto con molti dati significa che il loro diagramma a dispersione appare approssimativamente lineare - come il mio secondo o l'esempio di @ macro. Per ciascun obiettivo esiste un test appropriato e il valore p associato. R 2R2R2
whuber

4
Per la tua seconda domanda dovremmo chiederci cosa potrebbe essere inteso per "migliore" misura lineare. Un candidato sarebbe adatto a minimizzare la somma residua di quadrati. Puoi tranquillamente utilizzare come proxy per questo, ma perché non esaminare l'errore quadratico medio rettificato (corretto) stesso? È una statistica più utile. R2
whuber

47

Il tuo esempio si applica solo quando la variabile dovrebbe essere nel modello . Certamente non si applica quando si usano le solite stime dei minimi quadrati. Per vedere questo, nota che se stimiamo minimo di quadrati nel tuo esempio, otteniamo:aX a

a^=1Ni=1NXiYi1Ni=1NXi2=1Ni=1NXiYisX2+X¯2
Dove è la varianza (campione) di e è la media (campione) disX2=1Ni=1N(XiX¯)2XX¯=1Ni=1NXiX

a^2Var[X]=a^2sX2=(1Ni=1NXiYi)2sX2(sX2sX2+X¯2)2

Ora il secondo termine è sempre inferiore a (uguale a nel limite), quindi otteniamo un limite superiore per il contributo a dalla variabile :11R2X

a^2Var[X](1Ni=1NXiYi)2sX2

Quindi a meno che , vedremo effettivamente come (perché il numeratore va a zero, ma il denominatore va in ). Inoltre, potremmo far convergere in qualcosa tra e seconda della rapidità con cui i due termini divergono. Ora il termine sopra divergerà generalmente più velocemente di se dovrebbe essere nel modello e più lento se non dovrebbe essere nel modello. In entrambi i casi va nella direzione giusta.(1Ni=1NXiYi)2R20sX2Var[ϵ]>0R201sX2XXR2

E nota anche che per qualsiasi set di dati finito (cioè reale) non possiamo mai avere meno che tutti gli errori siano esattamente zero. Ciò indica sostanzialmente che è una misura relativa, piuttosto che assoluta. A meno che sia effettivamente uguale a , possiamo sempre trovare un modello di adattamento migliore. Questo è probabilmente l'aspetto "pericoloso" di in quanto, essendo ridimensionato tra e , sembra che possiamo intercettarlo in senso assoluto.R2=1R2R21R201

È probabilmente più utile esaminare la velocità con cui diminuisce quando si aggiungono variabili nel modello. E ultimo, ma non meno importante, non dovrebbe mai essere ignorato nella selezione delle variabili, poiché è effettivamente una statistica sufficiente per la selezione delle variabili: contiene tutte le informazioni sulla selezione delle variabili presenti nei dati. L'unica cosa necessaria è scegliere il calo di che corrisponde a "adattamento degli errori" - che di solito dipende dalla dimensione del campione e dal numero di variabili.R 2 R 2R2R2R2


4
+1 Molti bei punti. I calcoli aggiungono approfondimenti quantitativi alle risposte precedenti.
whuber

27

Se posso aggiungere un esempio di quando è pericoloso. Molti anni fa stavo lavorando su alcuni dati biometrici ed essendo giovane e sciocco sono stato felice quando ho trovato alcuni valori statisticamente significativi per le mie fantasiose regressioni che avevo costruito usando le funzioni graduali. Solo dopo aver guardato indietro dopo la mia presentazione a un vasto pubblico internazionale, mi sono reso conto che, data l'enorme varianza dei dati, combinata con la possibile scarsa rappresentazione del campione rispetto alla popolazione, un di 0,02 era completamente privo di significato anche se era "statisticamente significativo" ...R2R2R2

Chi lavora con le statistiche deve comprendere i dati!


15
Nessuna statistica è pericolosa se capisci cosa significa. L'esempio di Sean non ha nulla di speciale a che fare con il quadrato R, è il problema generale di essere innamorati di significato statistico. Quando facciamo test statistici in pratica, siamo interessati solo a differenze significative. Due popolazioni non hanno mai distribuzioni identiche. Se sono vicini alla parità non ci interessa. Con campioni molto grandi possiamo rilevare piccole differenze non importanti. Ecco perché nella mia consulenza di ricerca medica sottolineo la differenza tra significato clinico e statistico.
Michael Chernick,

11
Inizialmente i miei clienti spesso ritengono che il significato statistico sia l'obiettivo della ricerca. Devono dimostrare che non è così.
Michael Chernick,

Un statisticamente significativo a 0,02 significa semplicemente che disponevi di dati sufficienti per affermare che non è 0. Ma è vicino a 0. Quindi c'è una relazione molto piccola tra le variabili indipendenti e la variabile dipendente. R2R2
Michael Chernick, il

1
Assolutamente d'accordo Michael. Una piccola conoscenza delle statistiche può essere pericolosa! :) Sulla base di questa intuizione molti anni fa, ho lavorato duramente per non ripetere quell'errore stupido facendo molti studi per capire meglio cosa significano veramente le statistiche. Un master e un dottorato in statistica e penso ancora di avere molta strada da fare con i miei studi!
Sean,

Grazie Sean. Apprezzo i tuoi commenti e umiltà.
Michael Chernick,

16

Quando si ha un singolo predittore è esattamente interpretata come la percentuale di variazione di che può essere spiegato dal lineare rapporto con . Questa interpretazione deve essere tenuta presente quando si considera il valore di .R2YXR2

È possibile ottenere un grande da una relazione non lineare solo quando la relazione è vicina a lineare. Ad esempio, supponiamo dove e . Se si esegue il calcolo diR2Y=eX+εXUniform(2,3)εN(0,1)

R2=cor(X,eX+ε)2

lo troverai intorno a (l'ho approssimato solo per simulazione) nonostante la relazione non sia chiaramente lineare. Il motivo è che assomiglia moltissimo a una funzione lineare nell'intervallo .e X ( 2 , 3 ).914eX(2,3)


1
Alle osservazioni di seguito di Erik e Macro non credo che qualcuno ce l'abbia per me ed è probabilmente meglio avere una risposta combinata invece di tre distinte, ma perché è importante al punto che così tante discussioni si concentrano su come tu scrivi cose e dove le scrivi invece di concentrarti su ciò che viene detto?
Michael Chernick,

8
@MichaelChernick, non credo che ci sia "così tanta" discussione su come si scrivono le cose. Le linee guida che abbiamo cercato di aiutarti sono più simili a "se tutti lo facessero, questo sito sarebbe molto disorganizzato e difficile da seguire". Può sembrare che ci siano molte discussioni su queste cose, ma probabilmente è solo perché sei stato un partecipante molto attivo da quando ti sei unito, il che è fantastico, dal momento che porti chiaramente molto al tavolo. Se vuoi parlarne di più, considera di iniziare una discussione su meta piuttosto che una discussione di commento sotto la mia risposta indipendente :)
Macro

cosa succede se uno allarga supporta la distribuzione uniforme nel tuo esempio?
Qbik

Dato che ho acquisito esperienza su questo sito, sono d'accordo con Macro che è importante essere concisi e consolidati.
Michael Chernick,

15

Una situazione che vorresti evitare è la regressione multipla, in cui l'aggiunta di variabili predittive irrilevanti al modello può in alcuni casi aumentare . Questo può essere risolto utilizzando invece il valore modificato , calcolato comeR2R2R2

npR¯2=1(1R2)n1np1 dove è il numero di campioni di dati e è il numero di regressori che non contano il termine costante .np


21
Si noti che l'aggiunta di variabili non pertinenti è garantita per aumentare (non solo in "alcuni casi") a meno che tali variabili non siano completamente collineari con le variabili esistenti. R2
whuber

6
  1. Un buon esempio per elevato con una funzione non lineare è la funzione quadratica limitata all'intervallo . Con rumore 0 non avrà un quadrato di 1 se hai 3 o più punti poiché non si adatteranno perfettamente su una linea retta. Ma se i punti di progettazione sono sparsi uniformemente su l' che otterrai sarà alto forse sorprendentemente. Questo potrebbe non essere il caso se hai molti punti vicino a 0 e molto vicino a 1 con poco o niente nel mezzo.R2y=x2[0,1]R2[0,1]R2

  2. R2 sarà scadente nel caso lineare perfetto se il termine del rumore ha una grande varianza. Quindi puoi prendere il modello che è tecnicamente un modello lineare perfetto ma lascia che la varianza in e tenda all'infinito e avrai va a 0. Nonostante le sue carenze, il quadrato R misura la percentuale di varianza spiegata dai dati e quindi misura la bontà di adattamento. Un elevato indica un buon adattamento, ma dobbiamo comunque fare attenzione al fatto che il corretto adattamento sia causato da troppi parametri per la dimensione del set di dati che abbiamo.Y=x+ϵR2R2

  3. Nella situazione di regressione multipla c'è il problema di overfitting. Aggiungi variabili e aumenterà sempre. L' corretto risolve un po 'questo in quanto tiene conto del numero di parametri.R2R2

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.