Quando è R al quadrato negativo?


78

La mia comprensione è che non può essere negativo in quanto è il quadrato di R. Tuttavia ho eseguito una semplice regressione lineare in SPSS con una singola variabile indipendente e una variabile dipendente. Il mio output SPSS mi dà un valore negativo per . Se dovessi calcolare questo a mano da R, allora sarebbe positivo. Cosa ha fatto SPSS per calcolare questo come negativo?R 2 R 2R2R2R2

R=-.395
R squared =-.156
B (un-standardized)=-1261.611

Codice che ho usato:

DATASET ACTIVATE DataSet1. 
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA 
           /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN 
           /DEPENDENT valueP /METHOD=ENTER ageP

Ottengo un valore negativo. Qualcuno può spiegare cosa significa?

RSquared negativo

inserisci qui la descrizione dell'immagine


3
Questo risponde alla tua domanda? stats.stackexchange.com/questions/6181/… In caso contrario, fornire ulteriori informazioni: si tratta dell '"output SPSS" di quale procedura?
whuber

2
Il tuo modello di regressione lineare ha un'intercettazione?
NPE,

2
@ Ancora una volta, quale procedura SPSS stai usando?
whuber

1
@Anne ti suggerisco di ignorare la risposta delle serie temporali, perché i tuoi dati non sono serie temporali e non stai utilizzando una procedura per serie storiche. Sei davvero sicuro che il quadrato R sia dato come valore negativo? La sua grandezza è corretta: . Ho esaminato l'aiuto di SPSS per vedere se forse come convenzione il valore R-quadrato per le R negative è negato, ma non vedo alcuna prova che questo sia il caso. Forse potresti pubblicare una schermata dell'output in cui stai leggendo l'R-quadrato? (0.395)2=0.156
whuber

1
La variabile dipendente è il prezzo delle case, quindi è possibile che l'IC del 95% sia 120.000. Sfortunatamente non posso pubblicare qui i dati poiché sarebbe contrario alle condizioni di utilizzo dei dati.
Anne,

Risposte:


107

R 2 R 2 R 2R2 confronta l'adattamento del modello scelto con quello di una linea retta orizzontale (l'ipotesi nulla). Se il modello scelto si adatta peggio di una linea orizzontale, allora è negativo. Nota che non è sempre il quadrato di nulla, quindi può avere un valore negativo senza violare alcuna regola matematica. è negativo solo quando il modello scelto non segue l'andamento dei dati, quindi si adatta peggio di una linea orizzontale.R2R2R2

Esempio: adattare i dati a un modello di regressione lineare vincolato in modo che l' intercetta deve essere uguale a .1500Y1500

inserisci qui la descrizione dell'immagine

Il modello non ha alcun senso dato questi dati. È chiaramente il modello sbagliato, forse scelto per caso.

L'adattamento del modello (una linea retta vincolata a passare attraverso il punto (0,1500)) è peggiore dell'adattamento di una linea orizzontale. Quindi la somma dei quadrati dal modello è più grande della somma dei quadrati dalla linea orizzontale . viene calcolato come . Quando è maggiore di , calcola un valore negativo per .( S S tot ) R 2 1 - S S reg(SSreg)(SStot)R2 SSregSStotR21SSregSStotSSregSStotR2

Con regressione lineare senza vincoli, deve essere positivo (o zero) ed è uguale al quadrato del coefficiente di correlazione, . Un negativo è possibile solo con regressione lineare quando l'intercetta o la pendenza sono vincolate in modo che la linea di "adattamento migliore" (dato il vincolo) si adatti peggio di una linea orizzontale. Con la regressione non lineare, può essere negativo ogni volta che il modello più adatto (data l'equazione scelta e i suoi eventuali vincoli) si adatta ai dati peggiori di una linea orizzontale. r R 2 R 2R2rR2R2

In conclusione: un negativo non è un'impossibilità matematica o il segno di un errore del computer. Significa semplicemente che il modello scelto (con i suoi vincoli) si adatta molto male ai dati.R2


3
@JMS Questo è l'opposto di ciò che indica il mio Google: "/ ORIGIN" fissa l'intercetta su 0; "/ NOORIGIN" "dice a SPSS di non sopprimere la costante" ( Una guida introduttiva a SPSS per Windows )
whuber

10
@whuber Corretto. @ harvey-motulsky Un valore R ^ 2 negativo è un'impossibilità matematica (e suggerisce un errore del computer) per la regressione OLS regolare (con un'intercettazione). Questo è ciò che fa il comando 'REGRESSION' e di cosa chiede il poster originale. Inoltre, per la regressione OLS, R ^ 2 è la correlazione al quadrato tra i valori previsti e quelli osservati. Quindi, deve essere non negativo. Per una semplice regressione OLS con un predittore, ciò equivale alla correlazione quadrata tra il predittore e la variabile dipendente - di nuovo, questo deve essere non negativo.
Wolfgang,

1
@whuber Davvero. Colpa mia; ovviamente non uso SPSS - o leggo, apparentemente :)
JMS

1
@whuber. Ho aggiunto un paragrafo sottolineando che con la regressione lineare, R2 può essere negativo solo quando l'intercetta (o forse la pendenza) è vincolata. Senza vincoli, R2 deve essere positivo ed è uguale al quadrato di r, il coefficiente di correlazione.
Harvey Motulsky,

1
@HarveyMotulsky, in questo caso l'intercetta o la pendenza non erano vincolate. Sembra che tu stia dicendo che Rsquared può essere negativo solo se questi sono vincolati. Puoi approfondire cosa potrebbe essersi verificato in questo caso particolare?
Anne,

19

Hai dimenticato di includere un'intercettazione nella tua regressione? Non ho familiarità con il codice SPSS, ma a pagina 21 di Hayashi's Econometrics:

Se i regressori non includono una costante ma (come fanno alcuni pacchetti software di regressione) si calcola comunque con la formulaR2

R2=1i=1nei2i=1n(yiy¯)2

quindi può essere negativo. Questo perché, senza il beneficio di un'intercettazione, la regressione potrebbe fare peggio della media del campione in termini di tracciamento della variabile dipendente (ovvero, il numeratore potrebbe essere maggiore del denominatore).R2

Verificherei e assicurerei che SPSS includa un'intercettazione nella tua regressione.


4
Il sottocomando NOORIGIN nel suo codice dice che l'intercettazione era inclusa nel modello
ttnphns,

2
quello è strano. Avrei immaginato che NOORIGINciò significherebbe che l'intercettazione non è stata inclusa nel modello, semplicemente cancellando il nome.
Matt O'Brien,

6

Questo può accadere se si dispone di una serie temporale Niid e si costruisce un modello ARIMA inappropriato della forma (0,1,0) che è un modello di camminata casuale di prima differenza senza deriva, quindi la varianza (somma dei quadrati - SSE) dei residui sarà maggiore della varianza (somma dei quadrati SSO) della serie originale. Pertanto l'equazione 1-SSE / SSO produrrà un numero negativo quando SSE esegue SSO. Lo abbiamo visto quando gli utenti si sono semplicemente adattati a un modello presunto o hanno utilizzato procedure inadeguate per identificare / formare una struttura ARIMA appropriata. Il messaggio più grande È che un modello può distorcere (proprio come un paio di occhiali cattivi) la tua visione. Senza avere accesso ai tuoi dati altrimenti avrei un problema a spiegare i risultati errati. Hai portato questo all'attenzione di IBM?

L'idea di un modello presunto controproducente è stata ripresa da Harvey Motulsky. Ottimo post Harvey!


1
statistica. Grazie. No, non ho parlato con IBM. I dati non sono serie temporali. Viene dai dati temporali.
Anne,

5
@Anne e altri: poiché i tuoi dati non sono serie temporali e non stai utilizzando una procedura per serie temporali, ignora la mia risposta. Altri che hanno osservato quadrati R negativi quando coinvolti in serie temporali potrebbero trovare il mio post interessante e tangenzialmente informativo. Altri purtroppo potrebbero non esserlo.
IrishStat,

@IrishStat: Potresti per favore aggiungere un link al post di Harvey Motulsky?
kjetil b halvorsen,

Harvey ha risposto alla domanda qui.
IrishStat,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.