Perché non possiamo usare


10

Immagina di avere un modello di regressione lineare con variabile dipendente . Troviamo il suo . Ora facciamo un'altra regressione, ma questa volta su , e allo stesso modo troviamo la sua . Mi è stato detto che non posso confrontare entrambi per vedere quale modello è più adatto. Perché? La ragione che mi è stata data era che avremmo confrontato la variabilità di diverse quantità (diverse variabili dipendenti). Non sono sicuro che questo dovrebbe essere un motivo sufficiente per questo.yRy2log(y)Rlog(y)2R2

C'è anche un modo per formalizzare questo?

Qualsiasi aiuto sarebbe apprezzato.


1
Sospetto che questo potrebbe essere stato discusso in precedenza su Cross Validated. Hai attraversato approfonditamente discussioni simili? Inoltre, ti interessano le diverse variabili dipendenti (come il PIL rispetto al prezzo del petrolio) o le trasformazioni della stessa variabile (crescita del PIL rispetto al PIL) o entrambe?
Richard Hardy,

@RichardHardy Ne ho trovati alcuni, ma penso che fossero tangenti alla mia domanda. Come questo: stats.stackexchange.com/questions/235117/… La risposta afferma semplicemente di sì, non spiegando davvero il perché.
Un vecchio nel mare.

@RichardHardy Sono interessato alle trasformazioni della variabile dipendente.
Un vecchio nel mare.

1
R2 confronti di senso solo tra modelli nidificati.
LVRao,

@LVRao Grazie per il tuo commento. Perché è così?
Un vecchio nel mare.

Risposte:


8

È una buona domanda, perché "quantità diverse" non sembrano essere una spiegazione.

Ci sono due motivi importanti per diffidare dell'uso di per confrontare questi modelli: è troppo grezzo ( non valuta davvero la bontà dell'adattamento ) e sarà inappropriato per almeno uno dei modelli. Questa risposta affronta quel secondo problema.R2


Trattamento teorico

R 2 yR2 confronta la varianza dei residui del modello con la varianza delle risposte. La varianza è una deviazione additiva quadrata media da un adattamento. Pertanto, possiamo comprendere come confronto tra due modelli di risposta . R2y

Il modello "base" è

(1)yio=μ+δio

dove è un parametro (la risposta media teorica) e sono "errori" casuali indipendenti, ciascuno con media zero e una varianza comune di .δ i τ 2μδioτ2

Il modello di regressione lineare introduce i vettori come variabili esplicative:Xio

(2)yio=β0+Xioβ+εio.

Il numero e il vettore sono i parametri (l'intercetta e le "pendenze"). Di nuovo ε i sono errori casuali indipendenti, ciascuno con media zero e varianza comune σ 2 . ββ0βεioσ2

stima la riduzione della varianza, τ 2 - σ 2 , rispetto alla varianza originale τ 2 .R2τ2-σ2τ2

Quando si prendono i logaritmi e si usano i minimi quadrati per adattarsi al modello , si sta implicitamente confrontando una relazione del modulo

(1a)log(yio)=ν+ζio

a uno dei moduli

(2a)log(yio)=γ0+Xioγ+ηio.

Questi sono proprio come i modelli e ( 2 ) ma con le risposte del registro. Tuttavia, non equivalgono ai primi due modelli. Ad esempio, esponenziando entrambi i lati di ( 2 a ) darebbe(1)(2)(2un')

yio=exp(log(yio))=exp(γ0+Xioγ)exp(ηio).

I termini di errore ora moltiplicano la relazione sottostante y i = exp ( γ 0 + x i γ ) . Di conseguenza, le varianze delle risposte sonoexp(ηio)yio=exp(γ0+Xioγ)

Var(yio)=exp(γ0+Xioγ)2Var(eηio).

Le varianze dipendono dalla . Xio Questo non è il modello , che suppone che le varianze siano tutte uguali a una costante σ 2 .(2)σ2

Di solito, solo una di queste serie di modelli può essere una descrizione ragionevole dei dati. Applicare il secondo set e ( 2 a ) quando il primo set ( 1 ) e ( 2 ) è un buon modello, o il primo quando il secondo è buono, equivale a lavorare con un set di dati eteroscedastico non lineare, che pertanto dovrebbe adattarsi male a una regressione lineare. Quando una di queste situazioni è il caso, potremmo aspettarci che il modello migliore mostri l' R 2 più grande . Tuttavia, che dire se non è nemmeno il caso? Possiamo ancora aspettarci il più grande(1un')(2un')(1)(2)R2 per aiutarci a identificare il modello migliore?R2

Analisi

In un certo senso questa non è una buona domanda, perché se nessuno dei due modelli è appropriato, dovremmo trovare un terzo modello. Tuttavia, il problema che ci attende riguarda l'utilità di nell'aiutarci a prendere questa decisione. Inoltre, molte persone pensare prima la forma del rapporto tra x ed y --is è lineare, è esso logaritmica, è qualcos'altro - senza preoccuparsi sulle caratteristiche degli errori di regressione ε i o η i . Consideriamo quindi una situazione in cui il nostro modello ottiene la relazione giusta ma ha torto sulla sua struttura di errore, o viceversa .R2Xyεioηio

Tale modello (che si verifica comunemente) è un minimo quadrato adatto a una relazione esponenziale,

(3)yio=exp(α0+Xioα)+θio.

Ora il logaritmo di è una funzione lineare di x , come in ( 2 a ) , ma i termini di errore θ i sono additivi , come in ( 2 ) . In questi casi R 2 noi potrebbe indurre in errore nella scelta del modello con il rapporto sbagliato tra x e y .yX(2a)θi(2)R2xy

Ecco un'illustrazione del modello . Ci sono 300 osservazioni per x i (un vettore vettoriale equamente distribuito tra 1.0 e 1.6 ). Il pannello di sinistra mostra i dati originali ( x , y ) mentre il pannello di destra mostra i dati trasformati ( x , log ( y ) ) . Le linee rosse tratteggiate tracciano la vera relazione sottostante, mentre le linee blu continue mostrano gli accoppiamenti dei minimi quadrati. I dati e la vera relazione sono gli stessi in entrambi i pannelli: solo i modelli e le loro misure differiscono.(3)300xi1.01.6(x,y)(x,log(y))

Grafici a dispersione

R20.700.56R2R20,70


log(y)(3)


Le critiche su R ^ 2 non sono giuste. Come ogni strumento il suo utilizzo dovrebbe essere ben compreso. Nei tuoi esempi sopra R ^ 2 sta dando il messaggio corretto. R ^ 2 sta in qualche modo scegliendo il miglior rapporto segnale-rumore. Ovviamente non è ovvio mettere due grafici con scale totalmente diverse affiancate. In realtà il segnale a sinistra è molto forte rispetto alle deviazioni del rumore.
Cagdas Ozgenc,

@Cagdas Sembra che tu offra un messaggio intrinsecamente contraddittorio. Poiché le due trame sono inevitabilmente su due scale diverse - una traccia le risposte originali e l'altra traccia i loro logaritmi - supplicare che qualcosa di "non ovvio" a causa di questo fatto inevitabile non sembra supportare il tuo caso. Lamentarsi che questa risposta sia "ingiusta" in realtà non regge alla luce dell'analisi esplicita dei modelli che ho offerto.
whuber

Non c'è contraddizione in ciò che sto dicendo. R ^ 2 sceglie il rapporto segnale / rumore più elevato. Ecco cosa sta facendo. Cercare di trasformarlo in qualcos'altro e affermare che non funziona è assolutamente sbagliato. Tutte le critiche a R ^ 2 si applicano anche ad altri indicatori di bontà di adattamento quando applicati a variabili di risposta diverse, ma per qualche ragione R ^ 2 è scelto come capro espiatorio.
Cagdas Ozgenc,

R2R2R2

2
Grazie per l'aiuto whuber. Ci scusiamo per l'accettazione tardiva, ultimamente non ho avuto molto tempo libero. ;)
Un vecchio nel mare.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.