Perché la regressione sulla varianza?


19

Sto leggendo questa nota .

A pagina 2, afferma:

"Quanto della varianza nei dati è spiegata da un determinato modello di regressione?"

"L'interpretazione della regressione riguarda la media dei coefficienti; l'inferenza riguarda la loro varianza."

Ho letto di tali dichiarazioni numerose volte, perché dovremmo preoccuparci di "quanta parte della varianza nei dati è spiegata dal modello di regressione dato?" ... più specificamente, perché "varianza"?


"[V] ariance" al contrario di cosa, la deviazione standard? Cosa pensi che dovremmo preoccuparci della regressione? Quali sono i tuoi obiettivi tipici nella costruzione di un modello di regressione?
gung - Ripristina Monica

La varianza ha unità diverse rispetto alla quantità modellata, quindi ho sempre trovato difficile interpretare la "proporzione di varianza spiegata dal modello".
vola il

Risposte:


18

perché dovremmo preoccuparci di "quanta varianza nei dati è spiegata dal modello di regressione dato?"

Per rispondere a questo è utile pensare esattamente a cosa significhi che una determinata percentuale della varianza sia spiegata dal modello di regressione.

Let Y1,...,Yn è la variabile di risultato. La consueta varianza del campione della variabile dipendente in un modello di regressione è ora Let Y i f (Xi)essere la previsione diYiriferiscono al minimi quadrati lineare modello di regressione con valori predittoriX Ili. Come dimostratoqui, questa varianza sopra può essere partizionata come:1

1n1i=1n(YiY¯)2
Y^if^(Xi)YiXi
1n1i=1n(YiY¯)2=1n1i=1n(YiY^i)2residual variance+1n1i=1n(Y^iY¯)2explained variance

Nella regressione dei minimi quadrati, la media dei valori previsti è , quindi la varianza totale è uguale alla differenza quadrata media tra i valori osservati e previsti (varianza residua) più la varianza campionaria delle previsioni stesse (varianza spiegata), che sono solo una funzione della X s . Pertanto la varianza "spiegata" può essere considerata come la varianza in Y i che è attribuibile alla variazione in X i . La proporzione della varianza in Y i che è "spiegata" (cioè la proporzione di variazione in Y i che è attribuibile alla variazione in XY¯XYiXiYiYi ) viene talvolta definita comeXi . R2

Ora usiamo due esempi estremi per chiarire perché questa decomposizione della varianza è importante:

  • (1) I predittori non hanno nulla a che fare con le risposte . In tal caso, il migliore predittore imparziale (nel senso dei minimi quadrati) per è Y i = ¯ Y . Pertanto la varianza totale in Y i è appena uguale alla varianza residua e non è correlata alla varianza nei predittori X i .YiY^i=Y¯YiXi

  • (2) I predittori sono perfettamente linearmente correlati ai predittori . In tal caso, le previsioni sono esattamente corretti e Y i = Y i . Pertanto non vi è alcuna varianza residua e tutta la varianza nel risultato è la varianza nelle previsioni stesse, che sono solo una funzione dei predittori. Pertanto, tutta la varianza nel risultato è semplicemente dovuta alla varianza nei predittori X i .Y^i=YiXi

Situazioni con dati reali spesso si trovano tra i due estremi, così come la proporzione di varianza che può essere attribuita a queste due fonti. Il più "spiegato varianza" c'è - cioè più della variazione in che è dovuta alla variazione di X i - migliori sono le previsioni Y i sta eseguendo (cioè più piccolo è il "varianza residuo"), che è un altro modo di dire che il modello dei minimi quadrati si adatta bene. YiXiY^i


Questa è come la mia risposta, ma forse un po 'meglio spiegata. Inoltre vedo un possibile criterio che si potrebbe menzionare è che avrei dovuto scrivere la variazione relativa alla media di Y.
Michael R. Chernick

1
@MichaelChernick, sì, ma nella regressione dei minimi quadrati (di cui penso che l'OP stia parlando in base alle diapositive collegate), la media dei valori previsti è uguale alla media delle , quindi puoi semplicemente chiamarla la varianza di esempio della predizioni. Y
Macro

Ho apportato la modifica alla mia risposta perché Yb è necessario affinché la decomposizione della varianza funzioni correttamente.
Michael R. Chernick,

Sì, mi era chiaro che si riferiva alla regressione dei minimi quadrati. Molto di ciò che hai scritto è solo ripetere ciò che ho detto in modo leggermente diverso. Ti ho ancora dato un +1.
Michael R. Chernick,

1
Macro, il punto è che si verifica questa decomposizione solo se e quindi la "regressione" comporta intrinsecamente una proiezione ortogonale in uno spazio che contiene il vettore costante. Nota che possiamo facilmente "interrompere" questa decomposizione semplicemente rimuovendo il vettore costante dal nostro modello, che sembra in conflitto con il tuo commento più recente. yy^,y^y¯1=0
cardinale il

9

Non posso correre con i grandi cani delle statistiche che hanno risposto prima di me, e forse il mio pensiero è ingenuo, ma lo guardo in questo modo ...

Immagina di essere in una macchina e stai andando giù per la strada e girando la ruota a destra e sinistra e premendo freneticamente il pedale del gas e i freni. Eppure l'auto si muove senza intoppi, senza essere influenzata dalle tue azioni. Sospetteresti immediatamente di non essere in una vera macchina, e forse se guardassimo da vicino, determineremmo che sei in un giro a Disney World. (Se fossi in una vera macchina, rischieresti di essere mortale, ma non andiamo lì.)

D'altra parte, se stavi guidando lungo la strada in un'auto e girando la ruota leggermente leggermente a sinistra o a destra immediatamente hai portato la macchina a muoversi, il taping dei freni ha provocato una forte decelerazione, mentre la pressione del pedale del gas ti ha restituito al posto a sedere. Potresti sospettare di essere in un'auto sportiva ad alte prestazioni.

In generale, probabilmente sperimenterai qualcosa tra questi due estremi. Il grado in cui i tuoi input (sterzo, freni, gas) influenzano direttamente il movimento dell'auto ti dà un'idea della qualità dell'auto. Cioè, maggiore è la varianza della tua auto in movimento correlata alle tue azioni, migliore è la macchina e più l'auto si muove indipendentemente dal tuo controllo, peggio è la macchina.

In modo simile, si sta parlando di creazione di un modello per alcuni dati (chiamiamolo questi dati ), sulla base di alcuni altri set di dati (chiamiamoli x 1 , x 2 , . . . , X i ). Se y non varia, è come una macchina che non si muove e c'è davvero alcun senso discutere se l'auto (modello) funziona bene o no, quindi ci assumiamo y fa variare.yx1,x2,...,xiyy

Proprio come l'automobile, un modello di buona qualità avrà un buon rapporto tra il risultato variare e gli ingressi x i diversi. A differenza di una macchina, il x io non necessariamente causa y al cambiamento, ma se il modello sarà utile la x i necessità di cambiamento in stretta relazione a y . In altre parole, il x i spiegare gran parte della varianza a y .yxixi yxiyxiy

PS Non sono riuscito a trovare un'analogia con Winnie The Pooh, ma ci ho provato.

PPS [EDIT:] Nota che sto affrontando questa particolare domanda. Non essere confuso nel pensare che se rappresenti il ​​100% della varianza, il tuo modello funzionerà meravigliosamente. Devi anche pensare a un eccesso di adattamento, in cui il tuo modello è così flessibile da adattarsi molto da vicino ai dati di allenamento, comprese le stranezze e le stranezze casuali. Per usare l'analogia, vuoi un'auto che abbia un buon governo e freni, ma vuoi che funzioni bene su strada, non solo nella pista di prova che stai usando.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.