Qual è la differenza tra la varianza e l'errore quadratico medio?


27

Sono sorpreso che questo non sia stato chiesto prima, ma non riesco a trovare la domanda su stats.stackexchange.

Questa è la formula per calcolare la varianza di un campione normalmente distribuito:

(XX¯)2n1

Questa è la formula per calcolare l'errore quadratico medio delle osservazioni in una semplice regressione lineare:

(yiy^i)2n2

Qual è la differenza tra queste due formule? L'unica differenza che posso vedere è che MSE utilizza . Quindi se questa è l'unica differenza, perché non fare riferimento a loro sia come varianza, ma con diversi gradi di libertà?n2


Cosa c'è nella pagina di Wikipedia qui che non è chiaro?
TrynnaDoStat,

3
La varianza è la media della deviazione quadrata delle osservazioni dalla media. L'MSE al contrario è la media delle deviazioni al quadrato delle previsioni rispetto ai valori reali.
random_guy

3
Sia la "varianza" che l '"errore quadratico medio" hanno formule multiple e varie applicazioni. Per chiarire la tua domanda, potresti (a) descrivere a quali tipi di dati stai applicando questi concetti e (b) fornire loro formule? (È probabile che così facendo scoprirai anche la risposta alla tua domanda.)
whuber

6
C'è una formula più generale, che sono entrambi casi speciali di: dove è il numero di parametri stimati nell'ottenere p yi(yiy^i)2nppy^
Glen_b - Ripristina Monica

@Glen_b potresti fornire un riferimento per ulteriori informazioni su questa formula generale?
trianta2,

Risposte:


28

L'errore quadratico medio che hai scritto per OLS sta nascondendo qualcosa:

in(yiy^i)2n2=in[yi(β^0+β^xxi)]2n2

Si noti che il numeratore si somma a una funzione di e , quindi si perde un grado di libertà per ogni variabile, quindi . Nella formula per la varianza del campione, il numeratore è una funzione di una singola variabile, quindi si perde solo un grado di libertà nel denominatore.yxn2

Tuttavia, sei sulla buona strada nel notare che si tratta di quantità concettualmente simili. La varianza del campione misura la diffusione dei dati intorno alla media del campione (in unità quadrate), mentre l'MSE misura la diffusione verticale dei dati intorno alla linea di regressione del campione (in unità verticali quadrate).


@amoeba Hey! Grazie per l'attenzione. Esiste una guida ufficiale di stile CV che ha richiesto questa modifica? Se è così, voglio saperlo. In caso contrario, bene, Glen_b una volta mi ha giustamente ammonito di essere stato colonizzato con le mie preferenze personali di stile e di modificare altre domande e risposte. Cosa pensi? (E lo chiedo in tono collegiale: penso che la tua modifica aggiunga qualcosa. Voglio solo capire meglio i nostri valori di modifica.)
Alexis

1
Non credo che ci sia alcuna guida ufficiale di stile CV che dia questo suggerimento, ma in LaTeX ci sono formule in linea (contrassegnate con un segno di dollaro) che sono rese direttamente nel blocco di testo e formule visualizzate (contrassegnate con due segni di dollaro) che sono resi su una linea separata. Le formule visualizzate utilizzano layout diversi. La tua formula era originariamente su una riga separata ma contrassegnata con un segno di dollaro; Non penso che abbia senso. Tuttavia, hai ragione sulle preferenze personali, quindi sentiti libero di tornare indietro con le scuse. Il motivo per cui ho modificato era che stavo comunque aggiustando un refuso nella Q.
ameba dice Ripristina Monica

se non vi è alcun termine di intercettazione nel problema di regressione, i gradi di libertà di MSE sono uguali a come nella formula della varianza invece di n - 1 n - 2β0n1n2
sviluppatore

1

Nella formula della varianza, la media del campione si avvicina alla media della popolazione. La media del campione viene calcolata per un dato campione con punti dati. Conoscendo il campione foglie medi noi con solo punti di dati indipendenti come il esimo punto dati è vincolato dalla media del campione, quindi ( ) gradi di libertà (DOF) al denominatore nella formula varianza.nn1nn - 1n1

Per ottenere il valore stimato di y ( ) nella formula MSE, è necessario stimare sia (ovvero l'intercettazione) sia (cioè la pendenza) quindi perdiamo 2 DOF, e questo è il motivo per ( ) nel denominatore nella formula MSE.=β0+β1×xβ0β1n2

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.