Spiegare la varianza di un modello di regressione


13

Questa potrebbe essere una semplice spiegazione (spero comunque).

Ho fatto alcune analisi di regressione in Matlab usando la casella degli strumenti di regressione. Tuttavia, mi sono imbattuto in uno studio che afferma questo:

"Utilizzando l'analisi di regressione, è stato possibile impostare un modello predittivo utilizzando solo quattro funzioni sonore che spiegano il 60% della varianza"

Il link all'articolo è qui se necessario: articolo

Non sono sicuro al 100% di cosa significhi, ma spero che sia qualcosa di semplice. Anche il 60% è una buona cosa? Ho cercato di cercarlo, ma poiché c'è sempre una percentuale prima della parola "varianza", è difficile trovare una risposta.

Risposte:


9

Proverò a spiegarlo in termini semplici.

Il modello di regressione si concentra sulla relazione tra una variabile dipendente e un insieme di variabili indipendenti . La variabile dipendente è il risultato, che stai cercando di prevedere, utilizzando una o più variabili indipendenti.

Supponiamo di avere un modello come questo:

Peso_i = 3.0 + 35 * Altezza_i + ε

Ora una delle domande ovvie è: quanto funziona bene questo modello? In altre parole, quanto bene l' altezza di una persona predice con precisione - o spiega - il peso di quella persona?

Prima di rispondere a questa domanda, dobbiamo prima capire quanta fluttuazione osserviamo nei pesi delle persone. Questo è importante, perché quello che stiamo cercando di fare qui è spiegare la fluttuazione (variazione) dei pesi tra persone diverse, usando le loro altezze. Se l'altezza delle persone è in grado di spiegare questa variazione di peso, allora abbiamo un buon modello.

La varianza è una buona metrica da utilizzare a questo scopo, in quanto misura la distanza di un insieme di numeri (dal loro valore medio).

Questo ci aiuta a riformulare la nostra domanda originale: quanta varianza nel peso di una persona può essere spiegata dalla sua altezza ?

Ecco da dove viene la "% varianza spiegata". A proposito, per l'analisi di regressione, è uguale al coefficiente di correlazione R al quadrato .

Per il modello sopra, potremmo essere in grado di fare una dichiarazione come: Usando l'analisi di regressione, è stato possibile impostare un modello predittivo usando l' altezza di una persona che spiega il 60% della varianza in peso ”.

Ora, quanto è buono il 60%? È difficile esprimere un giudizio oggettivo al riguardo. Ma se hai altri modelli concorrenti - diciamo, un altro modello di regressione che utilizza l' età di una persona per prevedere il suo peso - puoi confrontare diversi modelli in base a quanta varianza viene spiegata da loro e decidere quale modello è migliore. (Ci sono alcuni avvertimenti a questo proposito, vedere "Interpretazione e utilizzo della regressione" - Christopher H. Achen http://www.sagepub.in/books/Book450/authors )


1
Ciò ha sicuramente risposto a gran parte della mia domanda. Per quanto riguarda il motivo per cui gli autori affermano che questo è di enorme significato, non lo so. Quindi, se questo è il valore di R-sqaured e torniamo al tuo esempio: diciamo che abbiamo usato un modello per "età" che aveva una varianza dell'80%, e quindi e un modello per "altezza" che aveva una varianza di 85 % per prevedere il peso di una persona, presumo che quest'ultimo modello sarebbe più significativo? Grazie per il link al libro, l'ho acquistato ieri sera, poiché userò molto la regressione nei prossimi mesi.
user1574598

1
Sì, puoi concludere che quest'ultimo modello è migliore nella sua capacità di prevedere (o, spiegare) il peso di una persona, ceteris paribus. A proposito, lo hai dichiarato come "il modello aveva una varianza dell'80%", ma dovrebbe essere "il modello spiega l'80% della varianza".
Vishal,

4

R2

Σio=1n(y^io-y¯)2Σio=1n(yio-y¯)2

yioy^ioioesimoy¯R2

Σio=1n(yio-y¯)2=Σio=1n(y^io-y¯)2+Σio=1n(yio-y^io)2,

R2

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.