Comprensione intuitiva della "varianza"


81

Qual è il modo più semplice e pulito per spiegare a qualcuno il concetto di varianza? Cosa significa intuitivamente? Se uno dovesse spiegare questo al proprio figlio come lo farebbe?

È un concetto che ho difficoltà a articolare, soprattutto quando si collega la varianza al rischio. Lo capisco matematicamente e posso spiegarlo anche in questo modo. Ma quando si spiegano i fenomeni del mondo reale come si fa a capire la varianza e la sua applicabilità nel "mondo reale", per così dire.

Diciamo che stiamo simulando un investimento in un titolo usando numeri casuali (tirare un dado o usare un foglio Excel, non importa). Otteniamo un certo "ritorno sull'investimento" associando ogni istanza della variabile casuale a "qualche cambiamento" nel rendimento. Per esempio.:

Lanciare un 1 implica una variazione di 0,8 per $ 1 nell'investimento, un 5 una variazione di 1,1 per $ 1 e così via.

Ora se questa simulazione viene eseguita per circa 50 volte (o 20 o 100) otterremo alcuni valori e il valore finale dell'investimento. Cosa ci dice in realtà la "varianza" se dovessimo calcolarlo dal set di dati sopra? Cosa significa "vedere" - Se la varianza risulta essere 1,7654 o 0,88765 o 5,2342 cosa significa? Cosa ho / posso osservare di questo investimento ?? Quali conclusioni posso trarre - in termini di laici.

Sentiti libero di aumentare la domanda anche con quella per la deviazione standard! Sebbene ritenga che sia "più facile" da capire, qualcosa che contribuirebbe a renderlo anche "intuitivamente" chiaro sarebbe molto apprezzato!


3
Non dovremmo unire questa domanda con la stessa posta l'anno scorso?
whuber

1
@whuber Penso che questi dovrebbero essere uniti. Avere più volte la stessa domanda (anche se qui il contesto è diverso) riduce la qualità media delle risposte.
Robin Girard,

2
Sono d'accordo con la sua fusione, ma so come calcolare la varianza e anche il suo utilizzo nelle statistiche. Voglio essere in grado di articolare questo concetto a persone che non ne saprebbero nulla e ci vuole molto tempo per farlo e quindi la domanda. L'intento è piuttosto diverso dalla domanda su SD, IMHO
PhD,

2
Non penso che nessuno di voi stia facendo un ottimo lavoro nel rispondere a questo in un modo che un laico capisca. Vedo molte ipotesi e quasi ogni risposta termina con qualcosa che deve essere interpretato. Non mi lamento, sto solo cercando di evidenziarlo. Anch'io non posso rispondere alla domanda semplicemente. Forse è troppo difficile?

Non credo che nessuna delle risposte seguenti abbia risposto alla domanda qui. La domanda, per come la interpreto, riguarda più la varianza come un numero, quando è considerata grande o piccola. La risposta principale di seguito, ad esempio, risponde alla domanda sul significato di varianza elevata rispetto a varianza ridotta. Se ti do un set di dati che non puoi ragionevolmente visualizzare, in modo da dover fare affidamento sui numeri, come puoi sapere se la varianza è grande / piccola?
user31415

Risposte:


70

Probabilmente userei un'analogia simile a quella che ho imparato a dare ai "laici" quando introduco il concetto di bias e varianza: l'analogia del bersaglio. Vedi sotto:

inserisci qui la descrizione dell'immagine

L'immagine particolare sopra è tratta da Encyclopedia of Machine Learning , e il riferimento all'interno dell'immagine è "Introduzione alla pratica della statistica" di Moore e McCabe .

MODIFICARE:

Ecco un esercizio che credo sia piuttosto intuitivo: prendi un mazzo di carte (fuori dalla scatola) e lascia cadere il mazzo da un'altezza di circa 1 piede. Chiedi a tuo figlio di prendere le carte e restituirle a te. Quindi, invece di far cadere il mazzo, lancialo più in alto che puoi e lascia cadere le carte a terra. Chiedi a tuo figlio di prendere le carte e restituirle a te.

Il divertimento relativo che hanno durante le due prove dovrebbe dare loro una sensazione intuitiva di varianza :)


1
Quindi cosa vuol dire'? Se qualcuno vedesse la varianza statistica delle freccette sul tabellone, cosa concluderebbero? Cosa significa avere una varianza bassa / alta in modo intuitivo parlando ...
Dottorato di ricerca il

1
Direi qualcosa del genere: diciamo che abbiamo lanciato 4 freccette. Il numero di mani necessarie per rimuovere le freccette dal tabellone contemporaneamente aumenta all'aumentare della varianza delle posizioni delle freccette (Nota: qui argomento molto informale in quanto vi sono un certo numero di controesempi, come quando 3 freccette sono raggruppate insieme e l'ultima freccetta è sul muro a 3 piedi dalla darboard).

2
Il tuo diagramma sembra risuonare anche nel modo classico di distinguere precisione e accuratezza! Mi ha appena colpito!
Dottorato di ricerca il

2
Aaaaaaaaaaah! Bel esercizio! Un buon modo per mostrare a qualcuno cosa significa avere una varianza bassa / alta! La distanza media dal valore medio (medio) dei punti dati :)
Dottorato di ricerca

2
(+1) L'analogo del bersaglio per dimostrare la differenza tra distorsione e varianza è semplicemente geniale
Steffen,

36

Ero solito insegnare le statistiche a un laico con battute e ho scoperto che imparano molto.

Supponiamo che per la varianza o la deviazione standard la seguente battuta sia abbastanza utile:

Scherzo

Una volta che due statistici di altezza 4 piedi e 5 piedi devono attraversare un fiume di profondità MEDIA 3 piedi. Nel frattempo, arriva un terzo statistico e ha detto: "cosa stai aspettando? Puoi facilmente attraversare il fiume"

Suppongo che i laici conoscano il termine "medio". Puoi anche porre loro la stessa domanda che avrebbero attraversato il fiume in questa situazione?

Che cosa manca loro è la "varianza" per decidere "cosa fare nella situazione?"

Riguarda le tue capacità di presentazione. Tuttavia, le battute aiutano molto il laico che vuole capire le statistiche. Spero possa essere d'aiuto!


1
Forse non sono bravo con le battute statistiche ( sono abbastanza bravo con gli altri però :). Ma non credo di capire cosa si intende per "cosa fare nella situazione"? Cosa 'esattamente' si dovrebbe fare se hanno un'idea della varianza? Come si dovrebbe interpretarlo?
Dottorato di ricerca il

6
@Nupul: In realtà, "cosa fare nella situazione" significa che attraversano un fiume o no? Se conosci la varianza (o SD), puoi decidere facilmente. Supponiamo che la varianza sia 0,25 (SD = 0,5), quindi possono attraversare il fiume in modo sicuro perché l'intervallo di intervallo (non confonderlo con intervallo di confidenza (CI)) è 3 + 0,5 o 3-0,5 e le loro altezze sono 4 e 5. Se la varianza è 4 quindi meglio non attraversare il fiume. A proposito, goditi le battute qui stats.stackexchange.com/questions/1337/statistics-jokes
Biostat

Perfetto! Capito! :) Questo ha molto senso. In effetti, combinare le risposte di varie persone mi aiuta a inquadrare meglio la comprensione ...
Dottorato di ricerca

Oppure, se gli squali non "mangiano" in media le persone, è un po 'di conforto se sono molto lunatici (comportamento altamente variante). Nell'analogia del fiume si tratta di fare un passo che ti farà perdere la testa.
Dean Radcliffe,

12

Mi concentrerei sulla deviazione standard piuttosto che sulla varianza; la varianza è nella scala sbagliata.

Proprio come la media è un valore tipico, la SD è una differenza (assoluta) tipica dalla media. Non è diverso dal piegare la distribuzione in media e prenderne la media.


1
Concordato. Diciamo che ci concentriamo su SD. La mia domanda è ancora su come far capire a qualcuno la SD in modo intuitivo diverso da "SD alta non sembra buona " ... come spiegherei SD a un laico poiché è la radice quadrata della varianza !!!
Dottorato di ricerca il

@Nupul - Leggi il mio secondo paragrafo: spiegherei la SD come la differenza tipica dalla media.
Karl,

4
"Non è diverso dal piegare la distribuzione in media e prenderne la media." Quel commento, come il resto del tuo post, sembra descrivere la deviazione assoluta media, non la deviazione standard.
Macro,

3
@Macro - sì; nel tentativo di spiegare la SD, la approssimerei con la MAD. Penso che sia meglio non cavillare sul valore assoluto radice-media-quadrato vs media.
Karl,

7

Non sono d'accordo con molte risposte che invitano le persone a pensare semplicemente alla varianza come a una diffusione. Come hanno sottolineato le persone intelligenti (Nassim Taleb), quando le persone pensano alla varianza come a una diffusione, pensano che sia MAD.

La varianza è una descrizione di quanto i membri sono lontani dalla media, E giudica l'importanza di ogni osservazione da questa stessa distanza. Ciò significa che le osservazioni lontane vengono giudicate più importanti. Da qui i quadrati.

Penso che la varianza di una variabile uniforme continua sia la più semplice da immaginare. Ogni osservazione può avere un quadrato disegnato su di essa. Impilando questi quadrati si crea una piramide. Taglia la piramide a metà, quindi metà del peso è su un lato e metà è sull'altro. La faccia in cui la tagli è la varianza.


2
Non so perché questa risposta non sia stata più votata. Il punto sollevato nel secondo paragrafo è cruciale per comprendere la varianza e differenziarla dalla MAD, che come correttamente sottolineato è ciò che la gente pensa intuitivamente quando gli viene detto "misura della diffusione". E non è al di là di un laico capire l'idea che il peso attribuito alla distanza di un punto dalla media non cresce linearmente, anche se non capiscono i quadrati matematicamente.
Jeremy Radcliff,

3
"MAD" = en.wikipedia.org/wiki/Median_absolute_deviation per coloro che si chiedono. Non credo che a tali acronimi debba essere assunta la conoscenza di una domanda come questa.

5

Forse questo potrebbe aiutare. Mi scuso in anticipo che come amatore completo potrei sbagliarmi.

Immagina di chiedere a 1000 persone di indovinare correttamente quanti fagioli ci sono in un barattolo pieno di jelly bean. Ora immagina di non essere necessariamente interessato a conoscere la risposta corretta (che potrebbe essere di qualche utilità) ma desideri comprendere meglio come le persone stimano la risposta.

La varianza potrebbe essere spiegata a un laico come la diffusione di risposte diverse (dal più alto al più basso). Potresti continuare aggiungendo che se un numero sufficiente di persone fosse interrogato, la risposta corretta dovrebbe trovarsi da qualche parte nel mezzo della diffusione di "ospiti" dati.

Faccio ora riferimento ad alcuni dei miei più stimati colleghi per essere giudicato


5

Ero seduto cercando di scovare la varianza e la cosa che alla fine mi ha fatto scattare in posizione per me era guardarlo graficamente.

Supponi di disegnare una linea numerica con quattro punti, -7, -1, 1 e 7. Ora disegna un asse Y immaginario con gli stessi quattro punti lungo la dimensione Y e usa le coppie XY per disegnare il quadrato per ogni coppia di punti. Si finisce con quattro quadrati separati costituiti da 49, 1, 1 e 49 quadrati più piccoli, ciascuno. Ciascuno di essi contribuisce a una somma complessiva di quadrati che, a sua volta, possono essere rappresentati come un grande quadrato 10 x 10 con 100 quadrati più piccoli complessivi.

La varianza è la dimensione del quadrato medio che contribuisce a quel quadrato più grande. 49 + 1 + 49 + 1 = 100, 100/4 = 25. Quindi 25 sarebbe la varianza. La deviazione standard sarebbe la lunghezza di uno dei lati di quel quadrato medio, o 5.

Ovviamente questa analogia non copre l'intera sfumatura del concetto di varianza. Ci sono molte cose che devono essere spiegate, come ad esempio perché usiamo spesso un denominatore di n-1 per stimare il parametro di popolazione, invece di usare semplicemente n. Ma come concetto di base a cui riporre il resto di una comprensione dettagliata della varianza, semplicemente disegnandola in modo da poter vedere che mi ha aiutato immensamente. Aiuta a capire cosa intendiamo quando diciamo che la varianza è la deviazione quadrata media dalla media. Aiuta anche a capire quale relazione SD ha con quella media.


1
Benvenuto in Cross-Validated! Mi piace l'approccio, ma potrebbe essere ancora più utile sottolineare che i punti sono sparsi 'intorno' allo zero (cioè hanno una media zero) e stai misurando lo spread rispetto ad un "atomo" situato lì. (+1) e non vedo l'ora di vedere altre tue risposte!
Matt Krause,

4

Esercitati a insegnare ai non addetti alla deviazione standard e alla varianza.

TL; DR; È qualcosa come la media delle distanze dalla media. (che è un po 'confuso e fuorviante in una versione così concisa. Quindi leggi l'articolo completo)

Presumo che il profano sappia della media. Parlo dell'importanza della conoscenza della SD e della stima degli errori (vedi PS sotto). Quindi prometto che nessuna conoscenza matematica o statistica sacra verrà utilizzata - solo un ragionamento secco e una logica pura.

  1. Il problema. Diciamo che abbiamo un termometro (scelgo un dispositivo di misurazione a seconda di ciò che è più vicino all'audizione).

    Abbiamo fatto N misurazioni della stessa temperatura e il termometro ci ha mostrato qualcosa come 36.5, 35.9, 37.0, 36.6, ... (vedi l'immagine). Sappiamo che la temperatura reale era la stessa, ma il termometro ci sta un po 'ogni misura.

    Come possiamo stimare quanto questa piccola feccia ci risulti?

    Siamo in grado di calcolare la media (vedere la linea rossa nell'immagine seguente). Possiamo crederci? Anche dopo la media, ha abbastanza precisione per le nostre esigenze?

    Valori del termometro e loro media

  2. L'approccio più semplice . Possiamo prendere il punto più lontano, calcolare la distanza tra esso e la media (linea rossa) e dire che questo è il modo in cui il termometro ci sta, perché è il massimo errore che vediamo. Si potrebbe immaginare, non è la migliore stima. Se guardiamo l'immagine, la maggior parte dei punti è intorno alla media, come possiamo decidere solo per un punto? In realtà si possono esercitare ragioni numeriche per cui tale stima è approssimativa e generalmente negativa.

  3. Varianza . Quindi ... consente di prendere tutte le distanze e calcolare la distanza media !

    (xix¯)x¯xi

    Quindi si potrebbe immaginare che la formula della distanza media sarebbe la somma di tutto e la divisione per N:

    (xix¯)N

    Ma c'è un problema. Possiamo facilmente vedere, ad es. che 36.4 e 36.8 sono alla stessa distanza da 36.6. ma se mettiamo i valori nella formula sopra, otteniamo -0.2 e +0.2 e la loro somma è uguale a 0, che non è quello che vogliamo.

    Come sbarazzarsi del segno? (A questo punto i laici di solito dicono "Prendi il valore assoluto", e suggeriscono che "prendere un valore assoluto è un po 'artificiale, qual è un altro modo?"). Possiamo quadrare i valori! Quindi la formula diventa:

    (xix¯)2N

    Questa formula è chiamata "Varianza" nelle statistiche. Ed è molto meglio stimare la diffusione dei valori del nostro termometro (o qualunque cosa), piuttosto che prendere la massima distanza.

  4. Deviazione standard . Ma c'è ancora un altro problema. Guarda la formula della varianza. I quadrati rendono le nostre unità di misura ... quadrate. Se il termometro misura la temperatura in ° C (o ° F), la nostra stima dell'errore viene misurata in (o ). Come neutralizzare i quadrati? - Usa la radice quadrata!°C2°F2

    (xix¯)2N

    Quindi qui arriviamo alla formula Deviazione standard che è comunemente indicata come . E questo è il modo migliore per stimare la precisione del nostro dispositivo.σ

A questo punto un laico capisce abbastanza chiaramente come arriviamo qui e come funzionano la deviazione / varianza standard. Da questo punto di solito vado alla regola 68–95–99.7, descrivendo anche su campionamento e popolazione, errore standard vs termini di deviazione standard ecc.

Importanza PS di conoscere l'esempio di talk SD:

Supponiamo che tu abbia un dispositivo di misurazione, che è costato 1 000 000 $ . E ti dà la risposta: 42. Pensi che uno abbia pagato 1 000 000 $ per 42? Phooey! Uno ha pagato 1000.000 per la precisione di quella risposta. Perché valore - non costa nulla senza conoscerne l'errore. Paghi l'errore, non il valore. Ecco un buon esempio di vita.

Nella vita comune, la maggior parte delle volte usiamo un righello per misurare una distanza. Il righello ti dà una precisione di circa un millimetro (se non sei negli Stati Uniti). E se dovessi andare oltre il millimetro e misurare qualcosa con una precisione di 0,1 mm? - Probabilmente useresti una pinza. Ora, è facile verificare che un righello più economico (ma sempre con precisione millimetrica) costa centesimi, mentre un buon calibro costa un decimo di dollari. 2 magnitudini di un prezzo per 1 magnitudine della precisione. E questo è molto normale di quanto si paga per un errore.


2

Penso che la frase chiave da usare per spiegare sia la varianza sia la deviazione standard sia "misura della diffusione" . Nel linguaggio più elementare, la varianza e la deviazione standard ci dicono quanto siano ben distribuiti i dati. Per essere un po 'più precisi, sebbene si rivolgano ancora al profano, ci dicono quanto bene i dati sono distribuiti sulla media. Di passaggio, nota che la media è una "misura della posizione" . Per concludere la spiegazione al profano, si dovrebbe evidenziare che la deviazione standard è espressa nelle stesse unità dei dati con cui stiamo lavorando e che è per questo motivo che prendiamo la radice quadrata della varianza. cioè i due sono collegati.

Penso che quella breve spiegazione farebbe il trucco. Probabilmente è comunque in qualche modo simile a una spiegazione introduttiva del libro di testo.



-2

La definirei la differenza media positiva dalla media complessiva.


1
Fino a quando non chiarirai i due tipi di "media" che intendi (la prima è la media e la seconda è la media aritmetica), è quasi certo che la tua affermazione verrà interpretata in modi che la rendono errata. Inoltre, il termine "differenza positiva" è strano e ambiguo: intendi considerare solo i residui positivi? O per prendere i valori assoluti dei residui? O qualcos'altro? L2
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.