Ridurre la varianza dal diagramma a scatole


12

Mi chiedevo come dedurre la varianza di una variabile usando un diagramma a scatole. È almeno possibile dedurre se due variabili hanno la stessa varianza osservando il loro diagramma a scatole?


1
Recentemente sono incappato in questo articolo su un argomento simile. Spero che ti possa dare un'idea.
Penguin_Knight

Risposte:


16

Non senza molte assunzioni rigorose, no. Se dovessi supporre che la risposta sia sì (invece di chiedere, per cui ti applaudo), scommetto che potrei ingannarti con questo (contro) esempio:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))

Sembra abbastanza simile, vero? Eppure !σ12=1,σ22=1.96

Nel caso in cui non sia chiaro dal codice, la popolazione 2è:

-3.000 -2.650 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348  2.650  3.000

E no, non si può dedurre che questa popolazione è normale solo perché è esattamente simmetrica. Ecco un diagramma della popolazione QQ 2:

Certo non mi sembra normale.

Modifica - Risposta al tuo commento:

La varianza è una statistica numerica. Se le varianze di due distribuzioni sono letteralmente uguali, è praticamente tutto quello che hai da dire al riguardo. Se due distribuzioni sono esattamente normali , di nuovo, c'è una definizione matematica che si adatteranno entrambe. Se due distribuzioni non sono esattamente normali o uguali nella varianza, non dovresti dire diversamente. Se vuoi dire che sono approssimativamente uguali o normali, probabilmente dovresti definire "abbastanza approssimativo" in un modo su misura per i tuoi scopi, che non hai specificato qui. La sensibilità alle differenze distributive varia ampiamente tra le analisi che di solito motivano domande come la tua. Per esempio,tè abbastanza robusto per le violazioni di quest'ultimo dato le stesse dimensioni del campione ), quindi non consiglierei questo test per confrontare la mia popolazione 2con la popolazione 1(la distribuzione normale).


3
Buon esempio. Nick sta usando R. (Fino a quando tutti usano R, è buona norma menzionarlo.)
Nick Cox

Non posso fare a meno di pensare che sarebbe una buona giornata per la scienza nel suo insieme :)
Nick Stauner,

Ho un lungo saggio al riguardo, ma in qualche modo non si adatta allo spazio disponibile.
Nick Cox,

Buona risposta. Puoi scrivere quali informazioni dovremmo riportare per dire: "Sono normali e la varianza è la stessa"
Donbeo

Modificato per rispondere.
Nick Stauner,

10

Questo è stato ben risposto. Questi commenti extra sono un po 'troppo lunghi (AGGIORNAMENTO: ora troppo lunghi) per andare come commenti.

In senso stretto, tutto ciò che è possibile leggere su un diagramma a scatole sulla variabilità di una distribuzione sono il suo intervallo interquartile (la lunghezza o l'altezza del riquadro) e il raggio (la lunghezza o l'altezza tra gli estremi del display).

Come approssimazione, i grafici a scatole che sembrano identici hanno probabilmente variazioni molto simili, ma attenzione. È molto improbabile che i grafici a scatole con posizioni o code delle scatole molto diverse (o entrambi) abbiano variazioni simili, ma non è impossibile. Ma anche se i grafici a scatola sembrano identici, non si ottengono informazioni in un diagramma a scatola semplice o alla vaniglia sulla variabilità all'interno della scatola o effettivamente sulla variabilità all'interno dei baffi (le linee spesso mostrate tra la scatola e i punti dati entro 1,5 IQR del quartile più vicino) . NB esistono diverse varianti di grafici a scatole; gli autori sono spesso scarsi nel documentare le regole precise utilizzate dal loro software.

La popolarità della trama della scatola ha il suo prezzo. I grafici a scatola possono essere molto utili per mostrare le caratteristiche lorde di molti gruppi o variabili (diciamo 20 o 30, a volte anche di più). Come comunemente usato per confrontare diciamo che 2 o 3 gruppi sono ipervenduti, secondo me, poiché altri grafici possono mostrare molti più dettagli in modo intelligente nello stesso spazio. Naturalmente, questo è ampiamente se non universalmente apprezzato e vari miglioramenti della trama della scatola mostrano più dettagli.

Il lavoro serio con varianze richiede l'accesso ai dati originali.

Questo è un pennello ampio e potrebbero essere aggiunti ulteriori dettagli. Ad esempio, la posizione della mediana all'interno del riquadro a volte fornisce alcune informazioni in più.

AGGIORNARE

Immagino che molte più persone siano interessate agli usi (e alle limitazioni) dei grafici a scatole in generale piuttosto che alla domanda specifica di inferire la varianza da un diagramma a scatole (a cui la risposta breve è "Non puoi, se non indirettamente, approssimativamente, e talvolta "), quindi aggiungerò ulteriori commenti sulle alternative, come richiesto da @Christian Sauer.

  • Gli istogrammi usati in modo sensato sono spesso ancora competitivi. Il moderno testo introduttivo classico di Freedman, Pisani e Purves li usa dappertutto.

  • Quali sono i cosiddetti grafici a punti o strisce (grafici) (e con molti altri nomi) sono facili da capire. Se lo si desidera, è possibile impilare punti identici dopo aver effettuato il binning. Puoi aggiungere mediana e quartili, o intervalli medi e di confidenza, al contenuto del tuo cuore.

  • Le trame quantili sono, a quanto pare, un gusto acquisito ma per molti versi il più versatile di tutti. Includo qui grafici di valori ordinati di nuovo probabilità cumulativa (posizione di tracciamento) e grafici quantili che sarebbero diritti se i dati fossero considerati qualsiasi distribuzione "di marca" (normale, esponenziale, gamma, qualunque cosa). (Ringraziamenti a @Scortchi per il riferimento a "marchio" usato da CJ Geyer.)

Ma un elenco completo non è possibile. (Aggiungerò, ad esempio, che molto occasionalmente, una rappresentazione stem-and-leaf ha esattamente ragione di vedere dettagli importanti nei dati, come quando la preferenza delle cifre è dilagante.) Il principio chiave è che i migliori tipi di diagramma di distribuzione consentono la percezione apparentemente impossibile di una struttura fine in dati che potrebbero essere interessanti o importanti (modalità, granularità, valori anomali, ecc.) nonché una struttura grossolana (livello, diffusione, asimmetria, ecc.).

I grafici a scatole non sono altrettanto efficaci nel mostrare tutti i tipi di struttura. Non possono essere e non erano destinati a esserlo. Vale la pena segnalare che JW Tukey in Exploratory data analysis Reading, MA: Addison-Wesley (1977) ha fornito un esempio di dati bimodali di Rayleigh che un diagramma a scatole oscura completamente la struttura principale. Come grande statistico, era ben consapevole che i grafici a scatole non erano sempre la risposta.

Una pratica bizzarra, diffusa nei testi introduttivi, sta discutendo di ANOVA mentre invita i lettori a guardare trame di scatole, che mostrano mediane e quartili, non mezzi e varianze (piuttosto SD). Naturalmente, guardare i dati è molto meglio che non guardare, ma anche così, una rappresentazione grafica più appropriata è probabilmente una trama dei dati grezzi con mezzi adattati +/- un multiplo appropriato di SE.


Nick, potresti descrivere le alternative ai grafici a scatola per un piccolo numero di variabili?
Christian Sauer,

@ChristianSauer Grazie per la richiesta: vedi aggiornamento.
Nick Cox,

Grazie per l'aggiornamento molto bello. Mi piace soprattutto il tuo ultimo paragrafo, trovo che i diagrammi a scatole accoppiati con ANOVA e / o la regressione siano piuttosto confusi - è come confrontare mele e arance.
Christian Sauer,

2
Le statistiche, come qualsiasi altra scienza, sono piene di bizzarre terminologie, notazioni e abitudini di analisi appena copiate da altri.
Nick Cox,

1
Sono totalmente d'accordo - nella tesi del mio maestro ho controllato le variabili indipendenti per la loro normale distribuzione ... questa è la forma più raffinata di statistiche sul culto del carico :(
Christian Sauer,

6

Un approccio ingenuo:

0.67σ1.35σ

IQR=1.35σσ=0.74IQR

E sul confronto delle varianze per boxplot: caselle più ampie significano varianze più grandi, ma ciò ti dà una comprensione esplorativa e devi prendere in considerazione anche baffi e valori anomali. Per conferma è necessario utilizzare il contrasto delle ipotesi.


Per confrontare la varianza dobbiamo ancora supporre che sia la distribuzione sia normale? Possiamo dedurre che la variabile è normale se la casella è simmetrica rispetto al centro?
Donbeo,

1
Sottoscrivo tutto ciò che dice @Nick_Stauner. Ciò che ho esposto è stato supporre che le vostre popolazioni siano normali, il che richiede, tra l'altro, ma non solo, simmetria e curtosi = 0. Questa ipotesi è violata frequentemente.
Rufo,

2
La kurtosi è definita in vari modi. Su un'altra definizione (più semplice), un normale (gaussiano) ha la curtosi 3. È necessario verificare quale definizione viene utilizzata dal software se la si sta calcolando in pratica.
Nick Cox,

1
Per una distribuzione normale, sarebbe kurtosis 3, eccesso di kurtosis 0 , se non sbaglio. Sono curioso di sapere se alcuni pacchetti software popolari producono curtosi non in eccesso per impostazione predefinita. Ciò probabilmente produrrebbe molta confusione (per non negare che le persone in generale siano in qualche modo confuse dall'omissione di "eccesso" nella pratica opposta) ...
Nick Stauner

1
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.