Come ridimensionare le trame di violino per i confronti?


14

Sto cercando di disegnare trame di violino e mi chiedo se esiste una best practice accettata per ridimensionarli tra i gruppi. Ecco tre opzioni che ho provato a utilizzare il mtcarsset di dati R (Motor Trend Cars del 1973, disponibile qui ).

Pari larghezze

Sembra essere ciò che fa il documento originale * e ciò che vioplotfa R ( esempio ). Buono per confrontare la forma.

Trame di violino di uguale area

Pari Aree

Sembra giusto poiché ogni diagramma è un diagramma di probabilità, quindi l'area di ciascuno dovrebbe essere uguale a 1,0 in un certo spazio di coordinate. Buono per confrontare la densità all'interno di ciascun gruppo, ma sembra più appropriato se i grafici sono sovrapposti.

Trame di violino di uguale larghezza

Aree ponderate

Come area uguale, ma ponderata per il numero di osservazioni. 6 cilindri diventa relativamente più sottile poiché ci sono meno di quelle macchine. Buono per confrontare la densità tra i gruppi.

Diagrammi di violino di area ponderata

* Trame di violino: una sinergia di traccia della densità del diagramma a scatola (DOI: 10.2307 / 2685478)


1
Lo scopo delle trame determinerà, in larga misura, quali soluzioni sono appropriate. Cosa stai cercando di mostrare con loro?
whuber

@whuber Buona domanda, anche se non ho una risposta diretta. Sto cercando di fornire un grafico per EDA e sto cercando un buon default generale (e se le altre opzioni sono abbastanza utili per emergere).
xan,

Vorrei suggerire di controllare le trame per soddisfare i propri scopi piuttosto che accettare alcune impostazioni predefinite.
whuber

Suggerirei che la tua versione delle "aree ponderate" fosse "buona per confrontare i sottogruppi di una popolazione" poiché potrebbe avere senso aggiungere le larghezze per ottenere la forma dell'intera popolazione.
Henry,

Preferisco aree uguali, per preservare l'impatto visivo della forma delle distribuzioni. Quindi integrare il grafico con termometri che mostrano le dimensioni dei campioni o utilizzare solo rappresentazioni di testo delle dimensioni dei campioni accanto ai violini.
Frank Harrell,

Risposte:


4

I grafici a riquadri vengono utilizzati per riepiloghi schematici di una distribuzione. Le trame di violino sono solo trame in cui le caselle Q1, Q2 e Q3 sono sostituite da una vasta gamma di quantili. Per questo motivo, penso che la pratica accettata sia quella di utilizzare una larghezza uniforme tra i gruppi.

Tuttavia, fai emergere un buon punto: come devono essere confrontate le densità tra i gruppi? La risposta dipende dal fatto che si stia guardando ciascun gruppo come la propria popolazione o come sottopopolazioni.

ΣioPio=1


Le trame di violino sono state originariamente introdotte e definite come trama di scatole ibride e tracce di densità. Un rapido Google mostra che in pratica molte trame rese pubbliche come trame di violino omettono la scatola e molti non mostrano alcun quantile in quanto tale. Quindi, le definizioni sono spalancate qui.
Nick Cox,

5

Onestamente, penso che ti stai avvicinando dalla direzione sbagliata. Tutte e tre le trame ti dicono chiaramente informazioni con valore, altrimenti non prenderei in considerazione quale trama usare. L'analisi esplorativa dei dati riguarda la comprensione dei dati. Dove è conforme alle aspettative. Dove no. Come si modella su più variabili.

L'intero punto di fare EDA sta valutando se i nostri valori predefiniti, siano essi di distribuzione o colinearità ipotesi, il modello statistico che stava per essere utilizzato, ecc sono ben giustificata. Come tale, il concetto di un EDA "predefinito" è in qualche modo imperfetto.

Guarda tutti loro - o almeno tutti i grafici relativi alla domanda che intendi porre. Non c'è motivo di tendersi il tendine del ginocchio in "Cosa è interessante" e "Cosa sto per ignorare" in fase di EDA. E se stiamo solo alimentando i dati attraverso le impostazioni predefinite, non è davvero EDA in primo luogo.


+1 per le osservazioni illuminanti sull'EDA, anche se non è ancora chiaro (per me) se l'OP è dopo EDA o no ...
chl

@chl Alcuni dei commenti del PO suggeriscono che è quello che sta cercando. Se è solo "quale di questi è più utile" la risposta che temo diventa ancora più ambigua "bene, cosa vuoi mostrare?"
Fomite,

Ah, ho perso quel commento ... Quindi la tua risposta vale di nuovo un +1, ma non posso :(
chl

4

E la larghezza di banda? Ci hai pensato?

Se usi le impostazioni predefinite del tuo Software per ottenere il pdf, molto probabilmente stai usando la regola empirica per la larghezza di banda ottimale di un kernel gaussiano. Questa "larghezza di banda ottimale" potrebbe quindi differire quindi per ciascun sottoinsieme. Ora chiediti, le forme sono ancora comparabili? Potrebbe essere che si verifichi la misurazione della stessa variabile (stima della densità del kernel) con doppi standard.

Per la stima della densità del kernel sono state sviluppate regole chiare per ottenere la giusta larghezza di banda (una sorta di convalida incrociata), ma per le trame di violino sono per lo più ignorate. Potrebbe essere importante, quando le dimensioni del campione differiscono molto.

Sto riscontrando questo problema adesso. Cosa ne pensi? Come lo risolvi? Tutti i commenti sono molto apprezzati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.