Esplorare le relazioni tra le variabili è abbastanza vago, ma due degli obiettivi più generali dell'esame di grafici a dispersione come questo immagino che lo siano;
- Identificare i gruppi latenti sottostanti (di variabili o casi).
- Identificare i valori anomali (nello spazio univariato, bivariato o multivariato).
Entrambi riducono i dati in riepiloghi più gestibili, ma hanno obiettivi diversi. Identificare i gruppi latenti in genere si riduce le dimensioni nei dati (ad esempio tramite PCA) e quindi si esplora se variabili o casi si raggruppano in questo spazio ridotto. Vedi ad esempio Friendly (2002) o Cook et al. (1995).
Identificare i valori anomali può significare adattare un modello e tracciare le deviazioni dal modello (ad es. Tracciare i residui da un modello di regressione) o ridurre i dati nei suoi componenti principali e evidenziare solo i punti che si discostano dal modello o dal corpo principale dei dati. Ad esempio i grafici a scatole in una o due dimensioni in genere mostrano solo singoli punti esterni alle cerniere (Wickham e Stryjewski, 2013). Tracciare i residui ha la bella proprietà di appiattire i grafici (Tukey, 1977), quindi ogni evidenza di relazioni nella nuvola di punti rimanente è "interessante". Questa domanda sul CV ha alcuni eccellenti suggerimenti sull'identificazione di valori anomali multivariati.
Un modo comune per esplorare SPLOM così grandi è quello di non tracciare tutti i singoli punti, ma un qualche tipo di sommario semplificato e quindi forse punti che si discostano in gran parte da questo sommario, ad esempio ellissi di confidenza, riassunti scagnostici (Wilkinson & Wills, 2008), bivariato grafici a scatole, grafici di contorno. Di seguito è riportato un esempio di trama di ellissi che definiscono la covarianza e sovrapposizione di un loess più fluido per descrivere l'associazione lineare.
(fonte: statmethods.net )
In entrambi i casi, un grafico interattivo di successo con così tante variabili avrebbe probabilmente bisogno di un ordinamento intelligente (Wilkinson, 2005) e un modo semplice per filtrare le variabili (oltre alle funzionalità di spazzolatura / collegamento). Inoltre, qualsiasi set di dati realistico dovrebbe avere le capacità di trasformare l'asse (ad es. Tracciare i dati su scala logaritmica, trasformare i dati prendendo le radici, ecc.). Buona fortuna e non restare con una sola trama!
citazioni