Come interpretare questo grafico a dispersione?


12

Ho un diagramma a dispersione che ha una dimensione del campione pari al numero di persone sull'asse xe il salario mediano sull'asse y, sto cercando di scoprire se la dimensione del campione ha qualche effetto sul salario mediano.

Questa è la trama:

inserisci qui la descrizione dell'immagine

Come interpreto questa trama?


3
Se puoi, suggerirei di lavorare con una trasformazione di entrambe le variabili. Se nessuna delle variabili ha zeri esatti, dai un'occhiata alla scala log-log
Glen_b -Reinstate Monica

@Glen_b scusa, non ho familiarità con i termini che hai affermato, solo guardando la trama, puoi stabilire una relazione tra le due variabili? quello che posso immaginare è che per la dimensione del campione fino a 1000 non c'è alcuna relazione in quanto per gli stessi valori della dimensione del campione ci sono più valori mediani. Per valori superiori a 1000, lo stipendio mediano sembra diminuire. Cosa pensi ?
Stesso

Non vedo prove chiare per questo, mi sembra abbastanza piatto; se ci sono cambiamenti chiari probabilmente sta succedendo nella parte inferiore della dimensione del campione. Hai i dati o solo l'immagine della trama?
Glen_b

4
Se vedi la mediana come mediana di n variabili casuali, allora ha senso che la variazione della mediana diminuisce all'aumentare della dimensione del campione. Ciò spiegherebbe l'ampia diffusione sul lato sinistro della trama.
JAD,

2
L'affermazione "per dimensioni del campione fino a 1000 non esiste alcuna relazione in quanto per gli stessi valori delle dimensioni del campione ci sono più valori mediani" non è corretta.
Peter Flom - Ripristina Monica

Risposte:


9

"Scopri" indica che stai esplorando i dati. I test formali sarebbero superflui e sospetti. Invece, applica le tecniche standard di analisi dei dati esplorativi (EDA) per rivelare ciò che potrebbe essere nei dati.

Queste tecniche standard includono la reespressione , l' analisi residua , tecniche robuste (le "tre R" dell'EDA) e il livellamento dei dati come descritto da John Tukey nel suo libro classico EDA (1977). Come condurre alcuni di questi sono delineati nel mio post presso Box-Cox come la trasformazione per variabili indipendenti? e nella regressione lineare, quando è appropriato utilizzare il registro di una variabile indipendente anziché i valori effettivi? , tra l'altro .

Il risultato è che si può vedere molto passando agli assi log-log (riesprendo efficacemente entrambe le variabili), livellando i dati in modo non troppo aggressivo ed esaminando i residui del smooth per verificare cosa potrebbe essersi perso, come illustrerò.

Ecco i dati mostrati con un smooth che, dopo aver esaminato diversi smooth con vari gradi di fedeltà ai dati, sembra un buon compromesso tra troppo e troppo poco. Utilizza Loess, un noto metodo robusto (non è fortemente influenzato da punti verticalmente periferici).

Grafico a dispersione log-log

La griglia verticale è a passi di 10.000. Il liscio fa suggerire qualche variante di Grad_mediancon dimensione del campione: sembra di cadere come le dimensioni del campione si avvicinano 1000. (Le estremità del liscio non sono affidabili - in particolare per i piccoli campioni, in cui è previsto l'errore di campionamento di essere relativamente grande - così don leggere troppo in loro.) Questa impressione di una caduta reale è supportata dalle bande di confidenza (molto approssimative) disegnate dal software attorno al liscio: i suoi "movimenti" sono maggiori delle larghezze delle bande.

Per vedere cosa potrebbe essere sfuggita a questa analisi, la figura successiva esamina i residui. (Queste sono differenze di logaritmi naturali, che misurano direttamente le discrepanze verticali tra i dati del liscio precedente. Poiché sono numeri piccoli possono essere interpretati come differenze proporzionali; ad esempio, riflette un valore dei dati che è inferiore di circa il rispetto al corrispondente smoothed valore.)20 %0.220%

Siamo interessati a (a) se vi sono ulteriori schemi di variazione al variare delle dimensioni del campione e (b) se le distribuzioni condizionali della risposta - le distribuzioni verticali delle posizioni dei punti - sono plausibilmente simili tra tutti i valori delle dimensioni del campione, oppure se alcuni aspetti di essi (come la loro diffusione o simmetria) potrebbero cambiare.

! [Figura 2 Trama di residui

Questo fluido cerca di seguire i punti dati ancora più da vicino di prima. Tuttavia è essenzialmente orizzontale (nell'ambito delle bande di confidenza, che coprono sempre un valore y di ), suggerendo che non è possibile rilevare ulteriori variazioni. Il leggero aumento della diffusione verticale vicino al centro (dimensioni del campione da 2000 a 3000) non sarebbe significativo se testato formalmente, e quindi sicuramente non è rilevante in questa fase esplorativa. Non esiste una chiara e sistematica deviazione da questo comportamento generale evidente in nessuna delle categorie separate (distinta, non troppo bene, per colore - le ho analizzate separatamente in figure non mostrate qui).0.0

Di conseguenza, questo semplice riassunto:

lo stipendio mediano è inferiore di circa 10.000 per campioni di dimensioni vicine a 1000

acquisisce adeguatamente le relazioni che appaiono nei dati e sembra mantenersi uniformemente in tutte le principali categorie. Se ciò sia significativo, ovvero se si alzerebbe se confrontato con dati aggiuntivi, può essere valutato solo raccogliendo tali dati aggiuntivi.


Per coloro che desiderano controllare questo lavoro o portarlo oltre, ecco il Rcodice.

library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA of Median Salary vs. Sample Size",
          paste("Span of smooth is", signif(span, 2)))
print(g)

span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
          paste("Span of smooth is", signif(span, 2)))
print(g.r)

7

Glen_b sta suggerendo di prendere il logaritmo di sample_size e lo stipendio mediano per vedere se il ridimensionamento dei dati ha senso.

Non so che sarei d'accordo con la tua convinzione che lo stipendio mediano diminuisce una volta che la dimensione del campione supera i 1.000. Sarei più propenso a dire che non esiste alcuna relazione. La tua teoria prevede che ci dovrebbe essere una relazione?

Un altro modo per valutare una possibile relazione è di adattare una linea di regressione ai dati. In alternativa, è anche possibile utilizzare una curva dei bassi. Traccia entrambe le righe sui tuoi dati e vedi se qualcosa può essere preso in giro (dubito che ci sia qualcosa di eccessivamente sostanziale).


3
Il diagramma a dispersione è molto simile a un diagramma a imbuto utilizzato nelle meta-analisi. Vedi un esempio simile . Tracciare le bande dell'imbuto mostrerà più chiaramente se c'è qualche relazione, in questo esempio potrebbe esserci una leggermente positiva.
Andy W,

6

Sono anche d'accordo che non ci sono relazioni. Ho riprodotto il grafico a dispersione originale (a sinistra) e creato il diagramma a dispersione log-log suggerito da glen_b (a destra).

inserisci qui la descrizione dell'immagine

Sembra che non ci sia alcuna relazione con nessuno dei due. La correlazione tra i dati trasformati in log è debole (Pearson R = -.13) e insignificante (p = .09). A seconda di quante informazioni extra hai, c'è forse un motivo per vedere qualche debole correlazione negativa, ma sembra un allungamento. Immagino che qualsiasi modello apparente che stai vedendo sia lo stesso effetto visto qui .

Modifica: dopo aver visto le trame di @ famargar mi sono reso conto di aver tracciato la dimensione del campione grad contro lo stipendio medio non di laurea. Credo che @sameed volesse la dimensione del campione contro il salario grad -median, anche se non è del tutto chiaro. Per quest'ultimo riproduco i numeri di @ famargar, ovvero ( ) e le nostre trame sembrano identiche.p = 0,98R=0.0022p=0.98


Grazie per aver esaminato la correlazione tra grad-mediana e grad-campion-size; Ero profondamente perplesso dalla differenza tra i numeri!
Famargar,

0

Cercare una regressione lineare ti insegnerà qualcosa su questa relazione, come suggerito nella prima risposta. Poiché sembra che tu stia usando python plus matplotlib per questo grafico, sei a una riga di codice dalla soluzione.

È possibile utilizzare il grafico congiunto Seaborn, che visualizzerà anche la linea di regressione lineare, il coefficiente di correlazione di Pearson e il suo valore p:

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

inserisci qui la descrizione dell'immagine

come puoi vedere non c'è correlazione. Osservando quest'ultima trama, sembra utile trasformare il log in una variabile x. Proviamolo:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

inserisci qui la descrizione dell'immagine

Si può vedere chiaramente che - trasformazione del log o meno - la correlazione è piccola e sia il valore p che gli intervalli di confidenza dicono che non è statisticamente significativo.


3
Le indicazioni di distribuzioni condizionate fortemente distorte suggeriscono che questo non è un buon approccio. Quando osservi anche che l'asimmetria della distribuzione delle dimensioni del campione farà sì che le poche dimensioni del campione più grandi controllino l'aspetto di una tendenza nella regressione, vedrai perché altri raccomandano trasformazioni preliminari dei dati.
whuber

1
Non sto indovinando o speculando: la trama nella domanda mostra chiaramente queste caratteristiche. Vedi anche i grafici creati da R Greg Stacey , che - applicando le trasformazioni di log-log suggerite - dimostra ciò che realizzano.
whuber

Ho appena trovato i dati e ho fatto lo studio da solo - vedi la risposta aggiornata.
Famargar,

Il tuo studio ha ceduto ai due problemi che ho notato: l'apparenza di "nessuna correlazione" deriva in gran parte dalle risposte condizionate distorte e dall'effetto leva per gli alti valori del regressore. In particolare, né la linea adattata né le sue bande di errore sono affidabili.
whuber

Si prega di vedere la trama che ho appena aggiunto; Spero di non perdere nulla in quest'ultima iterazione.
Famargar,

-1

Questo diagramma funziona come una dimostrazione del teorema del limite centrale, in cui la variabilità tra i campioni diminuisce all'aumentare della dimensione del campione. È anche la forma che ti aspetteresti con una variabile fortemente distorta come lo stipendio.


3
Questi non sono campioni indipendenti di una popolazione comune. Ciò rende la rilevanza del CLT piuttosto problematica.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.