Qual è la relazione tra e in questo diagramma?


38

Qual è la relazione tra e nella trama seguente? Dal mio punto di vista esiste una relazione lineare negativa, ma poiché abbiamo molti valori anomali, la relazione è molto debole. Ho ragione? Voglio imparare come possiamo spiegare i grafici a dispersione.XYX

inserisci qui la descrizione dell'immagine


3
Che cos'è ? Che cos'è ? Quale processo hai prodotto valori anomali? Cosa ti fa pensare che non siano misurazioni reali? Qual è la teoria? YXY
abaumann,

4
Grazie per il tuo commento. Vedo solo questa trama in un libro. Y è variabile dipendente e X è variabile indipendente. Non c'è teoria. ha tracciato un diagramma a dispersione per mostrare la relazione di Y dato x. E c'è una domanda nel libro che chiede se c'è qualche relazione, lineare o non lineare? Forte o debole?
PSS

7
Questo è un esercizio di tasseografia . Questo è molto popolare tra i day trader e lo chiamano analisi tecnica . Fondamentalmente, senza sapere qualcosa sulla natura dei dati è un esercizio inutile
Aksakal,

1
@chl you rock per la donazione a una generosità a whuber =)
Cam.Davidson.Pilon

3
@Aksakal Il linguaggio statistico di solito comprende la "relazione" piuttosto letteralmente: come descrivere insiemi di tuple di numeri. Ad esempio, un coefficiente di correlazione descrive una relazione. Non ci sono implicazioni sulla genesi, la natura o le associazioni causali tra le variabili sottostanti. Concordo con te sul fatto che "spiegare" di solito è inteso in un senso così più profondo, ma poiché le relazioni sono così fortemente enfatizzate nella domanda, penso che sia giusto non spingere troppo oltre il significato letterale di "spiegare". Suggerire che descrivere i grafici a dispersione sia solo una lettura delle foglie di tè va troppo lontano, IMHO.
whuber

Risposte:


51

La domanda affronta diversi concetti: come valutare i dati forniti solo sotto forma di un diagramma a dispersione, come riassumere un diagramma a dispersione e se (e in che misura) una relazione appare lineare. Prendiamoli in ordine.

Valutazione dei dati grafici

Utilizzare i principi dell'analisi dei dati esplorativi (EDA). Questi (almeno in origine, quando sono stati sviluppati per l'uso su carta e matita) enfatizzano riassunti di dati semplici, facili da calcolare e solidi. Uno dei tipi più semplici di riepiloghi si basa su posizioni all'interno di un insieme di numeri, come il valore medio, che descrive un valore "tipico". Le medie sono facili da stimare in modo affidabile dalla grafica.

I grafici a dispersione mostrano coppie di numeri. Il primo di ogni coppia (come tracciato sull'asse orizzontale) fornisce un insieme di numeri singoli, che potremmo riassumere separatamente.

In questo particolare diagramma a dispersione, i valori y sembrano trovarsi all'interno di due gruppi quasi completamente separati : i valori superiori a nella parte superiore e quelli uguali o inferiori a nella parte inferiore. (Questa impressione è confermata disegnando un istogramma dei valori y, che è nettamente bimodale, ma a questo punto sarebbe molto lavoro.) Invito gli scettici a socchiudere gli occhi sul diagramma a dispersione. Quando lo faccio - usando una sfocatura gaussiana a raggio ampio e correzione gamma (ovvero un risultato standard di elaborazione rapida delle immagini) dei punti nel diagramma a dispersione vedo questo:606060

Figura 0

I due gruppi - superiore e inferiore - sono piuttosto evidenti. (Il gruppo superiore è molto più leggero di quello inferiore perché contiene molti meno punti.)

Di conseguenza, riassumiamo i gruppi di valori y separatamente. Lo farò disegnando linee orizzontali sulle mediane dei due gruppi. Per enfatizzare l' impressione dei dati e mostrare che non stiamo facendo alcun tipo di calcolo, ho (a) rimosso tutte le decorazioni come assi e linee della griglia e (b) sfocato i punti. Poche informazioni sugli schemi nei dati vengono perse "strizzando gli occhi" nel grafico:

figura

Allo stesso modo, ho tentato di contrassegnare le mediane dei valori x con segmenti di linea verticali. Nel gruppo superiore (linee rosse) è possibile verificare, contando i BLOB, che queste linee separino effettivamente il gruppo in due metà uguali, sia in orizzontale che in verticale. Nel gruppo inferiore (linee blu) ho solo stimato visivamente le posizioni senza effettivamente contare.

Valutare le relazioni: regressione

I punti di intersezione sono i centri dei due gruppi. Un eccellente riassunto della relazione tra i valori xey sarebbe quello di riportare queste posizioni centrali. Si vorrebbe quindi integrare questo riassunto con una descrizione di quanto i dati sono distribuiti in ciascun gruppo - a sinistra e a destra, sopra e sotto - attorno ai loro centri. Per brevità, non lo farò qui, ma nota che (approssimativamente) le lunghezze dei segmenti di linea che ho disegnato riflettono gli spread complessivi di ciascun gruppo.

Alla fine, ho disegnato una linea (tratteggiata) che collega i due centri. Questa è una ragionevole linea di regressione. È una buona descrizione dei dati? Certamente no: guarda come sono distribuiti i dati attorno a questa linea. È anche prova di linearità? È poco pertinente perché la descrizione lineare è così scadente. Tuttavia, poiché questa è la domanda che abbiamo di fronte, affrontiamola.

Valutazione della linearità

Una relazione è lineare in senso statistico quando entrambi i valori y variano in modo casuale bilanciata attorno ad una linea o i valori x sono visti a variare in modo casuale bilanciata attorno ad una linea (o entrambi).

Il primo non sembra essere il caso qui: poiché i valori y sembrano cadere in due gruppi, la loro variazione non sembrerà mai equilibrata nel senso di essere distribuita approssimativamente simmetricamente sopra o sotto la linea. (Ciò esclude immediatamente la possibilità di scaricare i dati in un pacchetto di regressione lineare e di eseguire un adattamento dei minimi quadrati di y contro x: le risposte non sarebbero pertinenti.)

Che dire della variazione in x? È più plausibile: ad ogni altezza della trama, la dispersione orizzontale di punti attorno alla linea tratteggiata è piuttosto equilibrata. La diffusione in questa dispersione sembra essere leggermente maggiore ad altezze inferiori (valori bassi), ma forse è perché ci sono molti più punti lì. (Più dati casuali hai, più ampi saranno i loro valori estremi.)

Inoltre, mentre eseguiamo la scansione dall'alto verso il basso, non ci sono punti in cui la dispersione orizzontale attorno alla linea di regressione è fortemente sbilanciata: sarebbe una prova di non linearità. (Beh, forse intorno a y = 50 o giù di lì potrebbero esserci troppi valori x di grandi dimensioni. Questo sottile effetto potrebbe essere preso come ulteriore prova per suddividere i dati in due gruppi attorno al valore y = 60.)

conclusioni

L'abbiamo visto

  • Ha senso vedere x come una funzione lineare di y più alcune "belle" variazioni casuali.

  • Non ha senso vedere y come una funzione lineare di x più una variazione casuale.

  • Una linea di regressione può essere stimata separando i dati in un gruppo di valori y alti e un gruppo di valori y bassi, trovando i centri di entrambi i gruppi usando mediane e collegando tali centri.

  • La linea risultante ha una pendenza verso il basso, che indica una relazione lineare negativa .

  • Non ci sono forti deviazioni dalla linearità.

  • Tuttavia, poiché gli spread dei valori x attorno alla linea sono ancora grandi (rispetto alla diffusione complessiva dei valori x per cominciare), dovremmo caratterizzare questa relazione lineare negativa come "molto debole".

  • Potrebbe essere più utile descrivere i dati come formare due nuvole di forma ovale (una per y sopra 60 e un'altra per valori più bassi di y). All'interno di ogni nuvola c'è poca relazione rilevabile tra xe y. I centri delle nuvole sono vicini (0,29, 90) e (0,38, 30). I cloud hanno spread comparabili, ma il cloud superiore ha molti meno dati rispetto a quello inferiore (forse il 20% in più).

Due di queste conclusioni confermano quelle fatte nella domanda stessa che esiste una relazione negativa debole. Gli altri completano e supportano tali conclusioni.

Una conclusione tratta dalla domanda che non sembra reggere è l'affermazione che esistono "valori anomali". Un esame più attento (come illustrato di seguito) non riuscirà a evidenziare singoli punti, o anche piccoli gruppi di punti, che potrebbero validamente essere considerati esterni. Dopo un'analisi sufficientemente lunga, si potrebbe attirare la propria attenzione sui due punti vicino alla metà destra o su quello nell'angolo in basso a sinistra, ma anche questi non cambieranno molto la valutazione dei dati, indipendentemente dal fatto che siano considerati o meno periferico.


Ulteriori indicazioni

Si potrebbe dire molto di più. I prossimi passi sarebbero valutare gli spread di quelle nuvole. Le relazioni tra xey all'interno di ciascuna delle due nuvole potrebbero essere valutate separatamente, usando le stesse tecniche mostrate qui. La leggera asimmetria della nuvola inferiore (più dati sembrano apparire ai valori y più piccoli) potrebbe essere valutata e persino regolata riesprimendo i valori y (una radice quadrata potrebbe funzionare bene). In questa fase avrebbe senso cercare dati periferici, perché a questo punto la descrizione includerebbe informazioni sui valori di dati tipici e sui loro spread; i valori anomali (per definizione) sarebbero troppo lontani dal centro per essere spiegati in termini di quantità osservata di diffusione.

Niente di tutto questo lavoro - che è abbastanza quantitativo - richiede molto più che trovare medi di gruppi di dati e fare alcuni semplici calcoli con loro, e quindi può essere fatto rapidamente e accuratamente anche quando i dati sono disponibili solo in forma grafica. Tutti i risultati qui riportati, inclusi i valori quantitativi, possono essere facilmente trovati in pochi secondi utilizzando un sistema di visualizzazione (come una copia cartacea e una matita :-)) che consente di tracciare segni di luce sulla parte superiore della grafica.


4
Wow. Non avrei mai visto quei due gruppi e la linea risultante. E lo metto in dubbio.
rvl,

4
@Russ Sono felice di sapere che qualcuno mette in dubbio questa esplorazione, perché nessun EDA è unico o dispositivo. Ho incluso un'altra immagine per aiutarti a vedere quello che vedo. Vorrei invitarti a pubblicare una risposta ugualmente o più parsimoniosa e utilmente descrittiva.
whuber

12
Come umani siamo straordinariamente inclini a trovare schemi, anche quelli che non ci sono. Penso che sia abbastanza plausibile ottenere un diagramma a dispersione come quello che abbiamo qui con solo due camper indipendenti, uno dei quali distorto. Non ne ho la prova e non ho analisi alternative da offrire, a parte quella che dice che c'è poca o nessuna relazione. Sì, è possibile che sia presente la bimodalità. Se il processo potesse essere ulteriormente osservato, potremmo vedere cosa succede. Penso solo che dobbiamo essere cauti e consapevoli della nostra inclinazione a reagire a schemi plausibilmente falsi.
rvl,

4
@Russ Hai ragione. È necessaria esperienza per evitare di leggere troppo negli schemi. La mia esperienza dice che con 150-200 punti è difficile ottenere casualmente la forte bimodalità che ho misurato nelle coordinate y. Al giorno d'oggi tale esperienza può essere facilmente e rapidamente integrata dalla simulazione: quando pensi di vedere uno schema, allora (1) lo caratterizzi quantitativamente e (2) lo cerchi in campioni casuali generati secondo un'ipotesi alternativa più semplice. Se il modello si presenta molto, allora puoi incolpare la tua corteccia visiva, ma altrimenti potresti aver trovato qualcosa.
whuber

1
@Russ Grazie. Non era la trama residua che ho descritto - i ruoli di xey sono invertiti. Tuttavia, è comunque informativo. L'eteroscedasticità è la cosa più sorprendente: in realtà sembra dare supporto all'ipotesi a due cluster (che farebbe scomparire l'eteroscedasticità). Intendiamoci, sono agnostico riguardo a questa ipotesi. Tutto ciò che ho scritto qui è nello spirito originale di una descrizione accurata e solida dei dati. Ogni singola curva come descrizione di questi dati sarà grezza e forse insoddisfacente.
whuber

31

Divertiamoci un po '!

Prima di tutto, ho raschiato i dati fuori il grafico.

Quindi ho usato una linea scorrevole più liscia per produrre la linea di regressione nera in basso con le bande tratteggiate al 95% in grigio. Il grafico seguente mostra un intervallo nel mezzo di metà dei dati, sebbene intervalli più stretti abbiano rivelato più o meno precisamente la stessa relazione. La leggera variazione della pendenza attorno a suggerito una relazione che potrebbe essere approssimata usando un modello lineare e aggiungendo la funzione di cerniera lineare della pendenza di in una regressione dei minimi quadrati non lineari (linea rossa):XX=0.4X

Y=β0+βXX+βcmax(Xθ,0)+ε

Le stime dei coefficienti erano:

Y=50.937.7X26.74436max(X0.46,0)

Vorrei notare che mentre il whuber discutibile afferma che non ci sono relazioni lineari forti, la deviazione dalla linea implicita dal termine cerniera è nello stesso ordine della pendenza di (cioè 37,7), quindi I sarebbe in disaccordo con il fatto che non vediamo una relazione non lineare forte (cioè Sì, non ci sono relazioni forti, ma il termine non lineare è forte quanto quello lineare).XY=50.937.7XX

Gioca con i dati

Interpretazione
(ho proceduto supponendo che tu sia interessato solo a come variabile dipendente). I valori di sono previsti in modo molto debole da (con un aggiustato- = 0,03). L'associazione è approssimativamente lineare, con una leggera diminuzione della pendenza a circa 0,46. I residui sono leggermente inclinato verso destra, probabilmente perché il è un forte limite inferiore valori . Data la dimensione del campione , sono propenso a tollerare violazioni della normalità . Altre osservazioni per valori di aiuterebbero a stabilire se il cambiamento di pendenza è reale o è un artefatto con una varianza ridotta diY X R 2 Y N = 170 X > 0,5 YYYXR2YN=170X>0.5Y in quell'intervallo.

Aggiornamento con il grafico :ln(Y)

(La linea rossa è semplicemente una regressione lineare di ln (Y) su X.)

Aggiornato con il grafico secondo il suggerimento di Russ Lenth.

Nei commenti Russ Lenth ha scritto: "Mi chiedo solo se questo regge se si liscia vs. La distribuzione di è distorta". Questo è un buon suggerimento, poiché la trasformazione rispetto a offre anche un adattamento leggermente migliore di una linea tra e con residui distribuiti in modo più simmetrico. Tuttavia, sia il suo suggerito che il mio cardine lineare di condividono una preferenza per una relazione tra (non trasformata) e che non è descritta da una linea retta.logYXYlogYXYXlog(Y)XYX


1
Mi chiedo solo se questo vale in su se si liscia vs . La distribuzione di è distorta e penso che una trasformazione che renda la distribuzione più simmetrica non assomiglierà molto all'iconico diagramma a dispersione nullo. logYXY
rvl,

1
@Russ È classico che le distribuzioni bimodali possano apparire distorte e suggerire trasformazioni di log. Ma la distribuzione y qui è davvero bimodale e un registro probabilmente non è un modo utile per riesprimerlo. Quando i due componenti sono separati, quello inferiore è ancora inclinato positivamente e una radice quadrata ha circa la giusta quantità per trasformarlo per ottenere una distribuzione simmetrica. La radice quadrata non influisce in modo sensibile sulla simmetria del gruppo superiore, indicando che la radice può essere una buona scelta. Tuttavia, ciò non risolve la bimodalità - e qui sta il problema con qualsiasi tipo di liscio di questo tipo.
whuber

1
Alexis, nelle nostre risposte siamo entrambi colpevoli di usare "forte" in modi indefiniti. Il senso in cui intendevo "debole" è stato accennato in alcune delle mie frasi, che intendeva indicare che la pendenza è piccola rispetto alla dispersione nei valori y. Non credo che la tua analisi abbia portato a conclusioni diverse al riguardo. Ho sentito il bisogno di cautela perché, accettando ipoteticamente che potrebbe esserci del merito al modello di miscela per y, sembra che nel gruppo superiore potrebbe esserci effettivamente una debole relazione positiva tra xey e nessuna relazione nel gruppo inferiore.
whuber

3
Alexis, il libro EDA di Tukey ne è pieno. Per ulteriori tecniche (di maggiore raffinatezza, con giustificazione matematica) vedi Hoaglin, Mosteller e Tukey, Comprensione dell'analisi dei dati robusti ed esplorativi .
whuber

2
@rivu manual. Ci sono voluti 10 o 15 minuti al massimo. Posizionato ogni punto inizialmente con il puntatore, quindi posizionato con precisione usando i tasti freccia.
Alexis,

21

Ecco il mio 2 ¢ 1,5 ¢. Per me la caratteristica più importante è che i dati si fermano bruscamente e si "accumulano" nella parte inferiore dell'intervallo di Y. Vedo i due (potenziali) "cluster" e l'associazione negativa generale, ma le caratteristiche più salienti sono le (potenziale) effetto pavimento e il fatto che il cluster superiore a bassa densità si estende solo su parte dell'intervallo di X.

Poiché i "cluster" sono vagamente bivariati normali, un modello di miscela normale parametrica può essere interessante da provare. Utilizzando i dati di @Alexis, trovo che tre cluster ottimizzano il BIC. L '"effetto pavimento" ad alta densità viene scelto come terzo cluster. Il codice segue:

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26 

inserisci qui la descrizione dell'immagine

Ora, cosa dovremmo dedurre da questo? Non penso che il Mclustsemplice riconoscimento del modello umano sia andato storto. (Mentre la mia lettura del grafico a dispersione potrebbe anche essere.) D'altra parte, non c'è dubbio che questo sia post-hoc . Ho visto quello che pensavo potesse essere un modello interessante e così ho deciso di controllarlo. L'algoritmo trova qualcosa, ma poi ho controllato solo ciò che pensavo potesse essere lì, quindi il mio pollice è decisamente sulla scala. A volte è possibile escogitare una strategia per mitigare questo (vedi l'eccellente risposta di @Buber qui ), ma non ho idea di come affrontare un simile processo in casi come questo. Di conseguenza, prendo questi risultati con molto sale (ho fatto questo genere di cose abbastanza spesso che a qualcuno manca un intero agitatore). Mi dà del materiale su cui riflettere e discutere con il mio cliente al prossimo incontro. Quali sono questi dati? Ha senso che ci possa essere un effetto pavimento? Avrebbe senso che potrebbero esserci gruppi diversi? Quanto sarebbe significativo / sorprendente / interessante / importante se questi fossero reali? Esistono dati indipendenti / possiamo ottenerli comodamente per eseguire un test onesto di queste possibilità? Eccetera.


1
+1 Per sottolineare come un'analisi esplorativa porti naturalmente a domande interessanti . Vorrei aver enfatizzato maggiormente questo punto nella mia risposta. Anche se penso che spingerebbe le cose a credere (a questo punto) che ci siano davvero tre gruppi distinti, i risultati del cluster presentano comunque un modo valido di vedere che esiste una relazione negativa tra xey e di riassumere quella relazione. Sono indotto a chiedermi fino a che punto il clustering automatico potrebbe essere uno strumento esplorativo generalmente utile, a condizione che non siamo tentati di leggere troppo i risultati.
whuber

14

Lasciami descrivere quello che vedo non appena lo guardo:

Se siamo interessati alla distribuzione condizionale di (che se spesso dove l'interesse si concentra se vediamo come IV e come DV), per la distribuzione condizionale di appare bimodale con un gruppo superiore ( tra circa 70 e 125, con media un po 'inferiore a 100) e un gruppo inferiore (tra 0 e circa 70, con media circa 30 o giù di lì). All'interno di ciascun gruppo modale, la relazione con è quasi piatta. (Vedi le linee rosse e blu sotto disegnate approssimativamente dove immagino che sia un senso approssimativo della posizione)yxyx0.5Y|xx

Quindi guardando dove quei due gruppi sono più o meno densi in , possiamo continuare a dire di più:X

Per il gruppo superiore scompare completamente, il che fa cadere la media complessiva di , e al di sotto di circa 0,2, il gruppo inferiore è molto meno denso di quello sopra, rendendo la media complessiva più alta.x>0.5x

Tra questi due effetti, induce un'apparente relazione negativa (ma non lineare) tra i due, poiché sembra diminuire rispetto a ma con una regione ampia, prevalentemente piatta al centro. (Vedi linea tratteggiata viola)E(Y|X=x)x

inserisci qui la descrizione dell'immagine

Senza dubbio sarebbe importante sapere cosa fossero e , perché allora potrebbe essere più chiaro il motivo per cui la distribuzione condizionale per potrebbe essere bimodale su gran parte del suo intervallo (in effetti, potrebbe anche diventare chiaro che ci sono davvero due gruppi, il cui le distribuzioni in inducono l'apparente relazione decrescente in ).YXYXY|x

Questo è quello che ho visto basandomi su un'ispezione puramente "ad occhio". Con un po 'di gioco in qualcosa di simile a un programma di manipolazione di immagini di base (come quello con cui ho disegnato le linee) potremmo iniziare a capire alcuni numeri più precisi. Se digitalizziamo i dati (che è piuttosto semplice con strumenti decenti, se a volte un po 'noiosi per ottenere il giusto), allora possiamo intraprendere analisi più sofisticate di quel tipo di impressione.

Questo tipo di analisi esplorativa può portare ad alcune domande importanti (a volte quelle che sorprendono la persona che ha i dati ma ha solo mostrato una trama), ma dobbiamo fare attenzione alla misura in cui i nostri modelli vengono scelti da tali ispezioni - se applichiamo i modelli scelti sulla base dell'aspetto di un grafico e quindi stimiamo tali modelli sugli stessi dati, tendiamo a incontrare gli stessi problemi che incontriamo quando utilizziamo una selezione e una stima più formali del modello sugli stessi dati. [Questo non per negare affatto l'importanza dell'analisi esplorativa - è solo che dobbiamo stare attenti alle conseguenze di farlo senza considerare come lo facciamo. ]


Risposta ai commenti di Russ:

[modifica successiva: Per chiarire - Sono ampiamente d'accordo con le critiche di Russ prese come precauzione generale, e c'è sicuramente qualche possibilità che ho visto più di quanto non sia realmente lì. Ho intenzione di tornare e modificarli in un commento più ampio sugli schemi spuri che comunemente identifichiamo a occhio e sui modi in cui potremmo iniziare a evitare il peggio. Credo che sarò anche in grado di aggiungere alcune giustificazioni sul motivo per cui penso che probabilmente non sia solo falso in questo caso specifico (ad esempio tramite un regressogramma o un kernel di ordine 0 liscio, anche se, naturalmente, sono assenti più dati su cui testare, c'è solo così lontano che può andare; per esempio, se il nostro campione non è rappresentativo, persino il ricampionamento ci porta solo così lontano.]

Sono completamente d'accordo che abbiamo la tendenza a vedere schemi spuri; è un punto che faccio spesso sia qui che altrove.

Una cosa che suggerisco, ad esempio, quando si osservano grafici residui o grafici QQ è generare molti grafici in cui è nota la situazione (sia come dovrebbero essere le cose e dove le ipotesi non valgono) per avere un'idea chiara di quanto schema dovrebbe essere ignorato.

Ecco un esempio in cui una trama QQ viene posizionata tra le altre 24 (che soddisfano i presupposti), in modo che possiamo vedere quanto sia insolita la trama. Questo tipo di esercizio è importante perché ci aiuta a evitare di prenderci in giro interpretando ogni piccola oscillazione, la maggior parte dei quali sarà un semplice rumore.

Sottolineo spesso che se puoi cambiare un'impressione coprendo alcuni punti, potremmo fare affidamento su un'impressione generata da nient'altro che rumore.

[Tuttavia, quando appare evidente da molti punti piuttosto che da pochi, è più difficile sostenere che non è lì.]

I display a risposta di whuber supporta la mia impressione, la trama sfocatura gaussiana sembra prendere la stessa tendenza a bimodalità in .Y

Quando non abbiamo più dati da controllare, possiamo almeno vedere se l'impressione tende a sopravvivere al ricampionamento (avviare la distribuzione bivariata e vedere se è quasi sempre presente) o altre manipolazioni in cui l'impressione non dovrebbe essere evidente se è rumore semplice.

1) Ecco un modo per vedere se l'apparente bimodalità è più di una semplice asimmetria più rumore - si presenta in una stima della densità del kernel? È ancora visibile se tracciamo le stime della densità del kernel in una varietà di trasformazioni? Qui lo trasformo in una maggiore simmetria, all'85% della larghezza di banda predefinita (poiché stiamo cercando di identificare una modalità relativamente piccola e la larghezza di banda predefinita non è ottimizzata per tale attività):

inserisci qui la descrizione dell'immagine

I grafici sono , e . Le linee verticali sono , e . La bimodalità è ridotta, ma ancora abbastanza visibile. Dal momento che è molto chiaro nel KDE originale sembra confermare che è lì - e il secondo e il terzo diagramma suggeriscono che sia almeno un po 'robusto alla trasformazione.YYlog(Y)6868log(68)

2) Ecco un altro modo di base per vedere se è molto più di un semplice "rumore":

Passaggio 1: eseguire il clustering su Y

inserisci qui la descrizione dell'immagine

Passaggio 2: dividere in due gruppi su e raggruppare i due gruppi separatamente e vedere se è abbastanza simile. Se non succede nulla sulle due metà, non ci si dovrebbe aspettare che si divida tanto.X

inserisci qui la descrizione dell'immagine

I punti con punti sono stati raggruppati in modo diverso dal cluster "tutto in un set" nel grafico precedente. Ne farò un po 'più tardi, ma sembra che forse ci potrebbe essere una "divisione" orizzontale vicino a quella posizione.

Proverò un regressogramma o uno stimatore di Nadaraya-Watson (entrambi essendo stime locali della funzione di regressione, ). Non ho ancora generato neanche, ma vedremo come vanno. Probabilmente escluderei le estremità dove ci sono pochi dati.E(Y|x)

3) Modifica: ecco il regressogramma, per i contenitori di larghezza 0,1 (escludendo le estremità, come ho suggerito in precedenza):

inserisci qui la descrizione dell'immagine

Ciò è del tutto coerente con l'impressione originale che ho avuto della trama; non dimostra che il mio ragionamento fosse corretto, ma le mie conclusioni sono arrivate allo stesso risultato del regressogramma.

Se ciò che ho visto nella trama - e il ragionamento risultante - fosse falso, probabilmente non sarei riuscito a discernere questo modo.E(Y|x)

(La prossima cosa da provare sarebbe uno stimatore Nadayara-Watson. Quindi potrei vedere come va sotto ricampionamento se ho tempo.)

4) Modifica successiva:

Nadarya-Watson, kernel gaussiano, larghezza di banda 0.15:

inserisci qui la descrizione dell'immagine

Ancora una volta, questo è sorprendentemente coerente con la mia impressione iniziale. Ecco gli stimatori NW basati su dieci esempi di bootstrap:

inserisci qui la descrizione dell'immagine

Il modello generale è lì, anche se un paio di campioni non seguono altrettanto chiaramente la descrizione basata sull'insieme dei dati. Vediamo che il caso del livello di sinistra è meno certo che a destra - il livello di rumore (in parte da poche osservazioni, in parte dall'ampia diffusione) è tale che è meno facile affermare che la media è davvero più alta alla a sinistra rispetto al centro.

La mia impressione generale è che probabilmente non mi stavo semplicemente prendendo in giro, perché i vari aspetti resistono moderatamente bene a una varietà di sfide (smoothing, trasformazione, suddivisione in sottogruppi, ricampionamento) che tenderebbero a oscurarle se fossero semplicemente rumore. D'altra parte, le indicazioni sono che gli effetti, sebbene sostanzialmente coerenti con la mia impressione iniziale, sono relativamente deboli, e potrebbe essere troppo per rivendicare qualsiasi reale cambiamento nell'aspettativa che si sposta dal lato sinistro al centro.


1
Ho messo in dubbio una risposta, ma questa sono fiduciosa nel dire che sta trovando cose che non ci sono
rvl

1
Ho provato a invertire il mio voto negativo, ma credo di non poterlo fare. Solo perché non sono davvero d'accordo con la tua risposta non significa necessariamente che non contribuisca alla discussione. Non sono sicuro di come usare i voti negativi e non intendo nulla di personale da parte di it.p
rvl

4
@Russ non preoccuparti del downvote, in realtà non importa, a parte il fatto che segnala che c'è qualcosa che dovrei affrontare. Molto più importante capire perché non siamo d'accordo (nella misura in cui lo facciamo affatto) piuttosto che preoccuparci di falsi punti Internet. Hai un'obiezione che vale la pena discutere e pagherei volentieri dieci volte quel voto negativo per avere anche questa breve discussione. Ti incoraggio a sottovalutarmi ogni volta che non sei d'accordo, se dirai perché. Questa è la mia occasione per imparare qualcosa.
Glen_b -Restate Monica

1
@RussLenth è possibile annullare un voto negativo (o positivo) facendo nuovamente clic sul voto discendente. Se non sei sicuro di dove siano i tuoi voti al passaggio del mouse sopra la freccia giù (o su) ti faranno sapere.
Alexis,

4
+1 In realtà ho fatto molta di questa analisi ma non volevo estendere eccessivamente la mia risposta con questi risultati. Hai fatto un ottimo lavoro nel presentarlo in una forma chiara, leggibile e convincente. Una cosa che ho fatto inoltre è stato regredire (in realtà, regolare) x contro y (nonostante la caratterizzazione di y come "dipendente"): penso che il risultato sia stato utile nel valutare la non linearità nella relazione in modo agnostico sul fatto che y dovrebbe essere trattato come uno o due gruppi.
whuber

13

OK gente, ho seguito l'esempio di Alexis e ho acquisito i dati. Ecco una trama di contro .xlogyxtrama del registro (Y) vs. X

E le correlazioni:

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188 

Il test di correlazione indica una probabile dipendenza negativa. Rimango non convinto di qualsiasi bimodalità (ma anche non convinto che sia assente).

[Ho rimosso una trama residua che avevo in una versione precedente perché ho trascurato il punto in cui @whuber stava cercando di prevedere ]X|Y


2
Per inciso ... mi è appena venuto in mente che prendere la trasformazione log (Y) come dipendente equivale ancora a trovare una relazione non lineare ... il log (Y) è più bello rispetto ai residui rispetto alla funzione di cerniera con cui ho giocato in la mia risposta ... ma una delle conclusioni è simile: la relazione tra e ha espressioni funzionali migliori di . X Y = a + b XYXY=a+bX
Alexis,

Grazie per quella trama residua, Russ. Questa non è una richiesta, ma vorrei sottolineare che ciò che ho trovato interessante - e forse di maggior valore per l'esplorazione di GoF - era la relazione di x in funzione di y piuttosto che in questo modo. Osservare i residui x richiede alcune domande aggiuntive (forse utili) non finora sollevate, come se potessimo imparare qualcosa attraverso re-espressioni non lineari di x (sì, possiamo); se si può dire molto indipendentemente dall'ipotesi di due popolazioni (sì, ancora) e dalla robustezza della mia forma (è molto robusta).
whuber

Bene, forse vuoi fare la trama residua per quello. Sto passando ad altre cose.
rvl,

5

Russ Lenth si chiese come sarebbe il grafico se l'asse Y fosse logaritmico. Alexis ha cancellato i dati, quindi è facile tracciare con un asse di registro:

inserisci qui la descrizione dell'immagine

Su una scala di registro, non vi è alcun accenno di bimodalità o tendenza. Il fatto che una scala di log abbia senso o meno dipende, ovviamente, dai dettagli di ciò che i dati rappresentano. Allo stesso modo, se ha senso pensare che i dati rappresentino il campionamento da due popolazioni come suggerisce whuber dipende dai dettagli.


Addendum: in base ai commenti qui sotto, ecco una versione rivista:

inserisci qui la descrizione dell'immagine


Ho pubblicato il mio grafico in pochi minuti dopo che Russ Lenth ha pubblicato il suo. Non avevo visto il suo, o non avrei pubblicato il mio.
Harvey Motulsky,

Trovo che nella stima i risultati della regressione (lineare verso l'alto) siano più forti con log ( ). Y
Alexis,

9
Questo grafico presenta un interessante esempio dell'effetto di una scarsa scelta della visualizzazione: riducendo le proporzioni ed estendendo l'asse y più del doppio di quanto necessario, il software ha automaticamente soppresso l'impressione visiva di qualsiasi dispersione verticale, rendendo difficile per lo spettatore vedere molto di tutto. Questo è il motivo per cui una buona esplorazione, sebbene guidata dalla rappresentazione grafica, deve (a) usare metodi di visualizzazione adeguati che rivelino , piuttosto che sopprimere, il comportamento dei dati e (b) supportarli con analisi aggiuntive (come mostrato nel post di @ Glen_b) .
whuber

Per gli intervalli di Y nella domanda, la base log 2 sarebbe una scelta più semplice avere un intervallo ragionevole di valori per l'asse Y. Impedirebbe anche l'intervallo superiore dai valori piacevoli di 1 e 1.000 che non sono conformi ai dati a portata di mano.
Andy W,

1

Bene, hai ragione, la relazione è debole, ma non zero. Immagino positivo. Tuttavia, non indovinare, esegui una semplice regressione lineare (regressione OLS) e scoprilo! Lì otterrai una pendenza di xxx che ti dirà qual è la relazione. E sì, hai degli outlier che potrebbero influenzare i risultati. Questo può essere affrontato. È possibile utilizzare la distanza di Cook o creare un diagramma di leva per stimare l'effetto dei valori anomali sulla relazione.

In bocca al lupo


Cosa ti fa pensare che siano veri e propri valori anomali piuttosto che il DGP non è lineare?
abaumann,

Beh, suppongo che potrebbe anche essere il caso. Ma è difficile da dire, i punti sono così sparsi.
Helgi Guðmundsson,

Perché assumere linearità con OLS? Regressione non parametrica FTW! :)
Alexis,

1
@Alexis ha ragione nel sottolineare che ipotesi come la linearità devono essere giustificate, sia dalla teoria dei domini che dalla verifica dei modelli. Tuttavia, penso che la totale eliminazione dei valori anomali senza considerare attentamente il motivo per cui tali valori si sono verificati è un errore molto comune nell'analisi statistica.
abaumann,

Sì, i valori anomali non possono essere eliminati senza una buona giustificazione, come un valore errato. Ma le trasformazioni possono aiutare a regolare la distribuzione del valore per adattarsi meglio e ridurre i valori anomali. E sì, sono d'accordo, credo che sia abbastanza comune cancellare gli outlier senza una causa giustificabile.
Helgi Guðmundsson,

1

Hai già fornito alcune intuizioni alla tua domanda osservando l'orientamento dei punti dati X / Y e la loro dispersione. Insomma hai ragione.

In termini formali l'orientamento può essere indicato come segno di correlazione e dispersione come varianza . Questi due collegamenti ti daranno maggiori informazioni su come interpretare la relazione lineare tra due variabili.


0

Questo è un lavoro a casa. Quindi, la risposta alla tua domanda è semplice. Esegui una regressione lineare di Y su X, otterrai qualcosa del genere:

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

Quindi, la statistica t è significativa sulla variabile X con una sicurezza del 99%. Quindi, puoi dichiarare che le variabili hanno un qualche tipo di relazione.

È lineare? Aggiungi una variabile X2 = (X-mean (X)) ^ 2 e regredisci di nuovo.

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

Il coefficiente di X è ancora significativo, ma X2 non lo è. X2 rappresenta la non linearità. Quindi, dichiari che la relazione sembra essere lineare.

Quanto sopra era per un lavoro a casa.

Nella vita reale, le cose sono più complicate. Immagina che questi fossero i dati di una classe di studenti. Y - panca in libbre, X - tempo in minuti di trattenere il respiro prima della panca. Chiederei il genere degli studenti. Per divertimento, aggiungiamo un'altra variabile, Z, e diciamo che Z = 1 (ragazze) per tutti Y <60 e Z = 0 (ragazzi) quando Y> = 60. Esegui la regressione con tre variabili:

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

Quello che è successo?! La "relazione" tra X e Y è scomparsa! Oh, sembra che la relazione fosse falsa a causa di variabili confondenti , genere.

Qual è la morale della storia? Devi sapere quali sono i dati per "spiegare" la "relazione", o anche per stabilirli in primo luogo. In questo caso, nel momento in cui mi viene detto che i dati sull'attività fisica degli studenti, chiederò immediatamente il loro genere e non mi preoccuperò nemmeno di analizzare i dati senza ottenere la variabile di genere.

D'altra parte, se ti viene chiesto di "descrivere" il diagramma a dispersione, allora tutto va bene. Correlazioni, accoppiamenti lineari ecc. Per il lavoro a casa, i primi due passaggi sopra dovrebbero essere sufficienti: guarda il coefficiente di X (relazione), quindi X ^ 2 (linearità). Assicurati di de-mean la variabile X (sottrarre la media).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.