Lasciami descrivere quello che vedo non appena lo guardo:
Se siamo interessati alla distribuzione condizionale di (che se spesso dove l'interesse si concentra se vediamo come IV e come DV), per la distribuzione condizionale di appare bimodale con un gruppo superiore ( tra circa 70 e 125, con media un po 'inferiore a 100) e un gruppo inferiore (tra 0 e circa 70, con media circa 30 o giù di lì). All'interno di ciascun gruppo modale, la relazione con è quasi piatta. (Vedi le linee rosse e blu sotto disegnate approssimativamente dove immagino che sia un senso approssimativo della posizione)yxyx≤0.5Y|xx
Quindi guardando dove quei due gruppi sono più o meno densi in , possiamo continuare a dire di più:X
Per il gruppo superiore scompare completamente, il che fa cadere la media complessiva di , e al di sotto di circa 0,2, il gruppo inferiore è molto meno denso di quello sopra, rendendo la media complessiva più alta.x>0.5x
Tra questi due effetti, induce un'apparente relazione negativa (ma non lineare) tra i due, poiché sembra diminuire rispetto a ma con una regione ampia, prevalentemente piatta al centro. (Vedi linea tratteggiata viola)E(Y|X=x)x
Senza dubbio sarebbe importante sapere cosa fossero e , perché allora potrebbe essere più chiaro il motivo per cui la distribuzione condizionale per potrebbe essere bimodale su gran parte del suo intervallo (in effetti, potrebbe anche diventare chiaro che ci sono davvero due gruppi, il cui le distribuzioni in inducono l'apparente relazione decrescente in ).YXYXY|x
Questo è quello che ho visto basandomi su un'ispezione puramente "ad occhio". Con un po 'di gioco in qualcosa di simile a un programma di manipolazione di immagini di base (come quello con cui ho disegnato le linee) potremmo iniziare a capire alcuni numeri più precisi. Se digitalizziamo i dati (che è piuttosto semplice con strumenti decenti, se a volte un po 'noiosi per ottenere il giusto), allora possiamo intraprendere analisi più sofisticate di quel tipo di impressione.
Questo tipo di analisi esplorativa può portare ad alcune domande importanti (a volte quelle che sorprendono la persona che ha i dati ma ha solo mostrato una trama), ma dobbiamo fare attenzione alla misura in cui i nostri modelli vengono scelti da tali ispezioni - se applichiamo i modelli scelti sulla base dell'aspetto di un grafico e quindi stimiamo tali modelli sugli stessi dati, tendiamo a incontrare gli stessi problemi che incontriamo quando utilizziamo una selezione e una stima più formali del modello sugli stessi dati. [Questo non per negare affatto l'importanza dell'analisi esplorativa - è solo che dobbiamo stare attenti alle conseguenze di farlo senza considerare come lo facciamo. ]
Risposta ai commenti di Russ:
[modifica successiva: Per chiarire - Sono ampiamente d'accordo con le critiche di Russ prese come precauzione generale, e c'è sicuramente qualche possibilità che ho visto più di quanto non sia realmente lì. Ho intenzione di tornare e modificarli in un commento più ampio sugli schemi spuri che comunemente identifichiamo a occhio e sui modi in cui potremmo iniziare a evitare il peggio. Credo che sarò anche in grado di aggiungere alcune giustificazioni sul motivo per cui penso che probabilmente non sia solo falso in questo caso specifico (ad esempio tramite un regressogramma o un kernel di ordine 0 liscio, anche se, naturalmente, sono assenti più dati su cui testare, c'è solo così lontano che può andare; per esempio, se il nostro campione non è rappresentativo, persino il ricampionamento ci porta solo così lontano.]
Sono completamente d'accordo che abbiamo la tendenza a vedere schemi spuri; è un punto che faccio spesso sia qui che altrove.
Una cosa che suggerisco, ad esempio, quando si osservano grafici residui o grafici QQ è generare molti grafici in cui è nota la situazione (sia come dovrebbero essere le cose e dove le ipotesi non valgono) per avere un'idea chiara di quanto schema dovrebbe essere ignorato.
Ecco un esempio in cui una trama QQ viene posizionata tra le altre 24 (che soddisfano i presupposti), in modo che possiamo vedere quanto sia insolita la trama. Questo tipo di esercizio è importante perché ci aiuta a evitare di prenderci in giro interpretando ogni piccola oscillazione, la maggior parte dei quali sarà un semplice rumore.
Sottolineo spesso che se puoi cambiare un'impressione coprendo alcuni punti, potremmo fare affidamento su un'impressione generata da nient'altro che rumore.
[Tuttavia, quando appare evidente da molti punti piuttosto che da pochi, è più difficile sostenere che non è lì.]
I display a risposta di whuber supporta la mia impressione, la trama sfocatura gaussiana sembra prendere la stessa tendenza a bimodalità in .Y
Quando non abbiamo più dati da controllare, possiamo almeno vedere se l'impressione tende a sopravvivere al ricampionamento (avviare la distribuzione bivariata e vedere se è quasi sempre presente) o altre manipolazioni in cui l'impressione non dovrebbe essere evidente se è rumore semplice.
1) Ecco un modo per vedere se l'apparente bimodalità è più di una semplice asimmetria più rumore - si presenta in una stima della densità del kernel? È ancora visibile se tracciamo le stime della densità del kernel in una varietà di trasformazioni? Qui lo trasformo in una maggiore simmetria, all'85% della larghezza di banda predefinita (poiché stiamo cercando di identificare una modalità relativamente piccola e la larghezza di banda predefinita non è ottimizzata per tale attività):
I grafici sono , e . Le linee verticali sono , e . La bimodalità è ridotta, ma ancora abbastanza visibile. Dal momento che è molto chiaro nel KDE originale sembra confermare che è lì - e il secondo e il terzo diagramma suggeriscono che sia almeno un po 'robusto alla trasformazione.YY−−√log(Y)6868−−√log(68)
2) Ecco un altro modo di base per vedere se è molto più di un semplice "rumore":
Passaggio 1: eseguire il clustering su Y
Passaggio 2: dividere in due gruppi su e raggruppare i due gruppi separatamente e vedere se è abbastanza simile. Se non succede nulla sulle due metà, non ci si dovrebbe aspettare che si divida tanto.X
I punti con punti sono stati raggruppati in modo diverso dal cluster "tutto in un set" nel grafico precedente. Ne farò un po 'più tardi, ma sembra che forse ci potrebbe essere una "divisione" orizzontale vicino a quella posizione.
Proverò un regressogramma o uno stimatore di Nadaraya-Watson (entrambi essendo stime locali della funzione di regressione, ). Non ho ancora generato neanche, ma vedremo come vanno. Probabilmente escluderei le estremità dove ci sono pochi dati.E(Y|x)
3) Modifica: ecco il regressogramma, per i contenitori di larghezza 0,1 (escludendo le estremità, come ho suggerito in precedenza):
Ciò è del tutto coerente con l'impressione originale che ho avuto della trama; non dimostra che il mio ragionamento fosse corretto, ma le mie conclusioni sono arrivate allo stesso risultato del regressogramma.
Se ciò che ho visto nella trama - e il ragionamento risultante - fosse falso, probabilmente non sarei riuscito a discernere questo modo.E(Y|x)
(La prossima cosa da provare sarebbe uno stimatore Nadayara-Watson. Quindi potrei vedere come va sotto ricampionamento se ho tempo.)
4) Modifica successiva:
Nadarya-Watson, kernel gaussiano, larghezza di banda 0.15:
Ancora una volta, questo è sorprendentemente coerente con la mia impressione iniziale. Ecco gli stimatori NW basati su dieci esempi di bootstrap:
Il modello generale è lì, anche se un paio di campioni non seguono altrettanto chiaramente la descrizione basata sull'insieme dei dati. Vediamo che il caso del livello di sinistra è meno certo che a destra - il livello di rumore (in parte da poche osservazioni, in parte dall'ampia diffusione) è tale che è meno facile affermare che la media è davvero più alta alla a sinistra rispetto al centro.
La mia impressione generale è che probabilmente non mi stavo semplicemente prendendo in giro, perché i vari aspetti resistono moderatamente bene a una varietà di sfide (smoothing, trasformazione, suddivisione in sottogruppi, ricampionamento) che tenderebbero a oscurarle se fossero semplicemente rumore. D'altra parte, le indicazioni sono che gli effetti, sebbene sostanzialmente coerenti con la mia impressione iniziale, sono relativamente deboli, e potrebbe essere troppo per rivendicare qualsiasi reale cambiamento nell'aspettativa che si sposta dal lato sinistro al centro.