Come discutere un diagramma a dispersione con più linee emergenti?

11

Abbiamo misurato due variabili e il grafico a dispersione sembra suggerire più modelli "lineari". C'è un modo per provare a distillare quei modelli? L'identificazione di altre variabili indipendenti si è rivelata difficile.

Grafico a dispersione delle due variabili

Entrambe le variabili sono fortemente inclinate a sinistra (verso i piccoli numeri), questa è una distribuzione prevista nel nostro dominio. L'intensità del punto rappresenta la quantità di punti dati (su una scala del ) in questo . $\log_{10}$ $<x,y>$

In alternativa, c'è un modo per raggruppare i punti?

Nel nostro campo, si afferma che queste due variabili sono correlate in modo lineare. Stiamo cercando di capire / spiegare perché non è il caso nei nostri dati.

(nota, abbiamo 17 milioni di punti dati)

aggiornamento: grazie per tutte le risposte, ecco alcuni chiarimenti richiesti:

Entrambe le variabili sono solo numeri interi, il che spiega alcuni dei modelli nel diagramma a dispersione del registro.
Fortunatamente, per definizione, il valore minimo di entrambe le variabili è 1.
7M punti sono ("spiegati" dall'asimmetria sinistra dei dati) $<3,1>$

Ecco i grafici richiesti:

log-log scatterplot: Grafico a dispersione nel registro registro

(gli spazi sono causati dai valori interi)

log-log polare: coordinate polari $\theta = y$

Istogramma del rapporto:

$1/3$

linear-model scatterplot

— Davy Landman
fonte

2

(r, θ)

$(r,\theta)$

X

$X$

Y

$Y$

θ

$\theta$

θ

$\theta$

Ci sono rapporti coinvolti nell'ottenere Y e X? Sono coinvolte variabili che accettano solo valori discreti? Come appare un diagramma log-log?

— Glen_b -Restate Monica

1

@whuber & Glen_b Ho aggiunto trame con quelle trasformazioni.

— Davy Landman,

r

$r$

θ

$\theta$

θ

$\theta$

θ

$\theta$

@whuber Ho aggiornato la trama, metto il theta su y, sono queste le linee che intendi?

— Davy Landman,

7

$Y$ $X$ $Y/X$

$X/k$ $kX$ $k$

$Y = 0$ $\log(Y + \text{constant})$

Un punto di terminologia: l'asimmetria nelle statistiche è descritta con riferimento alla coda che è più distesa. Sei libero di considerare questa terminologia come arretrata. Qui entrambe le variabili sono inclinate su valori alti o positivamente o storte.

$Y = 1$ $Y = 0$

Come prima, non consiglierei di modellare strisce diverse in modo diverso senza un motivo scientifico per distinguerle o trattarle separatamente. Dovresti solo fare una media di quello che hai. (Potrebbero esserci metodi noti con questo tipo di dati per sopprimere la discrezione. Se le persone nel tuo campo misurano abitualmente milioni di punti per ogni trama, è difficile credere che questo non sia mai stato visto prima.)

La correlazione dovrebbe certamente essere positiva. A parte un test formale di significatività, che qui sarebbe del tutto inutile in quanto minime correlazioni si qualificheranno come significative con questa dimensione del campione, se è dichiarato forte è una questione di aspettative e standard nel vostro campo. Il confronto quantitativo della correlazione con i risultati degli altri è un modo per procedere.

Dettaglio: l'asimmetria è ancora descritta nel modo sbagliato secondo la convenzione statistica. Queste variabili sono inclinate a destra; quel gergo si adatta quando si guarda un istogramma con asse di magnitudine orizzontale e si nota che l'asimmetria è chiamata per la coda più lunga, non la concentrazione con più valori.

— Nick Cox
fonte

Ho aggiunto la trama del registro-registro e ho cercato di essere più preciso sull'asimmetria.

— Davy Landman,

4

\begin{aligned} Y_{i} & = α_{1} + β_{1} X_{i} + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= \alpha_1 + \beta_1X_i + \epsilon_i \end{align}$

m^{t h}

$m^{th}$

\begin{aligned} Y_{i} & = α_{m} + β_{m} X_{i} + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= \alpha_m + \beta_mX_i + \epsilon_i \end{align}$

M

$M$

m^{t h}

$m^{th}$

p_{m}

$p_m$

\sum_{m} p_{m} = 1

$\sum_m p_m =1$

$\epsilon$ $N(0,\sigma^2)$

\begin{aligned} L (α, β, σ) = \sum_{m = 1}^{M} p_{m} \frac{1}{σ} ϕ (\frac{Y_{i} - α_{1} - β_{1} X_{i}}{σ}) \end{aligned}

$\begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M p_m\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align}$

ϕ

$\phi$

3 M + 1

$3M+1$

\sum_{m} p_{m} = 1, p_{m} \geq 0

$\sum_m p_m=1,\; p_m\ge0$

α

$\alpha$

β

$\beta$

p_{m}

$p_m$

\frac{1}{M}

$\frac{1}{M}$

α

$\alpha$

β

$\beta$

$Z_i$ $p_m$ $p_m$ $Z_i$

\begin{aligned} L (α, β, σ) = \sum_{m = 1}^{M} (\frac{e x p (δ_{m} + γ_{m} Z_{i})}{\sum_{m^{'}} e x p (δ_{m^{'}} + γ_{m^{'}} Z_{i})}) \frac{1}{σ} ϕ (\frac{Y_{i} - α_{1} - β_{1} X_{i}}{σ}) \end{aligned}

$\begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M \left(\frac{exp(\delta_m+\gamma_mZ_i)}{\sum_{m'} exp(\delta_{m'}+\gamma_{m'}Z_i)}\right)\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align}$

$5M+1$ $5M-1$ $\delta, \gamma$

$M$

— Conto
fonte

2

M

$M$

2

Ho osservato un comportamento simile in alcuni dei miei set di dati. Nel mio caso, le diverse linee erano dovute all'errore di quantizzazione in uno dei miei algoritmi di elaborazione.

Cioè, stiamo osservando grafici a dispersione di dati elaborati e l'algoritmo di elaborazione ha avuto alcuni effetti di quantizzazione, che hanno causato dipendenze nei dati che sembravano esattamente come sopra.

La correzione degli effetti di quantizzazione ha reso il nostro output molto più fluido e meno ingombrante.

Per quanto riguarda il tuo commento di "correlazione lineare". Ciò che hai presentato non è sufficiente per determinare se questi dati sono correlati o meno lineari. Cioè, in alcuni campi, un coefficiente di correlazione> 0,7 è considerato una forte correlazione lineare. Dato che la maggior parte dei tuoi dati è vicina all'origine, è abbastanza concepibile che i tuoi dati siano linearmente correlati rispetto a ciò che direbbe "saggezza convenzionale". La correlazione ti dice molto poco su un set di dati.

— John
fonte