Abbiamo misurato due variabili e il grafico a dispersione sembra suggerire più modelli "lineari". C'è un modo per provare a distillare quei modelli? L'identificazione di altre variabili indipendenti si è rivelata difficile.
Entrambe le variabili sono fortemente inclinate a sinistra (verso i piccoli numeri), questa è una distribuzione prevista nel nostro dominio. L'intensità del punto rappresenta la quantità di punti dati (su una scala del ) in questo < x , y > .
In alternativa, c'è un modo per raggruppare i punti?
Nel nostro campo, si afferma che queste due variabili sono correlate in modo lineare. Stiamo cercando di capire / spiegare perché non è il caso nei nostri dati.
(nota, abbiamo 17 milioni di punti dati)
aggiornamento: grazie per tutte le risposte, ecco alcuni chiarimenti richiesti:
- Entrambe le variabili sono solo numeri interi, il che spiega alcuni dei modelli nel diagramma a dispersione del registro.
- Fortunatamente, per definizione, il valore minimo di entrambe le variabili è 1.
- 7M punti sono ("spiegati" dall'asimmetria sinistra dei dati)
Ecco i grafici richiesti:
log-log scatterplot:
(gli spazi sono causati dai valori interi)
log-log polare:
Istogramma del rapporto: