Ridimensionamento dei dati su diversi ordini di grandezza per la stampa


9

Guardando il seguente set di dati:

 Date        Visits   Carts      carts       Orders
                      Created   converted    Created
2011-11-11    12277     161        9          36  
2011-11-12    11871     93         5          19    
2011-11-13    13072     107        8          8     
2011-11-14    13594     112        4          34    
2011-11-15    12741     129        8          43    
2011-11-16    15491     261        16         57 
2011-11-17    13418     186        17         42    

Mi è stato chiesto di tracciare questo su un grafico, usando la data ha l'asse X e il resto dei dati sull'asse Y. Il problema è che la scala dei dati è notevolmente diversa. dove le visite sono in migliaia e gli ordini creati sono in decine basse, i dati non vengono tracciati bene su un grafico.

Mi chiedevo cosa avrebbe fatto uno statistico in questo scenario, potevo dividere le Visite per un 1000 e quindi inserire la descrizione (Visite (K)), ma poi ho iniziato ad avere lo stesso problema con i Carrelli creati, così come sono nelle centinaia e tutto il resto è nelle decine basse.

Che tipo di cosa viene fatto in questo scenario?

Risposte:


14

Non è irragionevole all'inizio tracciare i grafici a linee come una serie di piccoli multipli, con scale diverse per l'asse Y ma con l'asse X (date) allineato. inserisci qui la descrizione dell'immagine

Penso che questo sia un buon inizio, in quanto consente di esaminare i dati grezzi e consente il confronto delle tendenze tra i diversi grafici a linee. IMO dovresti prima guardare i dati grezzi, quindi pensare a conversioni o modi per normalizzare i grafici per essere comparabili dopo aver esaminato i dati grezzi.

Come ha già accennato King, sembra che le tue variabili abbiano un ordinamento naturale basato su nomi e numeri e, supponendo che sia appropriato, ho creato tre nuove variabili in base alla percentuale convertita in ogni stato. Le nuove variabili sono;

% Carts Created = Carts_Created/Visits
% Orders Created = Orders_Created/Carts_Created
% Carts Converted = Carts_Converted/Orders_Created

Fare percentuali è un modo per avvicinare le serie a una scala comune, ma anche in questo caso posizionare tutte le linee su un grafico (come sotto) è ancora difficile visualizzare le serie in modo efficace. Il livello e la variazione degli ordini creati e i carrelli hanno convertito le serie nane rispetto alle altre serie. Non puoi vedere alcuna variazione nelle serie di carrelli create su questa scala (e sospetto che sia quella che ti interessa di più). inserisci qui la descrizione dell'immagine

Quindi, di nuovo, l'IMO un modo migliore per esaminarlo è usare scale diverse. Di seguito è riportato il grafico Percentuale che utilizza scale diverse.

inserisci qui la descrizione dell'immagine

Con questi elementi grafici, non mi sembra che ci sia alcuna reale correlazione significativa tra me e la serie, ma hai molte variazioni interessanti all'interno di ogni serie (specialmente la proporzione convertita). Che succede 2011-11-13? Hai creato una percentuale molto più bassa di ordine creato ma ognuno degli ordini creati era un carrello convertito. Hai avuto altri interventi che potrebbero spiegare le tendenze delle visite al sito o dei carrelli proporzionali o percentuali creati?

Questa è solo un'analisi esplorativa dei dati e per compiere ulteriori passi avrei bisogno di maggiori informazioni sui dati (spero che questo sia un buon inizio). Potresti normalizzare i grafici a linee in altri modi per essere in grado di tracciarli su una scala comparabile, ma questo è un compito difficile, e penso che si possa fare in modo efficace scegliendo scale arbitrarie basate su ciò che è informativo dato i dati invece di scegliere alcuni schemi di normalizzazione predefiniti. Un'altra applicazione interessante di vedere molti grafici lineari contemporaneamente è grafici orizzonte , ma che è più per la visualizzazione di molti grafici a linee diverse in una sola volta.


Grazie per i dettagli nella tua risposta, inizialmente avevo più grafici. Il mio capo ha deciso che vorrebbero tutte le serie sul grafico (penso che probabilmente siano troppe serie ma non sono io che le guarderò :)) Penso che prenderò in considerazione l'idea di normalizzare i dati, forse in 0 - 1. Vogliono solo usare il grafico per visualizzare le tendenze, i dati della tabella vengono generalmente visualizzati sotto il grafico.
Mike,

@ Mike, è una richiesta ragionevole. La normalizzazione delle serie non dovrebbe cambiare la tendenza (solo il livello e la variazione di ciascuna serie). Spero di ottenere risposte più approfondite su come normalizzare la serie in alcuni modi efficaci, ma comunque significativi. Tuttavia, solo una parola di cautela, in genere si desidera tracciare solo 3-5 righe su un grafico, molto di più è molto difficile fare tutti questi confronti (piccoli multipli è un modo per aggirare questo problema).
Andy W,

1
@Mike Sì, in questo caso (solo visualizzazione dei dati senza numeri), puoi semplicemente esprimere i tuoi dati su una scala min / max, come avviene in schermi paralleli . Mostrare i numeri sotto la tabella è anche una buona idea.
chl

1
Solo un'ulteriore nota sulla normalizzazione su una scala min / max sebbene suggerito da @chl. È bene vedere prima i dati grezzi, se si dispone di alcuni valori anomali di grandi dimensioni, è possibile considerare di non includere quel valore nel processo di normalizzazione (anche se dovrebbe essere evidente se lo si fa nel grafico normalizzato, ad esempio se si dispone di un grafico a linee con un valore alto / basso e il resto è piatto). Penso che Michael Friendly sarebbe d'accordo con l'inclusione anche della tabella sotto il grafico.
Andy W,

2

Puoi avere 2 assi Y separati, Visite (k) e Carrelli creati in uno, l'altro 2 in un altro (o in qualsiasi modo si adatti al tuo scopo).

Questo non è sicuramente un metodo elegante, ma ricordo di averlo fatto anni fa quando volevo solo confrontare le tendenze nel tempo.

O

Puoi semplicemente tracciare la variazione percentuale nel tempo se si adatta al tuo scopo.


Ho considerato il percorso che hai citato con i 2 diversi assi Y, ma quello che non mi è piaciuto è stato: se fosse introdotta una nuova serie che non si adattava a uno dei due assi Y, sarei probabilmente bloccato. grazie per il suggerimento, e forse un'altra volta lo prenderei in considerazione di più :)
Mike,

Che dire del secondo suggerimento sull'utilizzo della percentuale? cioè indicizzando tutto a 100 alla data di inizio (o qualunque data renda il tuo grafico piuttosto). Puoi aggiungere tutte le nuove serie che vuoi!
Re

Questa è un'opzione, attualmente sto cercando di capire come normalizzare questi dati e se funziona. non riuscendo a dare un'idea della percentuale :)
Mike,

2

Alla fine ho deciso di normalizzare i dati dividendo ogni valore per il valore massimo e quindi moltiplicando per 100.

  1. Trova il valore massimo:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    12277     161        9          36  
    2011-11-12    11871     93         5          19    
    2011-11-13    13072     107        8          8     
    2011-11-14    13594     112        4          34    
    2011-11-15    12741     129        8          43    
    2011-11-16    15491     261        16         57 
    2011-11-17    13418     186        17         42    
    
    maximum       15491     261        17         57
    
  2. Dividi ogni numero per il massimo e poi moltiplica per 100:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    79.25     61.68      52.94      63.15  
    2011-11-12    76.63     35.63      29.41      33.33    
    2011-11-13    84.38     40.99      47.05      14.03      
    2011-11-14    87.75     42.91      23.52      59.64    
    2011-11-15    82.24     49.42      47.05      75.43    
    2011-11-16    100       100        94.11      100
    2011-11-17    86.61     71.26      100        73.68    
    
  3. Ho quindi tracciato questo sul grafico, ovviamente questo dimostra solo la tendenza e l'utente ha la tabella dei dati nella parte inferiore della pagina.


0

Questo sarebbe anche il mio approccio - - per adattare le diverse dimensioni alla stessa scala dividendo per X ma userei il valore medio, non il valore massimo o minimo. Il motivo è che, man mano che aggiungi dati nel tempo, il tuo massimo o minimo probabilmente cambieranno, e quindi ciò che era al 100% nell'ultimo grafico è un'altra volta questa volta - il grafico non è facilmente riconciliabile con i grafici precedenti - - se usi avg quindi le modifiche non sono così drastiche.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.