dplyr su data.table, sto davvero usando data.table?

Question 1

Se utilizzo la sintassi dplyr sopra un datatable , ottengo tutti i vantaggi in termini di velocità di datatable pur utilizzando la sintassi di dplyr? In altre parole, uso impropriamente il datatable se lo interrogo con la sintassi dplyr? Oppure devo usare la sintassi datatable pura per sfruttare tutta la sua potenza.

Grazie in anticipo per qualsiasi consiglio. Esempio di codice:

library(data.table)
library(dplyr)

diamondsDT <- data.table(ggplot2::diamonds)
setkey(diamondsDT, cut) 

diamondsDT %>%
    filter(cut != "Fair") %>%
    group_by(cut) %>%
    summarize(AvgPrice = mean(price),
                 MedianPrice = as.numeric(median(price)),
                 Count = n()) %>%
    arrange(desc(Count))

Risultati:

#         cut AvgPrice MedianPrice Count
# 1     Ideal 3457.542      1810.0 21551
# 2   Premium 4584.258      3185.0 13791
# 3 Very Good 3981.760      2648.0 12082
# 4      Good 3928.864      3050.5  4906

Ecco l'equivalenza databile che mi è venuta. Non sono sicuro che sia conforme alla buona pratica DT. Ma mi chiedo se il codice sia davvero più efficiente della sintassi dplyr dietro le quinte:

diamondsDT [cut != "Fair"
        ] [, .(AvgPrice = mean(price),
                 MedianPrice = as.numeric(median(price)),
                 Count = .N), by=cut
        ] [ order(-Count) ]

Question 2

Non esiste una risposta diretta / semplice perché le filosofie di entrambi questi pacchetti differiscono per certi aspetti. Quindi alcuni compromessi sono inevitabili. Ecco alcune delle preoccupazioni che potresti dover affrontare / considerare.

Operazioni che coinvolgono `i`(== `filter()`e `slice()`in dplyr)

Supponiamo DTcon diciamo 10 colonne. Considera queste espressioni data.table:

DT[a > 1, .N]                    ## --- (1)
DT[a > 1, mean(b), by=.(c, d)]   ## --- (2)

(1) fornisce il numero di righe in DTcui colonna a > 1. (2) restituisce mean(b)raggruppati per c,dper la stessa espressione in i(1).

Le dplyrespressioni comunemente usate sarebbero:

DT %>% filter(a > 1) %>% summarise(n())                        ## --- (3) 
DT %>% filter(a > 1) %>% group_by(c, d) %>% summarise(mean(b)) ## --- (4)

Chiaramente, i codici data.table sono più brevi. Inoltre sono anche più efficienti in termini di memoria ¹ . Perché? Perché sia in (3) che in (4), filter()restituisce prima le righe per tutte le 10 colonne , quando in (3) abbiamo solo bisogno del numero di righe e in (4) abbiamo solo bisogno di colonne b, c, dper le operazioni successive. Per ovviare a questo, dobbiamo select()colonne apriori:

DT %>% select(a) %>% filter(a > 1) %>% summarise(n()) ## --- (5)
DT %>% select(a,b,c,d) %>% filter(a > 1) %>% group_by(c,d) %>% summarise(mean(b)) ## --- (6)

È essenziale evidenziare un'importante differenza filosofica tra i due pacchetti:

In data.table, ci piace tenere insieme queste operazioni correlate, e questo consente di guardare j-expression(dalla stessa chiamata di funzione) e rendersi conto che non c'è bisogno di colonne in (1). L'espressione in iviene calcolata ed .Nè solo la somma di quel vettore logico che fornisce il numero di righe; l'intero sottoinsieme non viene mai realizzato. In (2), solo la colonna b,c,dviene materializzata nel sottoinsieme, le altre colonne vengono ignorate.

Ma in dplyr, la filosofia è quella di avere una funzione di fare esattamente una cosa bene . Non c'è (almeno attualmente) alcun modo per sapere se l'operazione successiva filter()necessita di tutte quelle colonne che abbiamo filtrato. Dovrai pensare al futuro se desideri eseguire tali attività in modo efficiente. Personalmente lo trovo controintutitivo in questo caso.

Nota che in (5) e (6), abbiamo ancora sottoinsiemi di colonne ache non richiedono. Ma non sono sicuro di come evitarlo. Se la filter()funzione avesse un argomento per selezionare le colonne da restituire, potremmo evitare questo problema, ma in tal caso la funzione non eseguirà solo un'attività (che è anche una scelta di progettazione di dplyr).

Sottoassegna per riferimento

dplyr non si aggiornerà mai per riferimento. Questa è un'altra enorme differenza (filosofica) tra i due pacchetti.

Ad esempio, in data.table puoi fare:

DT[a %in% some_vals, a := NA]

che aggiorna la colonna a per riferimento solo sulle righe che soddisfano la condizione. Al momento dplyr copia in profondità l'intero data.table internamente per aggiungere una nuova colonna. @BrodieG lo ha già menzionato nella sua risposta.

Ma la copia completa può essere sostituita da una copia superficiale quando viene implementato FR # 617 . Rilevante anche: dplyr: FR # 614 . Nota che comunque, la colonna che modifichi verrà sempre copiata (quindi un po 'più lenta / meno efficiente in termini di memoria). Non sarà possibile aggiornare le colonne per riferimento.

Altre funzionalità

In data.table, puoi aggregare durante l'unione, e questo è più semplice da capire ed è efficiente in termini di memoria poiché il risultato del join intermedio non viene mai materializzato. Controlla questo post per un esempio. Non puoi (al momento?) Farlo usando la sintassi data.table / data.frame di dplyr.
La funzione di join rotanti di data.table non è supportata anche nella sintassi di dplyr.
Recentemente abbiamo implementato i join sovrapposti in data.table per unire su intervalli di intervallo ( ecco un esempio ), che è una funzione separata foverlaps()al momento, e quindi potrebbe essere utilizzato con gli operatori pipe (magrittr / pipeR? - non l'ho mai provato io stesso).

Ma in definitiva, il nostro obiettivo è integrarlo in [.data.tablemodo da poter raccogliere le altre funzionalità come il raggruppamento, l'aggregazione durante l'adesione, ecc., Che avranno le stesse limitazioni descritte sopra.
Dalla 1.9.4, data.table implementa l'indicizzazione automatica utilizzando chiavi secondarie per sottoinsiemi basati sulla ricerca binaria veloce sulla sintassi R. Es: DT[x == 1]e DT[x %in% some_vals]creerà automaticamente un indice alla prima esecuzione, che verrà quindi utilizzato nei sottoinsiemi successivi dalla stessa colonna al sottoinsieme veloce utilizzando la ricerca binaria. Questa funzionalità continuerà ad evolversi. Controlla questa sintesi per una breve panoramica di questa funzione.

Dal modo in cui filter()è implementato per data.tables, non sfrutta questa funzionalità.
Una caratteristica di dplyr è che fornisce anche l' interfaccia ai database utilizzando la stessa sintassi, che data.table non al momento.

Quindi, dovrai soppesare questi (e probabilmente altri punti) e decidere in base al fatto che questi compromessi siano accettabili per te.

HTH

(1) Si noti che l'efficienza della memoria influisce direttamente sulla velocità (soprattutto quando i dati diventano più grandi), poiché il collo di bottiglia nella maggior parte dei casi è lo spostamento dei dati dalla memoria principale alla cache (e l'utilizzo dei dati nella cache il più possibile - ridurre i mancati riscontri nella cache - in modo da ridurre gli accessi alla memoria principale). Non entrare nei dettagli qui.

Question 3

Provalo e basta.

library(rbenchmark)
library(dplyr)
library(data.table)

benchmark(
dplyr = diamondsDT %>%
    filter(cut != "Fair") %>%
    group_by(cut) %>%
    summarize(AvgPrice = mean(price),
                 MedianPrice = as.numeric(median(price)),
                 Count = n()) %>%
    arrange(desc(Count)),
data.table = diamondsDT[cut != "Fair", 
                        list(AvgPrice = mean(price),
                             MedianPrice = as.numeric(median(price)),
                             Count = .N), by = cut][order(-Count)])[1:4]

Su questo problema sembra che data.table sia 2,4 volte più veloce di dplyr usando data.table:

        test replications elapsed relative
2 data.table          100    2.39    1.000
1      dplyr          100    5.77    2.414

Rivisto in base al commento di Polymerase.

Question 4

Per rispondere alle tue domande:

Sì, stai usando data.table
Ma non in modo efficiente come faresti con la data.tablesintassi pura

In molti casi questo sarà un compromesso accettabile per coloro che desiderano la dplyrsintassi, anche se potrebbe essere più lento rispetto dplyrai semplici frame di dati.

Un fattore importante sembra essere che dplyrcopierà data.tableper impostazione predefinita durante il raggruppamento. Considera (usando microbenchmark):

Unit: microseconds
                                                               expr       min         lq    median
                                diamondsDT[, mean(price), by = cut]  3395.753  4039.5700  4543.594
                                          diamondsDT[cut != "Fair"] 12315.943 15460.1055 16383.738
 diamondsDT %>% group_by(cut) %>% summarize(AvgPrice = mean(price))  9210.670 11486.7530 12994.073
                               diamondsDT %>% filter(cut != "Fair") 13003.878 15897.5310 17032.609

Il filtraggio è di velocità paragonabile, ma il raggruppamento no. Credo che il colpevole sia questa riga in dplyr:::grouped_dt:

if (copy) {
    data <- data.table::copy(data)
}

dove il copyvalore predefinito è TRUE(e non può essere facilmente modificato in FALSE che posso vedere). Questo probabilmente non rappresenta il 100% della differenza, ma l'overhead generale da solo su qualcosa delle dimensioni di diamondsmolto probabilmente non è la differenza completa.

Il problema è che per avere una grammatica coerente, dplyril raggruppamento viene eseguito in due passaggi. Per prima cosa imposta le chiavi su una copia della tabella dati originale che corrisponde ai gruppi e solo successivamente raggruppa. data.tablealloca solo la memoria per il gruppo di risultati più grande, che in questo caso è solo una riga, quindi fa una grande differenza nella quantità di memoria da allocare.

Cordiali saluti, se qualcuno se ne frega, l'ho trovato usando treeprof( install_github("brodieg/treeprof")), un visualizzatore di alberi sperimentale (e ancora molto alpha) per l' Rprofoutput:

inserisci qui la descrizione dell'immagine

Nota quanto sopra è attualmente funziona solo su Mac AFAIK. Inoltre, sfortunatamente, Rprofregistra le chiamate del tipo packagename::funnamecome anonime, quindi potrebbero effettivamente essere tutte le datatable::chiamate interne grouped_dtresponsabili, ma dai test rapidi sembrava che datatable::copyfosse quella più grande.

Detto questo, puoi vedere rapidamente come non ci siano molte spese generali intorno alla [.data.tablechiamata, ma c'è anche un ramo completamente separato per il raggruppamento.

MODIFICA : per confermare la copia:

> tracemem(diamondsDT)
[1] "<0x000000002747e348>"    
> diamondsDT %>% group_by(cut) %>% summarize(AvgPrice = mean(price))
tracemem[0x000000002747e348 -> 0x000000002a624bc0]: <Anonymous> grouped_dt group_by_.data.table group_by_ group_by <Anonymous> freduce _fseq eval eval withVisible %>% 
Source: local data table [5 x 2]

        cut AvgPrice
1      Fair 4358.758
2      Good 3928.864
3 Very Good 3981.760
4   Premium 4584.258
5     Ideal 3457.542
> diamondsDT[, mean(price), by = cut]
         cut       V1
1:     Ideal 3457.542
2:   Premium 4584.258
3:      Good 3928.864
4: Very Good 3981.760
5:      Fair 4358.758
> untracemem(diamondsDT)

Question 5

Puoi usare dtplyr ora, che fa parte di tidyverse . Ti consente di usare le istruzioni di stile dplyr come al solito, ma utilizza una valutazione lenta e traduce le tue istruzioni in codice data.table sotto il cofano. L'overhead nella traduzione è minimo, ma si ricavano tutti, se non la maggior parte, dei vantaggi di data.table. Maggiori dettagli nel repository git ufficiale qui e nella pagina tidyverse .

dplyr su data.table, sto davvero usando data.table?

Operazioni che coinvolgono i(== filter()e slice()in dplyr)

Sottoassegna per riferimento

Altre funzionalità

Operazioni che coinvolgono `i`(== `filter()`e `slice()`in dplyr)