Contare il numero di occorrenze per ciascun valore univoco


140

Diciamo che ho:

v = rep(c(1,2, 2, 2), 25)

Ora voglio contare il numero di volte in cui appare ciascun valore univoco. unique(v) restituisce quali sono i valori univoci, ma non quanti sono.

> unique(v)
[1] 1 2

Voglio qualcosa che mi dia

length(v[v==1])
[1] 25
length(v[v==2])
[1] 75

ma come una linea più generale :) Qualcosa di simile (ma non del tutto) come questo:

#<doesn't work right> length(v[v==unique(v)])

Risposte:


179

Forse la tavola è ciò che cerchi?

dummyData = rep(c(1,2, 2, 2), 25)

table(dummyData)
# dummyData
#  1  2 
# 25 75

## or another presentation of the same data
as.data.frame(table(dummyData))
#    dummyData Freq
#  1         1   25
#  2         2   75

7
Ah, sì, posso usarlo, con qualche leggera modifica: t (as.data.frame (table (v)) [, 2]) è esattamente ciò di cui ho bisogno, grazie
gakera,

1
Lo facevo goffamente con hist. tablesembra un po 'più lento di hist. Mi chiedo perché. Qualcuno può confermare?
Museful

2
Chase, qualche possibilità di ordinare in base alla frequenza? Ho lo stesso identico problema, ma la mia tabella ha circa 20000 voci e vorrei sapere quanto sono frequenti le voci più comuni.
Torvon,

5
@Torvon - certo, basta usare order()sui risultati. vale a direx <- as.data.frame(table(dummyData)); x[order(x$Freq, decreasing = TRUE), ]
Chase il

Questo metodo non è buono, è adatto solo a pochissimi dati con molti ripetuti, non si adatta a molti dati continui con pochi record duplicati.
Deep North,

26

Se si hanno più fattori (= un frame di dati multidimensionale), è possibile utilizzare il dplyrpacchetto per contare valori univoci in ciascuna combinazione di fattori:

library("dplyr")
data %>% group_by(factor1, factor2) %>% summarize(count=n())

Utilizza l'operatore pipe %>%per concatenare le chiamate di metodo sul frame di dati data.


21

È un approccio a una riga usando aggregate.

> aggregate(data.frame(count = v), list(value = v), length)

  value count
1     1    25
2     2    75

11

La funzione table () è una buona strada da percorrere, come Chase suggerito . Se si sta analizzando un set di dati di grandi dimensioni, un modo alternativo è utilizzare la funzione .N nel pacchetto datatable.

Assicurati di aver installato il pacchetto della tabella di dati da

install.packages("data.table")

Codice:

# Import the data.table package
library(data.table)

# Generate a data table object, which draws a number 10^7 times  
# from 1 to 10 with replacement
DT<-data.table(x=sample(1:10,1E7,TRUE))

# Count Frequency of each factor level
DT[,.N,by=x]

8

Per ottenere un vettore intero senza dimensioni che contenga il conteggio di valori univoci, utilizzare c().

dummyData = rep(c(1, 2, 2, 2), 25) # Chase's reproducible data
c(table(dummyData)) # get un-dimensioned integer vector
 1  2 
25 75

str(c(table(dummyData)) ) # confirm structure
 Named int [1:2] 25 75
 - attr(*, "names")= chr [1:2] "1" "2"

Questo può essere utile se devi inserire i conteggi di valori univoci in un'altra funzione, ed è più breve e più idiomatico di quello t(as.data.frame(table(dummyData))[,2]pubblicato in un commento alla risposta di Chase. Grazie a Ricardo Saporta che me lo ha segnalato qui .


7

Questo funziona per me. Prendi il tuo vettorev

length(summary(as.factor(v),maxsum=50000))

Commento: impostare maxsum in modo che sia sufficientemente grande da acquisire il numero di valori univoci

o con il magrittrpacchetto

v %>% as.factor %>% summary(maxsum=50000) %>% length


4

Se è necessario disporre del numero di valori univoci come colonna aggiuntiva nel frame di dati contenente i propri valori (una colonna che può rappresentare, ad esempio, la dimensione del campione), plyr fornisce un modo accurato:

data_frame <- data.frame(v = rep(c(1,2, 2, 2), 25))

library("plyr")
data_frame <- ddply(data_frame, .(v), transform, n = length(v))

3
oppure ddply(data_frame, .(v), count). Vale anche la pena library("plyr")chiarire che è necessaria una chiamata per ddplyfunzionare.
Brian Diggs,

Sembra strano da usare transforminvece che mutatequando si usa plyr.
Gregor Thomas,

3

Anche rendere i valori categorici e la chiamata summary()funzionerebbe.

> v = rep(as.factor(c(1,2, 2, 2)), 25)
> summary(v)
 1  2 
25 75 

2

Puoi provare anche a tidyverse

library(tidyverse) 
dummyData %>% 
    as.tibble() %>% 
    count(value)
# A tibble: 2 x 2
  value     n
  <dbl> <int>
1     1    25
2     2    75

0

Se si desidera eseguire univoco su un data.frame (ad esempio train.data) e ottenere anche i conteggi (che possono essere utilizzati come peso nei classificatori), è possibile effettuare le seguenti operazioni:

unique.count = function(train.data, all.numeric=FALSE) {                                                                                                                                                                                                 
  # first convert each row in the data.frame to a string                                                                                                                                                                              
  train.data.str = apply(train.data, 1, function(x) paste(x, collapse=','))                                                                                                                                                           
  # use table to index and count the strings                                                                                                                                                                                          
  train.data.str.t = table(train.data.str)                                                                                                                                                                                            
  # get the unique data string from the row.names                                                                                                                                                                                     
  train.data.str.uniq = row.names(train.data.str.t)                                                                                                                                                                                   
  weight = as.numeric(train.data.str.t)                                                                                                                                                                                               
  # convert the unique data string to data.frame
  if (all.numeric) {
    train.data.uniq = as.data.frame(t(apply(cbind(train.data.str.uniq), 1, 
      function(x) as.numeric(unlist(strsplit(x, split=","))))))                                                                                                    
  } else {
    train.data.uniq = as.data.frame(t(apply(cbind(train.data.str.uniq), 1, 
      function(x) unlist(strsplit(x, split=",")))))                                                                                                    
  }
  names(train.data.uniq) = names(train.data)                                                                                                                                                                                          
  list(data=train.data.uniq, weight=weight)                                                                                                                                                                                           
}  

0

lunghezza (unico (df $ col)) è il modo più semplice che posso vedere.


R probabilmente si è evoluto molto negli ultimi 10 anni, da quando ho posto questa domanda.
Gakera,

-2
count_unique_words <-function(wlist) {
ucountlist = list()
unamelist = c()
for (i in wlist)
{
if (is.element(i, unamelist))
    ucountlist[[i]] <- ucountlist[[i]] +1
else
    {
    listlen <- length(ucountlist)
    ucountlist[[i]] <- 1
    unamelist <- c(unamelist, i)
    }
}
ucountlist
}

expt_counts <- count_unique_words(population)
for(i in names(expt_counts))
    cat(i, expt_counts[[i]], "\n")
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.