返回计数的唯一项目列表

我已经给了一个数以十万计的值,在.CSV文件格式不一致的文件。 结构可能类似于:

A B C D
E,F
G,H,I,J,K,L,M,N,O
P,Q,R,S

等等。

所有我需要做的是a)列出唯一的值和b)计数相同的实例。 很高兴在R,Excel或任何其他build议的工具。

通常情况下,我会使用Google Docs = UNIQUE和= COUNT函数,但是电子表格太大而无法加载。 我也没有在Excel中find确切的等价物。

任何帮助赞赏。

如果我理解正确,这应该工作(在R):

# Emulate your file cat('A,B,C,D\nB,D\nA,A,F,Q,F\n', file='foo.csv') x <- scan('foo.csv', what='', sep=',') table(x) #x #ABCDFQ #3 2 1 2 2 1 

既然你说“其他任何工具”:

 %perl -F',' -a -n -e 'chomp, $count{$_}++ foreach (@F); END {print "$_: $count{$_}\n" foreach sort keys %count;}' 

我假设你知道如何将数据导入到R? 像read.csv应该工作…没有进入应用types的function,你可以做一个简单的循环来search唯一值的计数(例如字母):

 set.seed(1) OBJ <- LETTERS[round(runif(1000, min=1, max=26))] VALS <- unique(OBJ) VALS COUNTS <- rep(0*length(VALS)) for(i in seq(VALS)){ COUNTS[i] <- length(which(OBJ==VALS[i])) } data.frame(VALS, COUNTS)