Tag: dataframe

为什么这个差异函数将空单元看作是不同的?

def find_diffs(dataframe1, dataframe2): # Finds diff cells and stores to list x_ofs = dataframe1.columns.nlevels + 1 y_ofs = dataframe1.index.nlevels + 1 return([column_letter(x + x_ofs) + str(y + y_ofs) for y, x in zip(*np.where(dataframe1 != dataframe2))]) 我正在做一个Python脚本来区分2个Excel文件,并突出显示不同的单元格。 我正在使用一个pandas数据框。 这个函数的问题是它突出显示空单元,就好像它们不同。 我已经尝试了几件事情: (dataframe1 != dataframe2) and dataframe2 != '' (dataframe1 != dataframe2) and dataframe2 != 'nan' (dataframe1 != […]

在r数据框中设置Column Class时,将####清除为NA错误

我正在使用最初在Excel中格式化的csv文件。 我想将费率列转换为数字,并删除“$”符号。 我在文件中读入: > NImp <- read.csv("National_TV_Spots 6_30_14 to 8_31_14.csv", sep=",", header=TRUE, stringsAsFactors=FALSE, strip.white=TRUE, na.strings=c("Not Monitored")) 数据框如下所示: HH.IMP..000. ISCI Creative Program Rate 1 NA IT3896 Rising Costs30 (Opportunity Scholar – No Nursing) NUVO CINEMA $0.00 2 NA IT3896 Rising Costs30 (Opportunity Scholar – No Nursing) NUVO CINEMA $0.00 3 141 IT14429 Rising Costs30 (Opportunity Scholar […]

使用Countifs和Lookups的等价物来总结R中的数据

我有一个交易数据(位置之间的旅行)的文件,我正在寻找使用R,这是我比较新的总结。 样本数据 Start.Date Start.Area End.Date End.Area 2007-07-12 14:00 New Street 2007-07-12 15:46 Windy Lane 2007-07-12 15:10 High Street 2007-07-12 18:08 New Street 2007-07-12 16:42 Kings Street 2007-07-12 17:47 Windy Lane 我的目标是为每个地区(可能是小时)返回发生的事件。 样本返回,在一个新的数据框架,将是 Date Area Start.Occurances End.Occurances 2007-07-12 New Street 1 1 2007-07-12 High Street 1 0 2007-07-12 Kings Street 1 0 2007-07-12 Windy Lane 0 […]

R:通过数据框的多列运行预测function

我用csv文件读入一个dataframe,使用: dataxlsx <- read.csv(file.choose(), header = T) 数据框如下所示: Year Month Period X410 X430 X431 2005 1 1 3467748 4434879 1345638 2005 2 2 3626338 4311150 1167523 . . . . . . 2015 7 127 2374105 1514540 1399804 我试图运行我创build的名为HWplot的函数来预测input的数据并运行预测,并输出预测图。 我用包ggplot2,tseries,预测。 HWplot <- function(dataxlsx, n.ahead=12, CI=.95, error.ribbon='green', line.size=1) { hw_object<-HoltWinters(dataxlsx) forecast<-predict(hw_object, n.ahead=24, prediction.interval=T, level=0.95) for_values<-data.frame(time=round(time(forecast), 3), […]

导入.csv时将列转换为行

我正在寻找一种有效的方式来使用read.csv(或另一种)阅读具有100,000个列和几乎一行的.csv文件。 这个结构的文件是从MATLAB中提取的,似乎更喜欢添加数百万行而不是列。 当在Excel中打开文件时,它不会完全加载,所以我不能简单地转置。 以下在r中的作品,仍然很慢,但我想知道是否有更好的办法? library(data.table) dfr <- as.data.frame(t(fread('filename.csv')))

R库(openxlsx)错误:工作簿没有工作表

我很好奇你是否有任何人在阅读R中的xlsx文档时遇到类似的错误: library(openxlsx) data = read.xlsx(file, sheet =1, startRow = 2, colNames = FALSE) 即使当我的文件有一个工作表时发生错误: Error in read.xlsx.default(file, sheet =1, startRow = 2, colNames = FALSE) : Workbook has no worksheets 当我手动添加另一个空的工作表到我的xlsx文件,一切正常。 但是,我想知道如何解决这个问题,而不打开每个xlsx文件逐一添加另一个表。 你有什么想法如何处理它? 先谢谢你。

计算一对值出现在多less行中

我的数据框看起来像这样: Index V1 v2 v3 v4 v5 v6 1 abcdef 2 bcde 3 abcfg 4 acfdg 5 bcdghi . . . . . . . . . . . . . . 我需要遍历数据框中的每一行,并挑选出现在一起的对,并对它们进行计数。 例如a和b出现在行索引1和3中,所以count = 2。 dataframe有6列,不包括索引和554行。 每行中有6个variables可能有11个。 第一步是做一对和一对。 然后做所有的组合。 例如。 a+c , a+d , a+e… b+c , b+d… 我已经使用了plyr包中的table(apply(df,1,function(x) paste(sort(x), collapse='-')))和count(df) ,但是输出的频率是a+b , a+b+c…. […]

从Excel中创build的csv文件中删除空行

我有一个从excel csv导入的数据框。 这个工作到目前为止,然而,csv总是保存49'999行,即使只有大约10'000行数据。 其余的行都是空的。 我怎样才能select只包含至less一列数据的数据框的那一部分? 与一行我设法做到这一点: MyDF[length(MyDF[MyDF!=""])>0] 但是我怎么能为整个数据框呢? 我想将这个“子数据框架”分配给一个新的数据框架。 编辑示例数据: 很简单的例子: data<-matrix(c(1,2,1,NA,NA,NA),nrow=3,ncol=2,byrow=TRUE) [,1] [,2] [1,] 1 2 [2,] 1 NA [3,] NA NA data2<-data[sum(!is.na(test))>0,] 不是子集..但是为什么?

Pythonpandas数据框从列中select行

在列降雨/年/月的Excel表中,我想每年总结降雨数据。 例如,从2000年1月12日开始,所有的降雨细胞都join了新的细胞。 我尝试在Python中使用pandas,但无法pipe理(刚开始编码)。 我如何继续? 欢迎任何帮助,谢谢! 这里的数据头(已下载): rainfall (mm) \tyear month country iso3 iso2 0 120.54000 1990 1 ECU NaN NaN 1 231.15652 1990 2 ECU NaN NaN 2 136.62088 1990 3 ECU NaN NaN 3 203.47653 1990 4 ECU NaN NaN 4 164.20956 1990 5 ECU NaN NaN

将xlsx文件中的水平(基于行)数据读入Rdataframe

这是与此相关的“让我们试试另一种方式”的post: 是否可以定义/修改一个阅读function 可以处理存储在xlsx文件中的数据是基于行的事实(即,每一行代表一个variables) 并相应地转换它,所以它可以存储在一个基于列的 data.frame (即曾经是xlsx的行成为一列 ) 同时捕获基于行的variables的基础类/数据types ? 关于csv文件,我可能会开始转向readLines ,但不幸的是xlsx对我来说仍然是一个黑盒子。 这里有一个xlsx文件,它提供了两种数据方向的示例: https : //github.com/rappster/stackoverflow/blob/master/excel/row-and-column-based-data.xlsx