Tag: dataframe

为什么这个差异函数将空单元看作是不同的？: def find_diffs(dataframe1, dataframe2): # Finds diff cells and stores to list x_ofs = dataframe1.columns.nlevels + 1 y_ofs = dataframe1.index.nlevels + 1 return([column_letter(x + x_ofs) + str(y + y_ofs) for y, x in zip(*np.where(dataframe1 != dataframe2))]) 我正在做一个Python脚本来区分2个Excel文件，并突出显示不同的单元格。我正在使用一个pandas数据框。这个函数的问题是它突出显示空单元，就好像它们不同。我已经尝试了几件事情： (dataframe1 != dataframe2) and dataframe2 != '' (dataframe1 != dataframe2) and dataframe2 != 'nan' (dataframe1 != […]

在r数据框中设置Column Class时，将####清除为NA错误: 我正在使用最初在Excel中格式化的csv文件。我想将费率列转换为数字，并删除“$”符号。我在文件中读入： > NImp <- read.csv("National_TV_Spots 6_30_14 to 8_31_14.csv", sep=",", header=TRUE, stringsAsFactors=FALSE, strip.white=TRUE, na.strings=c("Not Monitored")) 数据框如下所示： HH.IMP..000. ISCI Creative Program Rate 1 NA IT3896 Rising Costs30 (Opportunity Scholar – No Nursing) NUVO CINEMA $0.00 2 NA IT3896 Rising Costs30 (Opportunity Scholar – No Nursing) NUVO CINEMA $0.00 3 141 IT14429 Rising Costs30 (Opportunity Scholar […]

使用Countifs和Lookups的等价物来总结R中的数据: 我有一个交易数据（位置之间的旅行）的文件，我正在寻找使用R，这是我比较新的总结。样本数据 Start.Date Start.Area End.Date End.Area 2007-07-12 14:00 New Street 2007-07-12 15:46 Windy Lane 2007-07-12 15:10 High Street 2007-07-12 18:08 New Street 2007-07-12 16:42 Kings Street 2007-07-12 17:47 Windy Lane 我的目标是为每个地区（可能是小时）返回发生的事件。样本返回，在一个新的数据框架，将是 Date Area Start.Occurances End.Occurances 2007-07-12 New Street 1 1 2007-07-12 High Street 1 0 2007-07-12 Kings Street 1 0 2007-07-12 Windy Lane 0 […]

R：通过数据框的多列运行预测function: 我用csv文件读入一个dataframe，使用： dataxlsx <- read.csv(file.choose(), header = T) 数据框如下所示： Year Month Period X410 X430 X431 2005 1 1 3467748 4434879 1345638 2005 2 2 3626338 4311150 1167523 . . . . . . 2015 7 127 2374105 1514540 1399804 我试图运行我创build的名为HWplot的函数来预测input的数据并运行预测，并输出预测图。我用包ggplot2，tseries，预测。 HWplot <- function(dataxlsx, n.ahead=12, CI=.95, error.ribbon='green', line.size=1) { hw_object<-HoltWinters(dataxlsx) forecast<-predict(hw_object, n.ahead=24, prediction.interval=T, level=0.95) for_values<-data.frame(time=round(time(forecast), 3), […]

导入.csv时将列转换为行: 我正在寻找一种有效的方式来使用read.csv（或另一种）阅读具有100,000个列和几乎一行的.csv文件。这个结构的文件是从MATLAB中提取的，似乎更喜欢添加数百万行而不是列。当在Excel中打开文件时，它不会完全加载，所以我不能简单地转置。以下在r中的作品，仍然很慢，但我想知道是否有更好的办法？ library(data.table) dfr <- as.data.frame(t(fread('filename.csv')))

R库（openxlsx）错误：工作簿没有工作表: 我很好奇你是否有任何人在阅读R中的xlsx文档时遇到类似的错误： library(openxlsx) data = read.xlsx(file, sheet =1, startRow = 2, colNames = FALSE) 即使当我的文件有一个工作表时发生错误： Error in read.xlsx.default(file, sheet =1, startRow = 2, colNames = FALSE) : Workbook has no worksheets 当我手动添加另一个空的工作表到我的xlsx文件，一切正常。但是，我想知道如何解决这个问题，而不打开每个xlsx文件逐一添加另一个表。你有什么想法如何处理它？先谢谢你。

计算一对值出现在多less行中: 我的数据框看起来像这样： Index V1 v2 v3 v4 v5 v6 1 abcdef 2 bcde 3 abcfg 4 acfdg 5 bcdghi . . . . . . . . . . . . . . 我需要遍历数据框中的每一行，并挑选出现在一起的对，并对它们进行计数。例如a和b出现在行索引1和3中，所以count = 2。 dataframe有6列，不包括索引和554行。每行中有6个variables可能有11个。第一步是做一对和一对。然后做所有的组合。例如。 a+c ， a+d ， a+e… b+c ， b+d… 我已经使用了plyr包中的table(apply(df,1,function(x) paste(sort(x), collapse='-')))和count(df) ，但是输出的频率是a+b ， a+b+c…. […]

从Excel中创build的csv文件中删除空行: 我有一个从excel csv导入的数据框。这个工作到目前为止，然而，csv总是保存49'999行，即使只有大约10'000行数据。其余的行都是空的。我怎样才能select只包含至less一列数据的数据框的那一部分？与一行我设法做到这一点： MyDF[length(MyDF[MyDF!=""])>0] 但是我怎么能为整个数据框呢？我想将这个“子数据框架”分配给一个新的数据框架。编辑示例数据：很简单的例子： data<-matrix(c(1,2,1,NA,NA,NA),nrow=3,ncol=2,byrow=TRUE) [,1] [,2] [1,] 1 2 [2,] 1 NA [3,] NA NA data2<-data[sum(!is.na(test))>0,] 不是子集..但是为什么？

Pythonpandas数据框从列中select行: 在列降雨/年/月的Excel表中，我想每年总结降雨数据。例如，从2000年1月12日开始，所有的降雨细胞都join了新的细胞。我尝试在Python中使用pandas，但无法pipe理（刚开始编码）。我如何继续？欢迎任何帮助，谢谢！这里的数据头（已下载）： rainfall (mm) \tyear month country iso3 iso2 0 120.54000 1990 1 ECU NaN NaN 1 231.15652 1990 2 ECU NaN NaN 2 136.62088 1990 3 ECU NaN NaN 3 203.47653 1990 4 ECU NaN NaN 4 164.20956 1990 5 ECU NaN NaN

将xlsx文件中的水平（基于行）数据读入Rdataframe: 这是与此相关的“让我们试试另一种方式”的post：是否可以定义/修改一个阅读function 可以处理存储在xlsx文件中的数据是基于行的事实（即，每一行代表一个variables）并相应地转换它，所以它可以存储在一个基于列的 data.frame （即曾经是xlsx的行成为一列）同时捕获基于行的variables的基础类/数据types ？关于csv文件，我可能会开始转向readLines ，但不幸的是xlsx对我来说仍然是一个黑盒子。这里有一个xlsx文件，它提供了两种数据方向的示例： https ： //github.com/rappster/stackoverflow/blob/master/excel/row-and-column-based-data.xlsx