Tag: pandas

使用分类数据计数创buildpandas数据框

我有一堆调查数据按照每个问题的答案数量(多选题)分解。 我有几个不同的课程,学期,部分等的每一个摘要之一。不幸的是,我所有的数据是在PDF打印输出给我,我不能得到数字数据。 在光明的一面,这意味着我有自由统治格式化我的数据文件,但我需要,以便我可以导入到pandas。 如何将数据导入到pandas中,最好不需要逐行复制(每个条目由我的摘要表示)。 数据 我的调查包括几个select题。 对于每个问题,我有多less个答复者select了每个选项。 就像是: Course Number: 100 Semester: Spring Section: 01 Question 1 ———- Option A: 27 Option B: 30 Option C: 0 Option D: 2 Question 2 ———- Option X: 20 Option Y: 10 所以基本上我有.value_counts()结果,如果我的数据已经在pandas。 请注意,问题并不总是具有相同数量的选项(类别),并不总是具有相同数量的答复者。 我将有多个课程编号,学期和部分类似的结果。 在我的实际数据中,类别A , B , C等仅仅是占位符,用于表示每个响应类别的标签。 另外,我不得不手动input所有的东西,所以我不担心读取上面的具体文件格式,它只是代表我在我面前的实际打印输出。 目标 我想通过告诉Pandas每个问题的每个回答类别有多less来重新创buildPandas中的回答数据。 基本上我想要一个Excel文件或CSV,看起来像上面的响应数据,和一个pandasDataFrame,看起来像: Course Number Semester Section […]

自动将Python字典中的数据写入非常特定的Excel格式

我有一些数据存储在.csv文件中,自动读入嵌套的Python字典。 我已经拥有的代码将读取任何格式正确的文件,以便字典的forms是dict[experiment][variable]=value 。 我的目标是将数据重写成一个非常具体的格式,即: Name Experiment1 Notes Componentnotes Components time LR1R2 LR1R2_I R1 R1_I R2 R2_I Values 0 1.69127 16.9127 271.087 2710.87 127.087 1270.87 20 62.0374 356.28 146.54 2107.15 2.54022 667.147 40 50.0965 451.149 146.061 1793.54 2.06075 353.535 请注意,这是从Excel中粘贴的,因此Experiment1在单元格B2中。 我的代码到目前为止: 导入pandas导入openpyxl def write_experiment_files_template(self): alphabet=list(string.ascii_lowercase)#get alphabet for looping over later for i in self.child_experiments_dir: #loop over […]

pandas错误:用MultiIndex编写Excel文件尚未实现

我有一个pandas data frame ,我创build如下: stats_matrix= #A list containing my data myindex=['','event 1','event 2','event 3','event 4','event 5','event 6','event 7','event 8','event 9','event 10'] #List used for indexing rows column_names=['Failed 1st Stage','% Failed 1st Stage','Active 1st Stage','% Active 1st Stage','Failed 2nd Stage','% Failed 2nd Stage','Failed 1st & 2nd','% Failed 1st & 2nd','Active 2nd Stage','% Active 2nd Stage','Total failed','% […]

pandasExcel Prasing,删除三振

我有一个.xlsx excel工作簿,其中某些单元格的数据包含一个删除。 在阅读excel表格时,我想删除所有单元格或包含任何删除的整个行/列。 目前在大pandas的情况下,所有打击的格式都是在用大pandas进行加载的时候被删除的,而没有办法区分那些没有popup的数据或没有的数据。

使用python更新excel电子表格

我正在跟踪各种仪器的相当大的库存数据库。 我需要一个更好的方式来更新库存系统。 该系统由许多电子表格组成,基本上每个仪器一个。 我一直在使用的组织的主要方法是仪器和部件号。 到目前为止,我有一个脚本 – 使用pandas包 – 将使用电子表格:零件号和工具引用两个类别的主文件,并通过删除重复项来更新主文件。 例如,如果我有4个5欧姆电阻,并且这个数字被更新为7个5欧姆电阻,我运行该程序,并用新值7更新主设备。 我现在需要做的是完全删除遗漏。 换句话说,我从四个5欧姆电阻到零欧姆电阻,也就是说,根本没有进入。 我需要一种方法来编辑主文件并完全删除该条目。 我还想用一种方法来引用主数据,用户input的文件数量是x,而不是一次一个。 但是我不是很确定我在python或者pandas方面做得足够好,所以就堆栈溢出问题了! 任何意见或build议表示赞赏! 这是迄今为止的计划: import subprocess import pandas as pd import numpy as np import os, sys from os.path import basename # CSV IMPORT DEFINED FUNCTION def csvImport(ftype, fpath): try: if ftype == 1: masterdata = pd.read_csv(fpath) return masterdata if ftype == […]

用python在excel文件中组织数据

我有一个类似于这样的excel文件: **Part** **Quantity** **Category** **Board** part1 4 RES board1 part2 3 CAP board4 part3 2 CAP board3 3 CAP board2 4 CAP board4 part4 3 DIO board2 无限的 理想情况下,我想要的是可以将5-6个板子列出来并为它们创build一个列,并为每个单独的部分分别放置数量,换句话说, **Part** **Category** **Board1** **Board2** **Board3** **Board4** part1 RES 4 0 0 0 part2 CAP 0 0 0 0 part3 CAP 0 3 2 4 part4 DIO […]

Xlsxwriter格式化pandasDataFrame输出到Excel的麻烦

我创build了一个pandaspivot_table并将其导出为xlsxwriter。 但是,格式化并没有达到我所说的要求。 我已经看了xlsxwriter文档和其他问题在这里堆栈溢出,我还没有find一个解决scheme。 我有一种感觉,我忽略了一些明显的东西。 # Write to Excel path = 'some/path' writer = pd.ExcelWriter(path, engine='xlsxwriter') df.to_excel(writer, sheet_name='df') 具有set_column()的列宽度正在工作。 所以我有这样的事情,这很好。 但是, 'bold': False和'align': 'left' wb.add_format()子句中的'align': 'left'不是。 # Make it look nice wb = writer.book ws = writer.sheets['df'] format = wb.add_format({'bold': False, 'align': 'left'}) ws.set_column('A:C', None, format) ws.set_column(0,0, 10.2) ws.set_column(1,1, 25.2) ws.set_column(2,2, 15.2) writer.save() 或者,以下操作适用于格式,但会删除单元格B3的内容: ws.write('B3', None, […]

用NaT从dataframe中提取pandas多指数

我正在使用pandas来parsingExcel电子表格。 电子表格有几个工作表,每个工作表看起来像下面。 请注意,每列都具有对应于不同date的值,并且具有不同的长度: 无论什么原因,当大pandas分析Excel电子表格时,第一个工作表将第一列dateparsing为索引(即使index_col参数已指定为None)。 这仍然可以pipe理。 但是,在其他工作表中,它将索引parsing为多索引: 我想要做的是最终重build数据框,以便它们都共享一个通用的date索引,并且任何没有值的date都被NaN填充。 但是,我似乎无法从multiindex中提取date,甚至开始这个过程。 我试图执行两个级别0和1的dataframe上的reset_index() ,但它抱怨IndexError: cannot do a non-empty take from an empty axes. 我也尝试了unstack() ,但是这个抱怨ValueError: Index contains duplicate entries, cannot reshape 。

导入2个Excel工作表并比较他们的数据框以进行计算和绘图

使用python 3.5pandas0.18 import pandas as pd 已经导入了2个独立的excel文件,这里1) stu = pd.read_excel("D:\\program\\python\\sample_data\\name1.xlsx",index_col=2)是数据文件等2) paper = pd.read_excel("D:\\program\\python\\sample_data\\name2.xlsx")是参考文件,与第一个文件(名称stu)的数据进行比较。 现在的问题是如何将参考文件的第一行(仅仅是单个行)与数据文件的多行进行比较,基本上数据文件中的值应该小于或等于参考文件的值。 find名称为stu的数据文件的DATA文件df的屏幕截图 Reference_File的参考文件与名称纸相比较 也不想合并2 df。

如何使用pandas将数据写入现有的Excel文件?

我想从一个Python模块tushare请求一些数据。 通过使用这个代码,我可以每次获得一行数据。 不过,我想每隔5秒向服务器发送一个请求,并将所有数据在4小时内放入一个excel文件中。 我注意到pandas已经build在了tushare。 如何把数据放在一起,只生成一个Excel文件? import tushare as ts df=ts.get_realtime_quotes('000875') df.to_excel(r'C:\Users\stockfile\000875.xlsx')