Tag: pandas

使用分类数据计数创buildpandas数据框: 我有一堆调查数据按照每个问题的答案数量（多选题）分解。我有几个不同的课程，学期，部分等的每一个摘要之一。不幸的是，我所有的数据是在PDF打印输出给我，我不能得到数字数据。在光明的一面，这意味着我有自由统治格式化我的数据文件，但我需要，以便我可以导入到pandas。如何将数据导入到pandas中，最好不需要逐行复制（每个条目由我的摘要表示）。数据我的调查包括几个select题。对于每个问题，我有多less个答复者select了每个选项。就像是： Course Number: 100 Semester: Spring Section: 01 Question 1 ———- Option A: 27 Option B: 30 Option C: 0 Option D: 2 Question 2 ———- Option X: 20 Option Y: 10 所以基本上我有.value_counts()结果，如果我的数据已经在pandas。请注意，问题并不总是具有相同数量的选项（类别），并不总是具有相同数量的答复者。我将有多个课程编号，学期和部分类似的结果。在我的实际数据中，类别A ， B ， C等仅仅是占位符，用于表示每个响应类别的标签。另外，我不得不手动input所有的东西，所以我不担心读取上面的具体文件格式，它只是代表我在我面前的实际打印输出。目标我想通过告诉Pandas每个问题的每个回答类别有多less来重新创buildPandas中的回答数据。基本上我想要一个Excel文件或CSV，看起来像上面的响应数据，和一个pandasDataFrame，看起来像： Course Number Semester Section […]

自动将Python字典中的数据写入非常特定的Excel格式: 我有一些数据存储在.csv文件中，自动读入嵌套的Python字典。我已经拥有的代码将读取任何格式正确的文件，以便字典的forms是dict[experiment][variable]=value 。我的目标是将数据重写成一个非常具体的格式，即： Name Experiment1 Notes Componentnotes Components time LR1R2 LR1R2_I R1 R1_I R2 R2_I Values 0 1.69127 16.9127 271.087 2710.87 127.087 1270.87 20 62.0374 356.28 146.54 2107.15 2.54022 667.147 40 50.0965 451.149 146.061 1793.54 2.06075 353.535 请注意，这是从Excel中粘贴的，因此Experiment1在单元格B2中。我的代码到目前为止：导入pandas导入openpyxl def write_experiment_files_template(self): alphabet=list(string.ascii_lowercase)#get alphabet for looping over later for i in self.child_experiments_dir: #loop over […]

pandas错误：用MultiIndex编写Excel文件尚未实现: 我有一个pandas data frame ，我创build如下： stats_matrix= #A list containing my data myindex=['','event 1','event 2','event 3','event 4','event 5','event 6','event 7','event 8','event 9','event 10'] #List used for indexing rows column_names=['Failed 1st Stage','% Failed 1st Stage','Active 1st Stage','% Active 1st Stage','Failed 2nd Stage','% Failed 2nd Stage','Failed 1st & 2nd','% Failed 1st & 2nd','Active 2nd Stage','% Active 2nd Stage','Total failed','% […]

pandasExcel Prasing，删除三振: 我有一个.xlsx excel工作簿，其中某些单元格的数据包含一个删除。在阅读excel表格时，我想删除所有单元格或包含任何删除的整个行/列。目前在大pandas的情况下，所有打击的格式都是在用大pandas进行加载的时候被删除的，而没有办法区分那些没有popup的数据或没有的数据。

使用python更新excel电子表格: 我正在跟踪各种仪器的相当大的库存数据库。我需要一个更好的方式来更新库存系统。该系统由许多电子表格组成，基本上每个仪器一个。我一直在使用的组织的主要方法是仪器和部件号。到目前为止，我有一个脚本 – 使用pandas包 – 将使用电子表格：零件号和工具引用两个类别的主文件，并通过删除重复项来更新主文件。例如，如果我有4个5欧姆电阻，并且这个数字被更新为7个5欧姆电阻，我运行该程序，并用新值7更新主设备。我现在需要做的是完全删除遗漏。换句话说，我从四个5欧姆电阻到零欧姆电阻，也就是说，根本没有进入。我需要一种方法来编辑主文件并完全删除该条目。我还想用一种方法来引用主数据，用户input的文件数量是x，而不是一次一个。但是我不是很确定我在python或者pandas方面做得足够好，所以就堆栈溢出问题了！任何意见或build议表示赞赏！这是迄今为止的计划： import subprocess import pandas as pd import numpy as np import os, sys from os.path import basename # CSV IMPORT DEFINED FUNCTION def csvImport(ftype, fpath): try: if ftype == 1: masterdata = pd.read_csv(fpath) return masterdata if ftype == […]

用python在excel文件中组织数据: 我有一个类似于这样的excel文件： **Part** **Quantity** **Category** **Board** part1 4 RES board1 part2 3 CAP board4 part3 2 CAP board3 3 CAP board2 4 CAP board4 part4 3 DIO board2 无限的理想情况下，我想要的是可以将5-6个板子列出来并为它们创build一个列，并为每个单独的部分分别放置数量，换句话说， **Part** **Category** **Board1** **Board2** **Board3** **Board4** part1 RES 4 0 0 0 part2 CAP 0 0 0 0 part3 CAP 0 3 2 4 part4 DIO […]

Xlsxwriter格式化pandasDataFrame输出到Excel的麻烦: 我创build了一个pandaspivot_table并将其导出为xlsxwriter。但是，格式化并没有达到我所说的要求。我已经看了xlsxwriter文档和其他问题在这里堆栈溢出，我还没有find一个解决scheme。我有一种感觉，我忽略了一些明显的东西。 # Write to Excel path = 'some/path' writer = pd.ExcelWriter(path, engine='xlsxwriter') df.to_excel(writer, sheet_name='df') 具有set_column()的列宽度正在工作。所以我有这样的事情，这很好。但是， 'bold': False和'align': 'left' wb.add_format()子句中的'align': 'left'不是。 # Make it look nice wb = writer.book ws = writer.sheets['df'] format = wb.add_format({'bold': False, 'align': 'left'}) ws.set_column('A:C', None, format) ws.set_column(0,0, 10.2) ws.set_column(1,1, 25.2) ws.set_column(2,2, 15.2) writer.save() 或者，以下操作适用于格式，但会删除单元格B3的内容： ws.write('B3', None, […]

用NaT从dataframe中提取pandas多指数: 我正在使用pandas来parsingExcel电子表格。电子表格有几个工作表，每个工作表看起来像下面。请注意，每列都具有对应于不同date的值，并且具有不同的长度：无论什么原因，当大pandas分析Excel电子表格时，第一个工作表将第一列dateparsing为索引（即使index_col参数已指定为None）。这仍然可以pipe理。但是，在其他工作表中，它将索引parsing为多索引：我想要做的是最终重build数据框，以便它们都共享一个通用的date索引，并且任何没有值的date都被NaN填充。但是，我似乎无法从multiindex中提取date，甚至开始这个过程。我试图执行两个级别0和1的dataframe上的reset_index() ，但它抱怨IndexError: cannot do a non-empty take from an empty axes. 我也尝试了unstack() ，但是这个抱怨ValueError: Index contains duplicate entries, cannot reshape 。

导入2个Excel工作表并比较他们的数据框以进行计算和绘图: 使用python 3.5pandas0.18 import pandas as pd 已经导入了2个独立的excel文件，这里1） stu = pd.read_excel("D:\\program\\python\\sample_data\\name1.xlsx",index_col=2)是数据文件等2） paper = pd.read_excel("D:\\program\\python\\sample_data\\name2.xlsx")是参考文件，与第一个文件（名称stu）的数据进行比较。现在的问题是如何将参考文件的第一行（仅仅是单个行）与数据文件的多行进行比较，基本上数据文件中的值应该小于或等于参考文件的值。 find名称为stu的数据文件的DATA文件df的屏幕截图 Reference_File的参考文件与名称纸相比较也不想合并2 df。

如何使用pandas将数据写入现有的Excel文件？: 我想从一个Python模块tushare请求一些数据。通过使用这个代码，我可以每次获得一行数据。不过，我想每隔5秒向服务器发送一个请求，并将所有数据在4小时内放入一个excel文件中。我注意到pandas已经build在了tushare。如何把数据放在一起，只生成一个Excel文件？ import tushare as ts df=ts.get_realtime_quotes('000875') df.to_excel(r'C:\Users\stockfile\000875.xlsx')