Tag: pandas

在pandas中的一张纸上构build数据框

我在Excel中有一个复杂的表单,我希望读入多个pandas.DataFrames 。 基本上,这里有3个dataframe。 一个用于DIRECTION_A , DIRECTION_B和TOTAL 。 如何告诉大pandas分别读取这些dataframe? 我可以使用iloc来指定边界,但是由于我正在迭代许多不同的电子表格,因此存在不同位置的风险。 目前,我正在阅读所有这些列,跳过前7行: tmp_df = pd.read_excel(file,sheetname=sheet_name,skiprows=7) (样本数据)

pythonpandasdate转换为单词

我在我的数据框中有一个特定的date格式为df:Date 12-Jun-16 22-Jan-12 我想把它转换为这种格式df:Date 12-Jan-2015 任何帮助,如何做到这一点?

循环通过python数组来匹配第二个数组中的多个条件,快速的方法?

我是一个Python的初学者,想知道是否有更快的方法来做这个代码,所以请原谅我的无知。 我有2个Excel表格:一个( 结果 )有大约30,000行唯一的用户id,然后我有30列的问题问题,下面的单元格是空的。 我的第二张( 答案 ),有大约40万行和3列。 第一列有用户标识符,第二列有问题,第三列有来自用户的相应问题的答案。 我想要做的事情本质上是一个索引匹配数组excel函数,我可以通过匹配用户标识和问题来填充表单1中的空白单元格和表单2中的答案。 现在我写了一段代码,但是从表1中处理4列需要花费大约2个小时。我试图弄清楚我的做法是不是完全利用了Numpy的function。 import pandas as pd import numpy as np # Need to take in data from 'answers' and merge it into the 'results' data # Will requiring matching the data based on 'id' in column 1 of 'answers' and the # 'question' in column 2 of […]

如何将我的数据库中的某一行保存到新的Excel文件中?

我在我的数据库中find了一个特定的行: df.loc[df["Cost per m^3/$"].idxmin()] 但是现在我想将这一行保存到一个新的Excel电子表格中,我该怎么做?

在pandas表开始之前的数据

我正在使用pandasparsing一个20k行数据表的Excel文件。 到目前为止这么好,但是在表的起始位置还有一小部分元数据,我也想使用它(生成表的date)。 目前如果我不跳过任何行: raw = pd.read_excel(datafile, sheetname=0, parse_cols="B, D:I") 前几行只是nans: >>> raw.values[0] array([nan, nan, nan, nan, nan, nan, nan], dtype=object) 我可以用像xlrd这样更基本的文件来打开这个文件来获取这些数据,但这需要将整个文件加载到内存中两次,而我却不想这样做。 pandas可以在不重新导入文件的情况下获取表格上方的数据吗?

我可以禁用从date时间自动parsingstring的openpyxl?

我有简单的excel文件,各种timstamp格式写成string。 在openpyxl中有一个内置的function来自动将date对象转换为date时间对象。 我的问题很简单,我怎样才能把原始的string,因为它被插入到Excel文件的用户,没有介入的openpyxl 。 我想用自己的函数尝试对datetime.strptime各种调用,进行自己的格式testing。 加载的Excel是这样做的: import openpyxl ex = openpyxl.load_workbook('/path/to/file.xls') worksheet = ex.active 如果需要遍历行,我使用worksheet.iter_rows方法

使用Pandas在Python中复制Excel的IndexMatch

我有一个Excel电子表格,我经常更新(每天2-3次)。 此更新需要运行索引匹配来从另一个电子表格中的表中提取值,并将其写入第一个列中的列。 值覆盖旧的,而不是创build一个新的列。 我想使用pandas(和xlwings将数据写入电子表格,但我没有与该部分的问题)自动化此过程。 第一步是复制excel的INDEXMATCH()和pandas。 总的来说,该function应该: 采用的参数是要编入索引的列的string标题,要写入的列以及包含用于匹配读写列的值的列 迭代写入列; 在每次迭代中,在读取列中search对应的匹配列值与写入列的匹配列值匹配的值 如果没有匹配值,则将NaN或“#N / A”写入dataframe(重要的是区分0和不匹配) 我期望在pandas中有一个本地的vlookup / indexmatchfunction,但我能find的唯一的东西是关于连接或合并数据框,这不是我想要做的 – 我想覆盖数据框中的各个值,并以任意的索引顺序进行。 我已经设法使用一个非常丑陋的特定于脚本的函数来工作,但是我认为尝试将函数推广到其他用途将是有用的。 经过一些清理和重写,我有以下几点: ##Index Match in Python with pandas #Remember that dataframes start at 0, excel starts at 1 #This only works if both DFs have the same indices (integers, strings, whatever) import numpy as np import pandas as […]

将直方图从Python导出到Excel

我是相当新的编码,我需要一些帮助,出口数据或只是打印在Python shell。 代码是: import pandas as pd import numpy as np import matplotlib.pyplot as plt import openpyxl data = pd.read_excel('/Users/user/Desktop/Data/Book1.xlsx') df = data.hist(bins=40) plt.xlim([0,1000]) plt.title('Data') plt.xlabel('Neuron') plt.ylabel('# of Spikes') plt.show() 因此,代码将数据合并为40个分档后,会生成一个直方图,范围为0到1558.5左右。 我试图做的是导出数据后binning,因为当我试着写: writer = pd.ExcelWriter('/Users/user/Desktop/Data/output.xlsx') df1.to_excel(writer,'Sheet2') writer.save() 它保存的是原始数据,而不是应用了直方图的数据,并且已经应用​​了分箱。 另外,如果我可以在0到5,5到10等的范围内获得一些帮助,基本上它的读取间隔是5,一直到数据的末尾,所以它最终会停止在最后一点的数据,并将这些数据粘贴到一个bin中。 任何帮助表示赞赏,并不一定是特别pandas。 谢谢。 顺便说一下,我认为我所做的是从导入的数据中获得一个数据框,而且只是一个初学者,所以不太确定。

同时将pandasDataFrame写入xlsx

我有一个DataFrame需要分割和写入不同的Excel文件基于特定的列… df = pd.DataFrame(np.arange(28).reshape((7, 4))) df['group'] = ['a', 'a', 'c', 'c', 'd', 'd', 'e'] 0 1 2 3 group 0 0 1 2 3 a 1 4 5 6 7 a 2 8 9 10 11 c 3 12 13 14 15 c 4 16 17 18 19 d 5 20 21 22 23 d […]

识别缺失值并返回包含这些值的列表

我对编码相当陌生,最近我在工作中做了一个很小的pandas课程,而这门课的一部分就是考虑一个我们想要改进的项目。 我希望能够从CSV或Excel文件中识别表格中的缺失值,然后列出这些缺失值。 导入的CSV文件示例: 公司2016年2015年2014年2013年2012年2011年2010年 AAPL US 31 NaN 21.0 3.0 NaN 80.0 7 MSFT US 72 8.0 67.0 NaN 93.0 30.0 37 SNAP US 51 NaN NaN 7.0 33.0 16.0 44 FB US 49 56.0 33.0 97.0 NaN NaN 98 成: AAPL美国,2015年,2012年 MSFT美国,2013年 SNAP US,2015,2014 FB美国,2012年,2011年 我知道如何计算他们等,但我想看到一个最终确定的列表。 谢谢!