Tag: pandas

用布尔逻辑模糊真值

我想在一个数据框的函数中使用一些布尔逻辑,但得到一个错误: 在[4]中: data={'level':[20,19,20,21,25,29,30,31,30,29,31]} frame=DataFrame(data) frame Out[4]: level 0 20 1 19 2 20 3 21 4 25 5 29 6 30 7 31 8 30 9 29 10 31 In [35]: def calculate(x): baseline=max(frame['level'],frame['level'].shift(1))#doesnt work #baseline=x['level']+4#works difftobase=x['level']-baseline return baseline, difftobase frame['baseline'], frame['difftobase'] = zip(*frame.apply(calculate, axis=1))#works 但是,这会引发以下错误: baseline=max(frame['level'],frame['level'].shift(1))#doesnt work ValueError: ('The truth value of a Series […]

比较两个电子表格并提取值

我有两个不同数量的行和列的电子表格。 我想要做的是将两者进行比较,并从a1.xlsx中提取与a1.xlsx的列名相匹配的A和B的值,并将这些值复制到a2.xlsx中的列C和D. 我知道如何在Excel中使用索引匹配,但不使用Python的pandas。 电子表格1( a1.xlsx ) Index ABC 0 s 0.2 new york 1 d 1 vienna 2 g 2 london 3 c 3 tokyo 4 r 2 paris 5 d 1 berlin 6 a 8 madrid 7 f 10 seattle 电子表格2( a2.xlsx ) Index ABCD 0 dublin 34 xx 1 seoul 36 xx 2 […]

如何使用pandas将多个数据透视表从python导出到单个csv文档?

假设我有一个函数pivot()来聚合数据透视表 def pivots(): d = data() #another function which cleans up my raw data price_floor = PF(d) no_floor = NF(d) return price_floor,no_floor 我知道如何导出一个数据透视表 q,r = pivots() q.to_csv('C:\\export.csv') 但是,如果我可以将price_floor和no_floor同时导出到同一个文档“export.csv”

使用Excel文件从URL中只提取一组特定的数据

我正在寻找收集在这个 Excel文件倒数第二个工作表中的所有数据以及从5.5年度的“成熟年数”的最后一个工作表中的所有数据。 我的代码如下。 我目前只是合并来自两张表的所有数据。 我不知道如何提取与上一个工作表中的“5.5到期年数”相关的数据。 import urllib2 import pandas as pd import os import xlrd url = 'http://www.bankofengland.co.uk/statistics/Documents/yieldcurve/uknom05_mdaily.xls' socket = urllib2.urlopen(url) xd = pd.ExcelFile(socket) df1 = xd.parse(xd.sheet_names[-1], header=None) df2 = xd.parse(xd.sheet_names[-2], header=None) bigdata = df1.append(df2,ignore_index = True) print bigdata

在python-3.3中使用pandas.ExcelWriter.to_excel时出错

我在python-3.3中使用pandas版本0.16.2和openpyxl版本2.2.4。 我正在编写一个非常简单的包含浮点数,string和NaN的pandas数据框。 当我使用代码时: import pandas as pd writer = pd.ExcelWriter(xls_path) df.to_excel(writer,'sheet1') writer.save() 我得到的错误: TypeError Traceback (most recent call last) <ipython-input-3-2349bf9de8ec> in save_xls(list_dfs, xls_path, sheetnames) 5 import pandas as pd 6 writer = pd.ExcelWriter(xls_path) —-> 7 df.to_excel(writer,sheetnames[n]) 8 9 writer.save() /Users/dylan/Virtualenvs/ve33/lib/python3.3/site-packages/pandas/core/frame.py in to_excel(self, excel_writer, sheet_name, na_rep, float_format, columns, header, index, index_label, startrow, startcol, engine, merge_cells, encoding, […]

pandasto_excel腐败“=”

我有麻烦写一个DataFrame到一个Excel文件: 我读了一个Excel文件(我想在将来修改),并将DataFrame写回Excel文件。 Dataframe包含等号(=),它在输出excel文件中popup为0。 我已经检查了等号的数据types,它是unicode:u'='。 我附上我使用的代码,加上一些额外的debugging输出(我希望可以帮助)。 fname = os.path.join(baseDIR, PARAMETERS_FILE) base_params = read_excel (fname, PARAMETERS_SHEET) base_params.override = False >>> base_params.operator 0 rev 1 rev 2 rev 3 rev 4 rev 5 rev 6 rev 7 rev 8 rev 9 >= 10 = 11 <= 12 <= 13 <= 14 <= 15 NaN 16 = 17 = […]

IOError:无效模式('rb')使用pandas.read_excel

我不断有以下错误。 你应该知道文件名是正确的,这个pandas的方法在其他py文件,请帮助! tablecouleurs是一个没有特定字符的excel表 import pandas as pd colors=pd.read_excel('C:\Users\pauldufosse\tablecouleurs.xlsx', index_col=0, has_index_names=True) 和错误: runfile('C:/Users/pauldufosse/Documents/colors.py',wdir ='C:/ Users / pauldufosse / Documents')追溯(最近的最后一次调用): 在runfile('C:/Users/pauldufosse/Documents/colors.py',wdir ='C:/ Users / pauldufosse / Documents')中的文件“”,第1行 runfile execfile(filename,namespace)文件“C:\ Users \ pauldufosse \ Anaconda \ lib \ site-packages \ spyderlib \ widgets \ externalshell \ sitecustomize.py”,第685行。 文件“C:\ Users \ pauldufosse \ Anaconda \ lib \ site-packages \ […]

在Excel中结合excel表单和pandas

所以,我在python中使用这个脚本来做一些事情。 它:将两个Excel表单合并在一起,并创build一个新的表单,并为这些表单添加另一列,以显示原始文件的来源。 这是脚本: import pandas as pd import numpy as np import os from os.path import basename df = [] #enter your file names via terminal file1 = raw_input("Enter the path to the first file):") file2 = raw_input("Enter the path to the second file):") for f in [file1, file2]: data = pd.read_excel(f, 'Sheet1') data.index = […]

pandas阅读excel“常规”栏作为对象

我有一个.xls文件,看起来像这样 col_a col_b col_c col_d 5376594 hello 12028432 world 17735732 hello 12 hello 17736843 world world 当我阅读文件 test = pandas.read_excel('F:/test.xls') 该表使用以下列types进行读取: >>> test.dtypes col_a int64 col_b object col_c float64 col_d object 我有的问题是,我想有col_b和col_dstring列。 由于我在python上是个新手,请你指点一下 幕后发生了什么? 和 有没有任何参数来调整阅读列作为string? 编辑:在评论中问的第一行的types >>> type(test.iloc[0]['col_a']) <class 'numpy.int64'> >>> type(test.iloc[0]['col_b']) <class 'float'> >>> type(test.iloc[0]['col_c']) <class 'numpy.float64'> >>> type(test.iloc[0]['col_d']) <class 'str'>

读取特定单元格区域的特定列并使用Pandas存储值

我试图找出一种方法来读取特定列的数据,并将其存储到使用pandas的数组中。 例如我的Excel工作表由以下部分组成: testing| p 食品| 价钱 鸡| 8.54 牛肉| 6.73 蔬菜| 3.2 总价| 18.47 注意:第一行有一个空的空间是有原因的。 注意:| 表示细胞分离。 我试图从B3行开始到B5行的价格值,并通过[8.54,6.73,3.2]将它们存储到一个数组中。 到目前为止,我拥有的代码是: import pandas as pd xl_workbook = pd.ExcelFile("readme.xlsx") # Load the excel workbook df = xl_workbook.parse("Sheet1") # Parse the sheet into a dataframe x1_list = df['p'].tolist() # Cast the desired column into a python list print(x1_list) 然后导致[nan,u'price',8.54,6.73,3.2] […]