Tag: pandas

将从Excel中读取的数据组织到Pandas DataFrame中

我的这个脚本的目标是:1.从excel文件(> 100,000k行)以及标题(标签,单位)中读取timseries数据2.将excel数字date转换为pandas dataFrame的最佳date时间对象3.能够使用时间戳来引用行和系列标签来引用列 到目前为止,我用xlrd来读取excel数据到列表中。 pandas系列与每个列表和使用时间列表作为索引。 与系列标题结合起来制作python字典。 将字典传递给pandas DataFrame。 尽pipe我的努力df.index似乎被设置为列标题,我不知道什么时候将date转换为date时间对象。 我刚刚开始使用python 3天前,所以任何build议将是伟大的! 这是我的代码: #Open excel workbook and first sheet wb = xlrd.open_workbook("C:\GreenCSV\Calgary\CWater.xlsx") sh = wb.sheet_by_index(0) #Read rows containing labels and units Labels = sh.row_values(1, start_colx=0, end_colx=None) Units = sh.row_values(2, start_colx=0, end_colx=None) #Initialize list to hold data Data = [None] * (sh.ncols) #read column by column and […]

打开并阅读python中的excel .xlsx文件

我试图用python打开一个excel .xlsx文件,但我无法find一个方法来做到这一点,我试过使用pandas,但它想要使用一个名为NumPy的库我试图安装numpy,但它仍然可以没有发现numpy。 我也尝试使用xlrd库,但我得到以下回溯: Traceback (most recent call last): File "C:\test.py", line 3, in <module> book = open_workbook('test.xlsx') File "C:\Python27\lib\site-packages\xlrd\__init__.py", line 370, in open_workbook biff_version = bk.getbof(XL_WORKBOOK_GLOBALS) File "C:\Python27\lib\site-packages\xlrd\__init__.py", line 1323, in getbof raise XLRDError('Expected BOF record; found 0x%04x' % opcode) XLRDError: Expected BOF record; found 0x4b50 我认为是因为XLRD无法读取.xlsx文件? 任何人有任何想法? 编辑: import csv with open('test.csv', 'rb') as […]

使用pandas合并/合并2个不同的Excel文件/工作表

我想结合2个不同的Excel文件。 (感谢post导入多个Excel文件到Pythonpandas和连接成一个数据框 ) 我到目前为止所做的一个是: import os import pandas as pd df = pd.DataFrame() for f in ['c:\\file1.xls', 'c:\\ file2.xls']: data = pd.read_excel(f, 'Sheet1') df = df.append(data) df.to_excel("c:\\all.xls") 这是他们的样子。 不过我想: 排除每个文件的最后一行(即File1.xls中的row4和row5; File2.xls中的row7和row8)。 添加一列(或覆盖列A)以指示数据来自哪里。 例如: 可能吗? 谢谢。

在pandas数据框上使用str.contains

这个pandaspython代码生成错误信息, “TypeError:一元操作数的错误types:'float'” 我不知道为什么,因为我试图操纵一个str对象 df_Anomalous_Vendor_Reasons[~df_Anomalous_Vendor_Reasons['V'].str.contains("File*|registry*")] #sorts, leaving only cases where reason is NOT File or Registry 有人有什么想法?

使用Pandas Excelwriter写入到StringIO对象?

我可以传递一个StringIO对象到pd.to_csv()就好了: io = StringIO.StringIO() pd.DataFrame().to_csv(io) 但是在使用excel作者的时候,我遇到了很多麻烦。 io = StringIO.StringIO() writer = pd.ExcelWriter(io) pd.DataFrame().to_excel(writer,"sheet name") writer.save() 返回一个 AttributeError: StringIO instance has no attribute 'rfind' 我正在尝试创build一个ExcelWriter对象,而不调用pd.ExcelWriter()但我有一些麻烦。 这是我迄今为止所尝试的: from xlsxwriter.workbook import Workbook writer = Workbook(io) pd.DataFrame().to_excel(writer,"sheet name") writer.save() 但是现在我得到一个AttributeError: 'Workbook' object has no attribute 'write_cells' 如何将excel格式的pandas数据StringIO保存到StringIO对象?

使用pandas在Excel中编写百分比

在使用pandas之前写入csv的时候,我经常会用下面的格式来表示百分比: '%0.2f%%' % (x * 100) 加载csv时,这将由Excel正确处理。 现在,我试图使用pandas的to_excel函数和使用 (simulated * 100.).to_excel(writer, 'Simulated', float_format='%0.2f%%') 并获得“ValueError:无效文字为float():0.0126%”。 如果没有“%%”,它可以正常写入,但不会被格式化为百分比。 有没有办法在pandas的to_excel中写入百分比?

在pandas to_csv方法中保留列顺序

pandas的to_csv方法不保留列的顺序。 它select按字母顺序排列CSV中的列。 这是一个错误,已经被报告,应该在版本0.11.0中得到纠正。 我有0.18.0。 import pandas as pd df = pd.DataFrame({'V_pod_error' : [a], 'V_pod_used' : [b], 'U_sol_type' : [c] … … and so on upto 50 columns } pd.to_csv(df) Excel顺序: 0 U_sol type V_pod_error V_pod_used … 1 我想要的是字典中的顺序: 0 V_pod_error V_pod_used U_sol type … 1 我有很多列和名字。 我不能手动做或写出列顺序。 2013年, 这里也出现了同样的问题。 它看起来不像有更新! 我想请求社区帮助我! 这确实是有问题的。

如何使用Pandas在单元格中保存* .xlsx长URL

例如我读取Excel文件到DataFrame 2列(id和URL)。 input文件中的URL就像文本一样(没有超链接): input_f = pd.read_excel("input.xlsx") 看看这个DataFrame里面的东西 – 所有东西都被成功读取了, input_f所有URL都input_f 。 之后,当我不想将这个文件保存到扩展 input_f.to_excel("output.xlsx", index=False) 我得到了警告。 Path \ worksheet.py:836:UserWarning:由于超过了Excel对URLS的限制force_unicode(url),所以忽略链接或位置/锚点> 255个字符的URL “http:// here long URL” ) 而在output.xlsx长URL的单元格是空的,URL变成超链接。 如何解决这个问题?

pandas阅读excel文件时的数据框和字符编码

我正在阅读一个有几个数字和分类数据的Excel文件。 列name_string包含外语中的字符。 当我尝试查看name_string列的内容时,我得到了我想要的结果,但外键字符(在Excel电子表格中正确显示)显示为错误的编码。 这是我有什么: import pandas as pd df = pd.read_excel('MC_simulation.xlsx', 'DataSet', encoding='utf-8') name_string = df.name_string.unique() name_string.sort() name_string 生成以下内容: array([u'4th of July', u'911', u'Abab', u'Abass', u'Abcar', u'Abced', u'Ceded', u'Cedes', u'Cedfus', u'Ceding', u'Cedtim', u'Cedtol', u'Cedxer', u'Chevrolet Corvette', u'Chuck Norris', u'Cristina Fern\xe1ndez de Kirchner'], dtype=object) 在最后一行,正确编码的名字应该是CristinaFernándezde Kirchner。 有人可以帮我解决这个问题吗?

使用python / pandas在excel上创build颜色渐变的最简单的方法是什么?

所以我有使用pandas的ExcelWriter输出到excel文件的数据。 在将整个数据输出到Excel文件之后,使用Python以编程方式将条件格式应用于它最简单的方法是什么? 我希望能够做相当于(通过Python)的select(在Excel中)Excel工作表中所有填充的单元格,然后单击“条件格式”>颜色比例。 最终结果是基于值的颜色渐变,如果您愿意的话,可以使用“热图”。 这就是我正在做的生成数据: writer = ExcelWriter('Data' + today +'.xls') … processing data … df.to_excel(writer, sheet_name = 'Models', startrow = start_row, index=False) 数据写入后,我需要一种方法来使用Python的条件格式。 为了简单起见,我希望颜色是蓝色的深色,值越大(> 0),越深的红色阴影值越小(<0),如果值是0。 我试图寻findxlsxwriter(希望能够在创build后修改excel文件),但在文档中说“它[XLSXwriter]不能读取或修改现有的Excel XLSX文件”。 请让我知道,如果你能想出一个解决scheme或指向正确的方向。