Tag: pandas

将从Excel中读取的数据组织到Pandas DataFrame中: 我的这个脚本的目标是：1.从excel文件（> 100,000k行）以及标题（标签，单位）中读取timseries数据2.将excel数字date转换为pandas dataFrame的最佳date时间对象3.能够使用时间戳来引用行和系列标签来引用列到目前为止，我用xlrd来读取excel数据到列表中。 pandas系列与每个列表和使用时间列表作为索引。与系列标题结合起来制作python字典。将字典传递给pandas DataFrame。尽pipe我的努力df.index似乎被设置为列标题，我不知道什么时候将date转换为date时间对象。我刚刚开始使用python 3天前，所以任何build议将是伟大的！这是我的代码： #Open excel workbook and first sheet wb = xlrd.open_workbook("C:\GreenCSV\Calgary\CWater.xlsx") sh = wb.sheet_by_index(0) #Read rows containing labels and units Labels = sh.row_values(1, start_colx=0, end_colx=None) Units = sh.row_values(2, start_colx=0, end_colx=None) #Initialize list to hold data Data = [None] * (sh.ncols) #read column by column and […]

打开并阅读python中的excel .xlsx文件: 我试图用python打开一个excel .xlsx文件，但我无法find一个方法来做到这一点，我试过使用pandas，但它想要使用一个名为NumPy的库我试图安装numpy，但它仍然可以没有发现numpy。我也尝试使用xlrd库，但我得到以下回溯： Traceback (most recent call last): File "C:\test.py", line 3, in <module> book = open_workbook('test.xlsx') File "C:\Python27\lib\site-packages\xlrd\__init__.py", line 370, in open_workbook biff_version = bk.getbof(XL_WORKBOOK_GLOBALS) File "C:\Python27\lib\site-packages\xlrd\__init__.py", line 1323, in getbof raise XLRDError('Expected BOF record; found 0x%04x' % opcode) XLRDError: Expected BOF record; found 0x4b50 我认为是因为XLRD无法读取.xlsx文件？任何人有任何想法？编辑： import csv with open('test.csv', 'rb') as […]

使用pandas合并/合并2个不同的Excel文件/工作表: 我想结合2个不同的Excel文件。（感谢post导入多个Excel文件到Pythonpandas和连接成一个数据框）我到目前为止所做的一个是： import os import pandas as pd df = pd.DataFrame() for f in ['c:\\file1.xls', 'c:\\ file2.xls']: data = pd.read_excel(f, 'Sheet1') df = df.append(data) df.to_excel("c:\\all.xls") 这是他们的样子。不过我想：排除每个文件的最后一行（即File1.xls中的row4和row5; File2.xls中的row7和row8）。添加一列（或覆盖列A）以指示数据来自哪里。例如：可能吗？谢谢。

在pandas数据框上使用str.contains: 这个pandaspython代码生成错误信息， “TypeError：一元操作数的错误types：'float'” 我不知道为什么，因为我试图操纵一个str对象 df_Anomalous_Vendor_Reasons[~df_Anomalous_Vendor_Reasons['V'].str.contains("File*|registry*")] #sorts, leaving only cases where reason is NOT File or Registry 有人有什么想法？

使用Pandas Excelwriter写入到StringIO对象？: 我可以传递一个StringIO对象到pd.to_csv（）就好了： io = StringIO.StringIO() pd.DataFrame().to_csv(io) 但是在使用excel作者的时候，我遇到了很多麻烦。 io = StringIO.StringIO() writer = pd.ExcelWriter(io) pd.DataFrame().to_excel(writer,"sheet name") writer.save() 返回一个 AttributeError: StringIO instance has no attribute 'rfind' 我正在尝试创build一个ExcelWriter对象，而不调用pd.ExcelWriter()但我有一些麻烦。这是我迄今为止所尝试的： from xlsxwriter.workbook import Workbook writer = Workbook(io) pd.DataFrame().to_excel(writer,"sheet name") writer.save() 但是现在我得到一个AttributeError: 'Workbook' object has no attribute 'write_cells' 如何将excel格式的pandas数据StringIO保存到StringIO对象？

使用pandas在Excel中编写百分比: 在使用pandas之前写入csv的时候，我经常会用下面的格式来表示百分比： '%0.2f%%' % (x * 100) 加载csv时，这将由Excel正确处理。现在，我试图使用pandas的to_excel函数和使用 (simulated * 100.).to_excel(writer, 'Simulated', float_format='%0.2f%%') 并获得“ValueError：无效文字为float（）：0.0126％”。如果没有“%%”，它可以正常写入，但不会被格式化为百分比。有没有办法在pandas的to_excel中写入百分比？

在pandas to_csv方法中保留列顺序: pandas的to_csv方法不保留列的顺序。它select按字母顺序排列CSV中的列。这是一个错误，已经被报告，应该在版本0.11.0中得到纠正。我有0.18.0。 import pandas as pd df = pd.DataFrame({'V_pod_error' : [a], 'V_pod_used' : [b], 'U_sol_type' : [c] … … and so on upto 50 columns } pd.to_csv(df) Excel顺序： 0 U_sol type V_pod_error V_pod_used … 1 我想要的是字典中的顺序： 0 V_pod_error V_pod_used U_sol type … 1 我有很多列和名字。我不能手动做或写出列顺序。 2013年，这里也出现了同样的问题。它看起来不像有更新！我想请求社区帮助我！这确实是有问题的。

如何使用Pandas在单元格中保存* .xlsx长URL: 例如我读取Excel文件到DataFrame 2列（id和URL）。 input文件中的URL就像文本一样（没有超链接）： input_f = pd.read_excel("input.xlsx") 看看这个DataFrame里面的东西 – 所有东西都被成功读取了， input_f所有URL都input_f 。之后，当我不想将这个文件保存到扩展 input_f.to_excel("output.xlsx", index=False) 我得到了警告。 Path \ worksheet.py：836：UserWarning：由于超过了Excel对URLS的限制force_unicode（url），所以忽略链接或位置/锚点> 255个字符的URL “http：// here long URL” ）而在output.xlsx长URL的单元格是空的，URL变成超链接。如何解决这个问题？

pandas阅读excel文件时的数据框和字符编码: 我正在阅读一个有几个数字和分类数据的Excel文件。列name_string包含外语中的字符。当我尝试查看name_string列的内容时，我得到了我想要的结果，但外键字符（在Excel电子表格中正确显示）显示为错误的编码。这是我有什么： import pandas as pd df = pd.read_excel('MC_simulation.xlsx', 'DataSet', encoding='utf-8') name_string = df.name_string.unique() name_string.sort() name_string 生成以下内容： array([u'4th of July', u'911', u'Abab', u'Abass', u'Abcar', u'Abced', u'Ceded', u'Cedes', u'Cedfus', u'Ceding', u'Cedtim', u'Cedtol', u'Cedxer', u'Chevrolet Corvette', u'Chuck Norris', u'Cristina Fern\xe1ndez de Kirchner'], dtype=object) 在最后一行，正确编码的名字应该是CristinaFernándezde Kirchner。有人可以帮我解决这个问题吗？

使用python / pandas在excel上创build颜色渐变的最简单的方法是什么？: 所以我有使用pandas的ExcelWriter输出到excel文件的数据。在将整个数据输出到Excel文件之后，使用Python以编程方式将条件格式应用于它最简单的方法是什么？我希望能够做相当于（通过Python）的select（在Excel中）Excel工作表中所有填充的单元格，然后单击“条件格式”>颜色比例。最终结果是基于值的颜色渐变，如果您愿意的话，可以使用“热图”。这就是我正在做的生成数据： writer = ExcelWriter('Data' + today +'.xls') … processing data … df.to_excel(writer, sheet_name = 'Models', startrow = start_row, index=False) 数据写入后，我需要一种方法来使用Python的条件格式。为了简单起见，我希望颜色是蓝色的深色，值越大（> 0），越深的红色阴影值越小（<0），如果值是0。我试图寻findxlsxwriter（希望能够在创build后修改excel文件），但在文档中说“它[XLSXwriter]不能读取或修改现有的Excel XLSX文件”。请让我知道，如果你能想出一个解决scheme或指向正确的方向。