Tag: pandas

保存date时间单元格后,pandas不会读取excel文件

我正在用pandas read_excel读取一个文件 df0 = pd.read_excel(cfname,'Calendari', index_col=0, parse_cols='A:R', converters={'Categoria':str,'Fase':str, 'Grupo':str, 'Jornada':str, 'Partido':str, 'IdPartido':str,'Leido':str}) df0.head() 输出是: Linea Categoria Fase Grupo Jornada Partido IdPartido Leido Data Hora 2 CCM 1 1 1 -1 NaN No Jornada 1 NaN 3 CCM 1 1 1 0 NaN No Data Hora 4 CCM 1 1 1 1 CCM110101 No 2017-09-30 00:00:00 […]

用pandasparsingExcel数据 – 为什么在重命名列时跳过了列?

我真的很希望它的东西简单地失踪。 我正在阅读使用Pythonpandas的Excel工作簿。 当我将我的列重命名为数字1:len(列)时,它会跳过前几列。 如果单元格中没有值,似乎只能跳过它们。 即使列没有一个值,我仍然希望它数1,2,3 … xl = pd.ExcelFile('Excel.xlsm') df = xl.parse('Worksheet1') df.columns = [str(x) for x in range(0,df.shape[1])] 我希望有人能指出我正确的方向。 我曾尝试使用标题跳过前几列,但没有给我一个一致的和可靠的结果。 谢谢!

用python中的for循环添加新的excel表

以下问题:for循环的每个迭代都应该添加一个新工作表到现有的Excel工作簿。 在同一次迭代中,pandas系列必须写入这张表。 最后,必须有一个Excel文件,每个文件包含一个pandas系列。 我正在尝试: from pandas import Series for counter in range(n): sheet_name = 'Sheet%s' % counter series.to_frame(name = '').to_excel('output.xls', sheet_name=sheet_name) 不幸的是,这段代码每次迭代都会生成一个新的excel工作簿。 结果,那里只有一张纸。 请帮忙,我完全不知道。 提前致谢!

使用Python清理Excel电子表格

我似乎有一件简单的事情 – 我已经差不多完成了,但是有一个令人讨厌的问题,我应该能够摆脱,但这是难以捉摸的。 我有一些Excel .xls文件。 文件名的格式为.xls。 我创build了filenames.txt文件来迭代以获取公司名称。 每个文件在前4行左右都有垃圾数据,所以我需要删除所有文件中的前四行。 然后我需要在第一列的位置添加一列。 我的代码运行没有错误,但输出不完全是我所需要的。 我遇到的唯一问题是:1.我得到了一个领先的专栏,并补充说我并不期待索引号。 2. strip命令似乎没有剥离“.xls” – 所以最终插入到Excel中的列是.xls,而不是。 3.因为'.xls'没有正确地被剥离,所以to_excel命令是以'.xls.xls'扩展名保存文件。 我读了一些类似的情况,所以我有这个代码被使用: import pandas as pd import os path = os.chdir(r"C:\Users\mheitz\Documents\testing") filenames = [names.strip('\n') for names in \ open(r"C:\Users\mheitz\Documents\testing\filenames.txt",'r').readlines()] for name in filenames: vendors = pd.read_excel(name, header = 11, skiprows =0-10) vendors.insert(0,'Vendor Name',(name[:-4])) vendors.to_excel(r"C:\Users\mheitz\Documents\testing\clean\clean" + name)

在读完整个Excel文件之前,大pandas会早退

我正在尝试将Python excel文件读入Pandas,访问每行的特定列,然后将地址编码为坐标。 然后把它们写入一个csv 地理编码部分工作良好,据我所知,我的循环开始好的地方,它可以读取地址。 然而,它只是停止22行。 我不知道为什么,我一直在使用pandas这个相同的Excel文件的东西,它没有问题。 只是做这个,不是那么多。 它有27K行。 打印data.__len__()给我27395 。 任何帮助? ##### READ IN DATA file = r'rollingsales_manhattan.xls' # Read in the data from the Excel data = pd.read_excel(file) # g = geocoder.osm(str(data['ADDRESS'].iloc[0]) + " New York City, NY " + str(data['ZIP CODE'].iloc[0])) with open("geotagged_manhattan.csv", 'wb') as result_file: wr = csv.writer(result_file) for index,d in enumerate(data): […]

我怎样才能从列表或数据框中input值到现有的Excel文件中的每个单元格?

所以基本上,我想用新数据更新工作表,覆盖Excel中现有的单元格。 这两个文件具有相同的列名称(我不想创build一个新的工作簿,也不添加一个新的列)。 在这里,我正在检索我想要的数据: import pandas as pd df1 = pd.read_csv print(df1) 输出(我只是复制和粘贴前5行,总共有约500行): Index Type Stage CDID Period Index Value 0 812008000 6 2 JTV9 201706 121.570 1 812008000 6 2 JTV9 201707 121.913 2 812008000 6 2 JTV9 201708 121.686 3 812008000 6 2 JTV9 201709 119.809 4 812008000 6 2 JTV9 201710 119.841 5 […]

pandas无法绘制从Excel导入的时间序列

这是我的DataFrame获取从Excel .xls导入 0 1 664 2017-12-07 19:08:54 1.1377 665 2017-12-07 19:10:31 1.1374 666 2017-12-07 19:12:17 1.1377 667 2017-12-07 19:13:28 1.1377 668 2017-12-07 19:15:25 1.1379 我认为是正确的types 0 datetime64[ns] 1 float64 dtype: object 但是,由于出现了一些错误,它不会与ax = _df.plot()一起绘制。 任何想法为什么? 这是我在pandas的第一个小时,对不起,如果这是经典的问题,但我只看到这个ValueError: ordinal must be >= 1没有相关的答案ValueError: ordinal must be >= 1 感谢您的投入 ————————————————————————— ValueError Traceback (most recent call last) <ipython-input-24-ca306a836171> […]

没有模块命名为xlutils.copy,点安装失败

我得到一个错误消息,说:“没有模块名为xlutils.copy”。 当我需要做xiptils.copy的pip安装时,我收到一条错误消息“找不到满足要求的版本”。 我下载了包含xlutils.copy的xlutils 2.0.0,但是我不确定它是否需要放在某个目录中? from xlrd import open_workbook from xlutils.copy import copy rb = open_workbook('Excel FDT Master_01_update.xlsx') wb = copy(rb) s = rb.sheet_by_name('INPUT') r = 5 for test in col_test: s.cell(rowx = r, colx = 1).value = test r += 1 wb.save('comeonenow.xls')

在pandas read_excel中获取Excell单元格背景颜色?

我有一个带有背景颜色的单元格的Excel文件。 我正在用read_excel将该文件读入pandas 。 有没有办法获得单元格的背景颜色?

我可以输出pandasDataFrame到Excel剥离tzinfo吗?

我在pandas0.10.1中有Timezone感知TimeSeries。 我想要导出到Excel,但是时区会阻止date在Excel中被识别为date。 In [40]: resultado Out[40]: fecha_hora 2013-04-11 13:00:00+02:00 31475.568 2013-04-11 14:00:00+02:00 37263.072 2013-04-11 15:00:00+02:00 35979.434 2013-04-11 16:00:00+02:00 35132.890 2013-04-11 17:00:00+02:00 36356.584 如果我用.tz_convert(None) tzinfo,则date转换为UTC: In [41]: resultado.tz_convert(None) Out[41]: fecha_hora 2013-04-11 11:00:00 31475.568 2013-04-11 12:00:00 37263.072 2013-04-11 13:00:00 35979.434 2013-04-11 14:00:00 35132.890 2013-04-11 15:00:00 36356.584 是否有一个TimeSeries方法来申请.replace(tzinfo=None)索引中的每个date? 另外,有没有办法正确导出时间感知TimeSeries Excel?