Tag: pandas

在pandas中的单元格中旋转标题文本

导出为ex​​cel时,似乎无法在pandas数据框的标题单元格中旋转string。 我已经使用了这些命令 rot_format = workbook.add_format() rot_format.set_rotation(90) rot_format.set_text_wrap() worksheet.set_row(0,200,rot_format) 顶行的单元格中的string不会旋转。 但是,当我在set_row行中将“0”replace为“1”时,电子表格第二行中单元格中的元素将全部旋转。 如果需要,我可以发送更多的代码。 我很乐意考虑的一种替代forms是将标签垂直写成一个字符宽,一个写在另一个之下。 任何见解将不胜感激。 谢谢。 彼得。

如何用pandas写一个excel文档的中间

我有一个Excel文档(格式和一切)头几行是标题和标题的东西。 在第11行,我从实际的数据,列标题和一切开始。 我正在计算数据放在这张表中。 我可以用header = [11]读取数据,它会读入正确的列名,索引和所有内容。 我可以填写我的数据,根据需要添加列等。 我试图保存文件时出现问题。 如果我只是用to_excel保存,它会保存,但没有任何标题的东西,或格式的原件。 如何将我的数据框插入现有的Excel文档中的某个位置? ETA: 有一件事,我忘了提到可能是重要的是,原来的Excel文件也有条件格式化通过数据部分。 我想保持这一点。 ETA2:为Josh的评论添加细节。 In [153]: xl.to_excel(writer, "Program Area Summary.xls", startrow=11) ————————————————————————— TypeError Traceback (most recent call last) <ipython-input-153-6541427c4a61> in <module>() —-> 1 xl.to_excel(writer, "Program Area Summary.xls", startrow=11) /Users/brianp/work/cyan/venv/lib/python2.7/site-packages/pandas/core/frame.pyc in to_excel(self, excel_writer, sheet_name, na_rep, float_format, columns, header, index, index_label, startrow, startcol, engine, merge_cells, encoding, inf_rep, […]

以dtype:object格式从pandas DataFrame获取列名称

对于上述链接中的内容我有类似的疑问。 而不是列表中的列名称,我想要的格式dtype:object的列名称。 例如, A B C D Name:x,dtype:object 我正在使用xlsx格式的Excel文件。 链接: 从pandasDataFrame列标题获取列表

IndexError:索引超出pandas的范围

我是pandas的初学者。 我想从excel文件中提取一列到python数组与pandas.I想运行整个列的循环。 我想打印该列中的第一个数据。这里是我的代码: import pandas as pd xl_workbook = pd.ExcelFile("Summary.xlsx") # Load the excel workbook df = xl_workbook.parse("Sheet1") # Parse the sheet into a dataframe df['transactionqtr'] = pd.to_datetime(df['transactionqtr'],errors ='coerce') df['commencementdate'] = pd.to_datetime(df['commencementdate'],errors ='coerce') df=df.dropna() df['transactionqtr'] = df['transactionqtr'].apply(lambdax:x.date().strftime('%m%d%y')) df['commencementdate'] = df['commencementdate'].apply(lambda x:x.date().strftime('%m%d%y')) arr1 = df['transactionqtr'][1][1] arr2 = df['commencementdate'][1][1] print(arr1) print(arr2) 但它显示IndexError:索引超出这一行的范围: arr1 = df['transactionqtr'][1][1] arr2 = […]

使用Python编写和修改现有的工作簿

我是Python新手,正在开发一个项目,我可以使用一些帮助。 所以我试图修改一个现有的Excel工作簿,以比较股票数据。 幸运的是,有一个在线程序检索到了我需要的所有数据,并且我已经成功地将数据提取出来,并将数据写入到一个新的excel文件中。 但是,目标是拉取数据并将其放入现有的excel文件中。 此外,我需要覆盖现有文件中的单元格值。 我相信xlwings能够做到这一点,我认为我的代码是在正确的轨道上,但我遇到了一个意想不到的错误。 我得到的错误是: com_error: (-2147023174, 'The RPC server is unavailable.', None, None) 我想知道是否有人知道为什么这个错误出现? 另外,有谁知道如何解决它? 它可以修复吗? 我的代码错了吗? 任何帮助或指导表示赞赏。 谢谢。 import good_morning as gm import pandas as pd import xlwings as xw #import income statement, balance sheet, and cash flow of AAPL fd = gm.FinancialsDownloader() fd_frames = fd.download('AAPL') #Creates a DataFrame for only […]

为什么这个差异函数将空单元看作是不同的?

def find_diffs(dataframe1, dataframe2): # Finds diff cells and stores to list x_ofs = dataframe1.columns.nlevels + 1 y_ofs = dataframe1.index.nlevels + 1 return([column_letter(x + x_ofs) + str(y + y_ofs) for y, x in zip(*np.where(dataframe1 != dataframe2))]) 我正在做一个Python脚本来区分2个Excel文件,并突出显示不同的单元格。 我正在使用一个pandas数据框。 这个函数的问题是它突出显示空单元,就好像它们不同。 我已经尝试了几件事情: (dataframe1 != dataframe2) and dataframe2 != '' (dataframe1 != dataframe2) and dataframe2 != 'nan' (dataframe1 != […]

如何将云file upload到Python

如果文件在本地驱动器中,我使用上传excel文件到pandasdataframe pd.ExcelFile如果我在Google云端硬盘或Microsoft One Drive中有Excel文件并且想要远程连接,我该怎么做?

如何基于python中的多个条件重复数据删除excel文件?

我有一个Excel文件( 附在这里 )。 我必须对两个或更多的重复ID进行重复数据删除。 扣除标准是基于多个因素。 ID types 时间 现在,我手动关注重复数据的过程是: 我按照升序排列id。 我为tid开头的每个id设置Attribute。 我把id的每一个[id]的xid列。 如果有重复的[id](如果两个连续[id]的date相同),我有时会留下一个空白。 对于每个重复的ID,我首先检查types,如果它是茶或咖啡。 如果一个人是咖啡,而另一个人是茶,我们总是喜欢咖啡,并将茶的属性设置为“否”。 我们可以得到两个以上的重复,所以我们必须为所有的茶都设置“否”。 如果我们得到两杯咖啡和一杯相同的茶,那么我们会根据时间保留最新的一杯。 如果重复的ID具有相同的types,那么我们将查看date,并将旧的date的属性设置为“否”。 如果date相同,那么我们将保留一个,并将其他属性设置为“否”。 身份证可以超过两个,但过程将是相同的。 我想要做的是: 将属性设置为以t开头的ID的tid。 将属性设置为具有[]的ID的xid。 如果两个或两个以上的ID根据特定的条件重复,请在属性中设置“否”: 咖啡应该比茶更受欢迎。 如果在重复的ID有茶和咖啡的types,每个重复的ID把每个茶放在属性中。 如果我们为每个重复ID都有一杯茶和两杯咖啡,那么我们将根据时间设置“否”,以确保剩余的咖啡(旧时间戳的ID应为No.) 如果我们对每个重复的ID都有相同的types,那么根据时间应该保持最新的ID,对于所有其他属性应该是No。 如果我们对所有重复的ID都有相同的date和相同的types,那么我们将随机设置除了一个以外的所有对象。 注意: 重复的一,二和三是我们很容易只是过滤出颜色,然后重复数据删除。它们基于Excel公式:(重复1 =(= IF(B2 = B3,1,“”),Duplicate2 =(= IF(C1 = 1,1,“”),Duplicate3 =(= IF(SUM(C2:D2)> = 1,1,“”)) 我们不能删除行。 我找不到任何代码,这是我在一个关键的自动化过程中的拦截器。 附件中属性栏中有No / xid / tid,供参考。 重要问题:使用python甚至可能或可行吗?

pandas读取混合date格式的excel

我正在尝试读取具有一列中的date值的Excel。 然而,它们有两种不同的格式: 03.07.2017 03.07.2017 30/06/2017 30/06/2017 30/06/2017 03.07.2017 03.07.2017 07和06是月份数字。 我inputexcel: denik=pd.read_excel('obchodnidenik.xlsx',converters={'Vstup – datum':str}) 但date转换不同。 我得到两个date格式切换date/月: '30/06/2017' '2017-03-07 00:00:00' 将所有值转换为正确的date时间的最佳方法是什么?

Pandas.read_excel:不支持的格式或损坏的文件:期望的BOFlogging

我正在尝试使用pandas.read_excel读取.xls文件。 它成功的大部分我的.xls文件,但后来有一些错误,出现以下错误信息: Unsupported format, or corrupt file: Expected BOF record; found '\x00\x05\x16\x07\x00\x02\x00\x00' 我一直在试图研究为什么这是发生在一些,但不是所有的文件。 xlrd版本是1.0.0。 我试图用xlrd.open_workbook手动读入,并得到相同的结果。 有谁知道这个BOFlogging是指什么文件types?