来自pandas.ExcelFile导入的Pandas数据框中未alignment的列

我有一个包含一些交易数据的Excel电子表格。 我试图将其导入pandas数据框:

>>> import pandas as pd >>> xlsfile = pd.ExcelFile("/data/transactions.xls") >>> data = xlsfile.parse('data') 

…乍一看,它看起来不错。 然后我注意到一列(即“运送到区域”)应该包含四个可能的值之一:

在这里输入图像说明

经常有价值观是没有道理的。 尽pipe这些价值大部分都是以正确的方式出现的,但实际情况并非如此:

 >>> len(data['Ship To Region'].unique()) 5007 

来自相邻单元格的值以某种方式爬入错误的列中。

 >>> for value in data['Ship To Region'].unique(): ... print value ... Americas EMEA APAC nan Ship To Name Justin Bieber Marie Curie Industries BKS Iyengar [...etc...] 

你能看到我做错了吗?

这当然很奇怪。 你使用的是什么版本的pandas?

顺便说一句,你可以使用pd.read_excel(),并在一行中完成。