Tag: 数据科学

XLRD错误通过pandas: 当我尝试pd.read_excel（）时出现以下错误。这个错误是特定于我的电脑的：当我在不同的计算机上使用相同的文件运行脚本时，不会发生错误。 Python 3.6.1的Anaconda发行版。 pandas版本'0.20.3' ，Xlrd版本'1.1.0' ： XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b'\x08jstanle' XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b'\x08jstanle'是我的电脑名称，所以这可能是一个很大的暗示，我错过了。它试图打开.xls或.xlsx文件。我试过改变扩展到旧的和新版本的Excel没有任何改变。谢谢您的帮助！我会把下面的完整错误的位。 C:\Users\jstanley\Documents\—-\—\Python\load_data_original.py in load_(exp_id, file_path) 60 61 def load_(exp_id, file_path): —> 62 dict_sheets = pd.read_excel(file_path, header=None, sheetname=None) 63 new_dict_sheets = dict() 64 C:\Users\jstanley\Anaconda3\lib\site-packages\pandas\io\excel.py […]

在Python中追加多个Excel文件（xlsx）: import pandas as pd import os import glob all_data = pd.DataFrame() for f in glob.glob("output/test*.xlsx") df = pd.read_excel(f) all_data = all_data.append(df, ignore_index=True) 我想把多个xlsx文件放到一个xlsx中。 excel文件在输出/testing文件夹中。列是一样的，但是我想要连接行。上面的代码似乎不工作

简单/新手Excel转换pandas: 我有一个excel文档格式如此（列是数据集，行是单元格types，值是逗号分隔的基因名称）我想像这样重新格式化表格（列仍然是数据集，但行现在是基因名称，值是单元格types）：我正在pandas做这个。我将input作为数据框导入并称为“testing”。我的逻辑是循环遍历每一列，并在每一行循环，采取逗号描述值，拆分，然后使每个这些新的索引。这种方法显然效率很低，但我甚至无法按预期工作（尽pipe我没有收到错误，只是没有输出，编辑注： “空白”是一个新的名字，空白的Excel书）非工作尝试： for dataSet in test.columns: for index, rows in test.iterrows(): geneList = test[dataSet].loc[index].split(",") for gene in geneList: blank[dataSet].reindex([gene]) 所以有两个问题：1.我怎样才能得到这个例子工作？ 2.我怎样才能更有效地完成这个转变？谢谢！