Tag: 数据科学

XLRD错误通过pandas

当我尝试pd.read_excel()时出现以下错误。 这个错误是特定于我的电脑的:当我在不同的计算机上使用相同的文件运行脚本时,不会发生错误。 Python 3.6.1的Anaconda发行版。 pandas版本'0.20.3' ,Xlrd版本'1.1.0' : XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b'\x08jstanle' XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b'\x08jstanle'是我的电脑名称,所以这可能是一个很大的暗示,我错过了。 它试图打开.xls或.xlsx文件。 我试过改变扩展到旧的和新版本的Excel没有任何改变。 谢谢您的帮助! 我会把下面的完整错误的位。 C:\Users\jstanley\Documents\—-\—\Python\load_data_original.py in load_(exp_id, file_path) 60 61 def load_(exp_id, file_path): —> 62 dict_sheets = pd.read_excel(file_path, header=None, sheetname=None) 63 new_dict_sheets = dict() 64 C:\Users\jstanley\Anaconda3\lib\site-packages\pandas\io\excel.py […]

在Python中追加多个Excel文件(xlsx)

import pandas as pd import os import glob all_data = pd.DataFrame() for f in glob.glob("output/test*.xlsx") df = pd.read_excel(f) all_data = all_data.append(df, ignore_index=True) 我想把多个xlsx文件放到一个xlsx中。 excel文件在输出/testing文件夹中。 列是一样的,但是我想要连接行。 上面的代码似乎不工作

简单/新手Excel转换pandas

我有一个excel文档格式如此(列是数据集,行是单元格types,值是逗号分隔的基因名称) 我想像这样重新格式化表格(列仍然是数据集,但行现在是基因名称,值是单元格types): 我正在pandas做这个。 我将input作为数据框导入并称为“testing”。 我的逻辑是循环遍历每一列,并在每一行循环,采取逗号描述值,拆分,然后使每个这些新的索引。 这种方法显然效率很低,但我甚至无法按预期工作(尽pipe我没有收到错误,只是没有输出, 编辑注: “空白”是一个新的名字,空白的Excel书) 非工作尝试: for dataSet in test.columns: for index, rows in test.iterrows(): geneList = test[dataSet].loc[index].split(",") for gene in geneList: blank[dataSet].reindex([gene]) 所以有两个问题:1.我怎样才能得到这个例子工作? 2.我怎样才能更有效地完成这个转变? 谢谢!