使用Python提取和整合Excel数据

我有一个有40张左右的Excel(.xlsx)文件。 每张表具有相同的结构,但包含不同的数据。 我想从每张纸上提取信息,并将其合并成一张,每张纸上的信息堆叠在一起。 我需要从每个提取的信息是两个:

  1. 工作表名称,始终在单元格E3中find
  2. 感兴趣的细胞区域,始终在72-85行和EV列之间find

此提取的信息将粘贴在合并工作表的第2-15行中,工作表名称放在一列中,旁边列中的所有其他信息将被粘贴。 然后,来自下一张提取的纸张的信息将被粘贴在16-29行等等中。

我是Python新手,正在运行Python 3.6.1。 我已经find了关于如何使用Python结合Excel文件的解决scheme,但没有提供从Excel工作表中的指定单元格中提取信息的解决scheme。

任何指导将是非常有益的。

更新1:我设法加载到一个数据框中我的一张纸使用的区域。

import pandas as pd cis = pd.ExcelFile(r"C:\mypath\myfile.xlsx") df1 = cis.parse('1. Consumers', skiprows=[0,1,2,3,4,5,6],parse_cols=[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]).drop([13]) 

但是,我仍然需要将表单名称添加到数据框中,然后在所有表单中运行相同的循环,然后将每个表单中的信息一起追加到一个数据框/文件中。

这应该足以让你开始:

 xls = pd.ExcelFile('excel_file_path.xls') for sheet in xls.sheet_names: df = pd.read_excel(file_name, sheetname=sheet) 

如果你已经非常熟悉excel,那么你可以快速地findpandas。 你应该绝对使用python使用jupyter笔记本。 Jupyter笔记本电脑将基本上创build一个像UI一样的电子表格,其中包含大量的function用于运行分析和操作数据。

参考文献:

使用PANDAS从同一工作簿中读取多个工作表

链接到jupyter笔记本文档

pandas教程

python实用的商业解决scheme