Tag: pandas

阅读擅长与Pythonpandas和孤立列/行来绘图

我正在使用Pythonpandasread_excel创build一个直方图或线图。 我想阅读整个文件。 这是一个大文件,我只想绘制一些特定的值。 我知道如何在read_excel中使用skiprows和parse_cols,但是如果我这样做,它不会读取我需要用于轴标签的文件的一部分。 我也不知道如何告诉它绘制我想要的X值和我想要的Y值。 下面是我拥有的: df=pd.read_excel('JanRain.xlsx',parse_cols="C:BD") years=df[0] precip=df[31:32] df.plot.bar() 我希望x轴是excel文件(年)的第一行,我希望条形图中的每个小节都是excel文件第31行的值。 我不知道如何隔离这个。 用pandas阅读会比较容易,然后用matplotlib绘图? 这里是一个excel文件的例子。 第一行是年,第二列是月份的日子(这个文件只有一个月:

在Python中追加多个Excel文件(xlsx)

import pandas as pd import os import glob all_data = pd.DataFrame() for f in glob.glob("output/test*.xlsx") df = pd.read_excel(f) all_data = all_data.append(df, ignore_index=True) 我想把多个xlsx文件放到一个xlsx中。 excel文件在输出/testing文件夹中。 列是一样的,但是我想要连接行。 上面的代码似乎不工作

pandas,Python的输出问题

开始代码 import pandas as pd df = pd.read_csv('C:/Users/lhicks/Documents/Corporate/test.csv', 'r') saved_column = df.FirstName saved_column2 = df.LastName saved_column3 = df.Email print saved_column print saved_column2 print saved_column3 Itemlist = [] Itemlist.append(saved_column) print Itemlist 代码结束 其目标是从指定的xls表单中select特定的列,从指定的列中获取所有行,然后将该数据输出。 目前的问题是数据被正确抓取,但在29-30行之后,它打印/存储“…”,然后跳转到行项目880s,并从那里结束。 另一个问题是,它也将这个值存储为值,由于没有提供完整的数据集而使其变得毫无价值。 最终的过程是将选定的列添加到一个新的xls表来清理旧的数据,然后将行添加到模板化文档以生成广告信。 第一个问题是如何填充所有的字段? 其次是什么是最好的办法呢? 如果可能,请提供其他链接,这对我来说是一个实际的学习经验。

删除pandas标签

我想通过python插入一些excel文件列中的数据。 我正在使用pandas在现有的Excel文件中插入和写入数据。 41 5 5 40 96 5 25 5 3 12 6 29 但它扰乱了整个结构并删除了一些数据。 41 0 5 5 0 10 96 5 1 20 5 3 2 30 6 29 3 20 4 15 5 30 6 45 我只想插入我的数据没有antdatalabels。 这是我的代码: import pandas as pd import win32com.client xlApp = win32com.client.Dispatch("Excel.Application") wkbk = xlApp.Workbooks.Open("D:\PycharmProjects\\untitled1\\arrays.xlsx") wksht = […]

pandas:如何指定起始行提取数据

我正在使用Pandas库和Python。 我有一个Excel文件,在Excel工作表顶部有一些标题信息,我不需要进行数据提取。 但是,标题信息可能需要更长的行,所以不可预测的时间可能会多长。 所以,我的数据提取应该从它所说的“ID”开始……对于这个特殊情况,它从第5行开始,但是它可能会改变。 图像显示在底部(我在第5行灰色显示敏感信息)。 我如何把这个逻辑(跳过标题和跳转到第5行)? 模式应该是,行标题从“ID,EMP_ID”开始。 with open('File.xls') as fp: skip = next(filter( lambda x: x.startswith('ID'), enumerate(fp) ))[0] df = pd.read_excel('File.xls', usercols=['ID', 'EMP_ID'], skiprows=skip) print df

drop_duplicates不工作在pandas?

我的代码的目的是导入2 Excel文件,比较它们,并打印出一个新的Excel文件的差异。 但是,在连接所有数据并使用drop_duplicates函数后,代码将被控制台接受。 但是,当打印到新的excel文件,重复仍然在一天之内。 我错过了什么吗? 是drop_duplicatesfunction的东西? 我的代码如下: import datetime import xlrd import pandas as pd #identify excel file paths filepath = r"excel filepath" filepath2 = r"excel filepath2" #read relevant columns from the excel files df1 = pd.read_excel(filepath, sheetname="Sheet1", parse_cols= "B, D, G, O") df2 = pd.read_excel(filepath2, sheetname="Sheet1", parse_cols= "B, D, F, J") #merge the columns […]

试图合并到一个数据框,但它不断创build新的列

我试图打开文件,并从多个电子表格派生2列(每行1),然后将它们合并到一个基础电子表格。所以,基础数据框(从电子表格中,我只需要3列)是这样的: Model | Roadmap | Family a 08/12/17 ROW b 08/14/17 MACRO c 08/15/17 CONN d 08/27/17 MACRO 来自多个电子表格的数据框(模型名称是电子表格名称,它们具有多个dataframe中的每个门的多个date),并具有以下格式: df1 (part1 – the dataframe derived from the spreadsheet with model a for gate 0 ): Model | Gate 0 a 02/01/18 df1 (Dataframe derived from the spreadsheet with model a for gate1): Model | Gate […]

从多个CSV文件中抓取一个特定的列并合并成一个

我只想抓取所有csv文件中第4列的数据,并将数据写入单个文件。 每个第4列都有一个唯一的标题名称,其中根文件夹的名称+ csv名称(如FolderA1 FolderA / 1.csv |INFO INFO INFO FolderA1 INFO Apple Apple Apple Orange Apple 2.csv |INFO INFO INFO FolderA2 INFO Apple Apple Apple Cracker Apple 3.csv |INFO INFO INFO FOLDERA3 INFO Apple Apple Apple Orange Apple 我怎么能得到只有第四列的数据过滤到一个.xlsx文件,并有下一个文件夹csv放在一个新的工作表,或从以前的文件夹csv的分开? concentrated.xlsx | FOLDERA1 FOLDERA2 FOLDERA3 FOLDERB1 FOLDERB2 FOLDERB3 ORANGE CRACKER ORANGE ORANGE CRACKER ORANGE

查找适合组合条件的所有行

我正在寻找最好的方法来做到这一点使用python \ excel \ sql \谷歌表 – 我需要find适合从n值列表k值的所有行。 例如我有这个表叫做动物: | Name | mammal | move | dive | +———-+——–+——–+——-+ | Giraffe | 1 | 1 | 0 | | Frog | 0 | 1 | 1 | | Dolphin | 1 | 1 | 1 | | Snail | 0 | 1 | 0 | […]

pandas:写一个数据透视表的所有列擅长

我想从pandas写一个数据透视表到一个Excel工作表,但我失去了一个单元级别的信息,我不能在浏览网页时find解决scheme。 下面是我在DataFrame中创build的数据透视表中的内容: T-Class <00.5 <01.0 ZIP 0 1375.0 762.0 1 2177.0 913.0 当我把它写到excel中时,我失去了与'ZIP'对应的空行的单元格'T-Class'这就是我使用xlsx编写器: ZIP <00.5 <01.0 0 1375 762 1 2177 913 写入excel的示例代码: writer = pd.ExcelWriter('data.xlsx', engine='xlsxwriter') df.to_excel(writer, sheet_name='pivottable',header = True,index=True) writer.save() 如何解决这个问题?