Tag: pandas

使用python从文件中删除string

我有csv文件 ID,"address","used_at","active_seconds","pageviews" 0a1d796327284ebb443f71d85cb37db9,"vk.com",2016-01-29 22:10:52,3804,115 0a1d796327284ebb443f71d85cb37db9,"2gis.ru",2016-01-29 22:48:52,214,24 0a1d796327284ebb443f71d85cb37db9,"yandex.ru",2016-01-29 22:14:30,4,2 0a1d796327284ebb443f71d85cb37db9,"worldoftanks.ru",2016-01-29 22:10:30,41,2 我需要删除包含一些单词的string。 有117个字。 我试试 for line in df: if 'yandex.ru' in line: df = df.replace(line, '') 但是对于117个单词来说,它的工作过于缓慢,而且之后我创build了pivot_table和单词,我尝试删除它,包含在列中。 aaa 10ruslake.ru youtube.ru 1tv.ru 24open.ru 0 0025977ab2998580d4559af34cc66a4e 0 0 34 43 1 00c651e018cbcc8fe7aa57492445c7a2 230 0 0 23 2 0120bc30e78ba5582617a9f3d6dfd8ca 12 0 0 0 3 01249e90ed8160ddae82d2190449b773 25 0 13 25 […]

从Excel导入多索引数据框

我试图从Excel导入到一个数据框,并保持多索引格式。 这个导入是好的: def import_cp(cp_sheet_name): xl = pd.ExcelFile('FileNameA.xlsx') df_first = xl.parse(cp_sheet_name) df_second = xl.parse(cp_sheet_name) # there's many more return df_first, df_second df_first = import_cp("Sheet 1") Excel格式如下: | | Alpha | Bravo | Charlie | |Position| Area | Gain | Area | Gain | Area | Gain | | 1 | 0.5 | 1.1 | 0.5 | […]

自动为每个文件夹创build数据框

每个文件夹在每年的每个月份都有一个csv(1.csv,2.csv,3.csv等),脚本为所有12个csv创build一个数据框,将第9列组合成一个名为concentrated.xlsx的xlsx表。 它的工作原理,但一次只能用于一个目录 files = glob['2014/*.csv'] sorted_files = natsorted(files) def read_9th(fn): return pd.read_csv(fn, usecols=[9], names=headers) big_df = pd.concat([read_9th(fn) for fn in sorted_files], axis=1) writer = pd.ExcelWriter('concentrated.xlsx', engine='openpyxl') big_df.to_excel(writer,'2014') writer.save() 是否有可能为每个目录自动创build一个数据框,而不必像这样为每个文件夹手动创build一个: files14 = glob['2014/*.csv'] files15 = glob['2015/*.csv'] sorted_files14 = natsorted(files14) sorted_files15 = natsorted(files15) def read_9th(fn): return pd.read_csv(fn, usecols=[9], names=headers) big_df = pd.concat([read_9th(fn) for fn in sorted_files14], axis=1) […]

使用pandas编写数据框来优化是不正确的

我有df day 2016-03-01 [00051f002f5a0c179d7ce191ca2c6401, 00102b98bd9… 2016-03-02 [00102b98bd9e71da3cf23fd1f599408d, 0012ea90a6d… 2016-03-03 [00051f002f5a0c179d7ce191ca2c6401, 00102b98bd9… 我想excel ,但事后我得到 day 2016-03-01 "['00051f002f5a0c179d7ce191ca2c6401' '00102b98bd9e71da3cf23fd1f599408d' '00108f5c5de701ac4386e717a4d07d5b' …, 'null' 'test017' 'undefined']" 2016-03-02 "['00102b98bd9e71da3cf23fd1f599408d' '0012ea90a6deb4eeb2924fb13e844136' '0019b08bc9bb8da21f3b8ecc945a67d3' …, 'test4' 'undefined' 'xx6da37101dffabe00e5d636c01719b6']" 2016-03-03 "['00051f002f5a0c179d7ce191ca2c6401' '00102b98bd9e71da3cf23fd1f599408d' '0012ea90a6deb4eeb2924fb13e844136' …, 'test017' 'undefined' 'xx6da37101dffabe00e5d636c01719b6']" 我用df.to_excel('name.xlsx') 。 我不明白,为什么不用逗号在第二栏写下清单。 我早些时候做到了,它按预期工作,但现在不行。

使用pandas python将sheet2中出现次数的关键字添加到sheet1中现有的excelfile中

我正在从网上抓取数据到Excel工作表使用pandas&能够将其保存到工作表1,现在我想获取特定列的数据到工作表2相同的Excel中,但只想把关键字的名称和次数该关键字出现在该列中 例如,我有一个标题作为汽车制造商在表一&列可以有多个不同的数据,但同样的汽车制造商像许多客户可以拥有奥迪,福特等,有6-7列在Sheet1和汽车制造商是其中之一。 我想获得像这样的数据 Manufacturer Count 1. Audi 100 2. Ford 30 3. Mercedes 25 4. xxxxx 9 在表2. Python代码示例将不胜感激!

Pythonpandas; “excel”列操作

我对python相当陌生。 search以前的问题,我找不到这个问题的答案。 对于一个项目,我必须分析大量的.txt文件,并始终对其进行相同的计算。 创build一个数据框pandas被使用,这很好地工作。 我想要在其他列上执行计算的额外列,例如c = a + b。 对于简单的计算,这工作得很好: In [41]: import pandas as pd In [42]: import numpy as np In [43]: df = pd.DataFrame(np.random.randn(10,2),columns=list('ab')) In [44]: df Out[45]: ab 0 0.163138 -1.261099 1 0.094772 -0.553349 2 -1.677519 -0.966680 3 1.732083 -1.118715 4 0.172240 -0.404648 5 0.270712 0.089841 6 0.589787 1.569790 7 0.822016 […]

更快的方式来通过Python在Excel中对单元格着色

我有3个数据框difference_df,validatedOutput和initial_output所有相同的维度。 另外difference_df被定义如下。 difference_df = validatedOutput == initial_output 我想将validatedOutput写入Excel文件,并将所有这些值以黄色进行着色,其中validatedOutput!= initial_output为了做到这一点,我使用了一个有条件的worksheet.write方法来根据差异__d的值对单元格着色。 以下是一个示例代码: workbook = writer.book worksheet = writer.sheets['Upload_Sheet'] yellow_format = workbook.add_format() yellow_format.set_pattern(1) # This is optional when using a solid fill. yellow_format.set_bg_color('#FFFF00') #orange format. This color is for header orange_format = workbook.add_format() orange_format.set_pattern(1) # This is optional when using a solid fill. orange_format.set_bg_color('#FFA500') for i in range(len(difference_df.columns)): […]

如何将空表添加到已经使用pandas创build的“excel”文件中

我有数据,我补充说,以Excel df.groupby('id').apply(lambda g: g.to_excel(g.name + '.xlsx', u'Смартфоны кратко')) 接下来,我添加数据sheet到这些文件 df_upd.groupby('id').apply(lambda x: add_xlsx_sheet(x, u'Смартфоны полно', path='{}.xlsx'.format(x.name))) 但是,我怎样才能将空的sheet3添加到这些文件? df_upd看起来像 date mail browser 3641 2016-06-14 15:13:36 yans.bouts@yandex.ru unknown 3660 2016-06-14 15:13:38 yans.bouts@yandex.ru unknown 3666 2016-06-14 15:13:39 yans.bouts@yandex.ru unknown 104298 2016-06-15 20:16:54 mgt198911@gmail.com unknown 104308 2016-06-15 20:16:54 mgt198911@gmail.com unknown 104367 2016-06-15 20:18:14 mgt198911@gmail.com unknown 104410 2016-06-15 20:18:17 mgt198911@gmail.com unknown […]

pandas:如何读取定义多列的excel文件作为多索引?

我有一个数据框,每行包含一个办公室位置对象与几个属性,如Global Region , Primary Function ,以及几个能耗数据作为数值遵循。 所有列的名称如下所示: ['Global Region', 'Primary Function', 'Subsidiaries', 'T&D Loss Rate Category', 'Type', 'Ref', 'Acquisition date', 'Disposal date', 'Corporate Admin Approver', 'Data Providers', 'Initiative administrator', 'Initiative approver', 'Initiative user', 'Invoice owner', 'Apr to Jun 2012', 'Jul to Sep 2012', 'Oct to Dec 2012', 'Jan to Mar 2013', 'Apr to Jun 2013', […]

使用Pandas Python无法访问excel文件

嗨,我想通过几个Excel文件运行我的Python代码,并从每个文件中获取数据并保存到数据框架。 这是我的代码 import os import glob import pandas as pd path =r'C:\Users\user1\Desktop\test' files = os.listdir(path) files_xls = [f for f in files if f[-3:] == 'xls'] df = pd.DataFrame() for f in files_xls: filename, ext = os.path.splitext(f) data = pd.read_excel(f, filename) df = df.append(data) a = df.describe() print (a) 我得到这个错误..我在工作的文件夹中的第一个文件是test.xls Traceback (most recent call last): […]