Tag: python

使用分类数据计数创buildpandas数据框

我有一堆调查数据按照每个问题的答案数量(多选题)分解。 我有几个不同的课程,学期,部分等的每一个摘要之一。不幸的是,我所有的数据是在PDF打印输出给我,我不能得到数字数据。 在光明的一面,这意味着我有自由统治格式化我的数据文件,但我需要,以便我可以导入到pandas。 如何将数据导入到pandas中,最好不需要逐行复制(每个条目由我的摘要表示)。 数据 我的调查包括几个select题。 对于每个问题,我有多less个答复者select了每个选项。 就像是: Course Number: 100 Semester: Spring Section: 01 Question 1 ———- Option A: 27 Option B: 30 Option C: 0 Option D: 2 Question 2 ———- Option X: 20 Option Y: 10 所以基本上我有.value_counts()结果,如果我的数据已经在pandas。 请注意,问题并不总是具有相同数量的选项(类别),并不总是具有相同数量的答复者。 我将有多个课程编号,学期和部分类似的结果。 在我的实际数据中,类别A , B , C等仅仅是占位符,用于表示每个响应类别的标签。 另外,我不得不手动input所有的东西,所以我不担心读取上面的具体文件格式,它只是代表我在我面前的实际打印输出。 目标 我想通过告诉Pandas每个问题的每个回答类别有多less来重新创buildPandas中的回答数据。 基本上我想要一个Excel文件或CSV,看起来像上面的响应数据,和一个pandasDataFrame,看起来像: Course Number Semester Section […]

IOError:在Mac上没有这样的文件或目录

我试图打开一个存在的文件,但我不断收到错误信息: No such file or directory on Mac 我已经确定它是在Python代码相同的目录。 我也尝试更改Excel文档的名称,以及文档是.xls和.xlsx但它没有奏效。 以下是我尝试过的几个版本,但到目前为止他们都给了我相同的结果。 import os.path book = open(os.path.expanduser("~/Desktop/Crimes.xlsx")) 要么 import xlrd import os.path book = xlrd.open_workbook(os.path.join("/Users/caitlinwesterfield",'Crime.xls') 要么 import xlrd book = xlrd.open_workbook('Crime.xls') 要么 import xlrd book = open('/Users/caitlinwesterfield/Desktop/Crime.xls', "r") 要么 import xlrd book = open("~/Crime.xls", "r") 要么 import xlrd book = open(os.path.expanduser(r"~/Desktop/Crime.xls")) 要么 import xlrd book = […]

自动将Python字典中的数据写入非常特定的Excel格式

我有一些数据存储在.csv文件中,自动读入嵌套的Python字典。 我已经拥有的代码将读取任何格式正确的文件,以便字典的forms是dict[experiment][variable]=value 。 我的目标是将数据重写成一个非常具体的格式,即: Name Experiment1 Notes Componentnotes Components time LR1R2 LR1R2_I R1 R1_I R2 R2_I Values 0 1.69127 16.9127 271.087 2710.87 127.087 1270.87 20 62.0374 356.28 146.54 2107.15 2.54022 667.147 40 50.0965 451.149 146.061 1793.54 2.06075 353.535 请注意,这是从Excel中粘贴的,因此Experiment1在单元格B2中。 我的代码到目前为止: 导入pandas导入openpyxl def write_experiment_files_template(self): alphabet=list(string.ascii_lowercase)#get alphabet for looping over later for i in self.child_experiments_dir: #loop over […]

pandas错误:用MultiIndex编写Excel文件尚未实现

我有一个pandas data frame ,我创build如下: stats_matrix= #A list containing my data myindex=['','event 1','event 2','event 3','event 4','event 5','event 6','event 7','event 8','event 9','event 10'] #List used for indexing rows column_names=['Failed 1st Stage','% Failed 1st Stage','Active 1st Stage','% Active 1st Stage','Failed 2nd Stage','% Failed 2nd Stage','Failed 1st & 2nd','% Failed 1st & 2nd','Active 2nd Stage','% Active 2nd Stage','Total failed','% […]

pandasExcel Prasing,删除三振

我有一个.xlsx excel工作簿,其中某些单元格的数据包含一个删除。 在阅读excel表格时,我想删除所有单元格或包含任何删除的整个行/列。 目前在大pandas的情况下,所有打击的格式都是在用大pandas进行加载的时候被删除的,而没有办法区分那些没有popup的数据或没有的数据。

使用XLRD / XLWT查找行中的下一个空单元

我有一个工作簿,每天更新一些数据。 我使用一个机器人来收集数据,现在我需要每天把它转储到工作簿中。 我需要知道的是如何find我可以放置数据的下一个可用单元。 我不想覆盖旧的数据。 例如,我有: ABC 1 xxx 2 xxx 3 我需要将数据input第3行。XLWT的函数需要一个行号和一个列字母:write(r,c,,) 所以我需要设置r&c到下一个可用的单元格。 有谁会碰巧知道一个很好的方法来做到这一点?

使用matplotlib绘制2级xtick标签,如excel

现在我有一个这样的数据框: | category1 | 142 | | | | 166 | | | 186 | | | | |———–|——|——-|——|——|——|——|——|——|——|——|——| | category2 | 626 | 346 | 211 | 200 | 255 | 250 | 245 | 370 | 340 | 265 | 260 | | y | 0.26 | -0.54 | 2.07 | 3.15 | […]

使用CSV Python将处理过的数据写入excel

我正在尝试使用CSV将一些数据写入Excel电子表格。 我正在写一个graphics取景器,读取来自fasta的input和输出到excel。 但是我很难用正确的格式写数据。 我在Excel中的预期结果如下所示。 SeqName M1 Hits M2 Hits Seq1 MN[AZ] 3 V[AZ]R[ML] 2 Seq2 MN[AZ] 0 V[AZ]R[ML] 5 Seq3 MN[AZ] 1 V[AZ]R[ML] 0 我已经产生了正确的结果,但我不知道如何把它们放在正确的格式,如上所述。 这是迄今为止的代码。 import re from Bio import SeqIO import csv import collections def SearchMotif(f1, motif, f2="motifs.xls"): with open(f1, 'r') as fin, open(f2,'wb') as fout: # This makes SeqName static and everything […]

在目录中search多个Excel文件types

我试图创build一个脚本,将search单个目录中的Excel文件。 该脚本将search文件名中的子string,然后将包含该子string的文件的名称logging到新的excel文件中。 我是Python的新手,我的编程技能仍然不够好,所以我正在寻找一个起点。 以下是我find并尝试修改的一些代码,但它似乎不适用于我。 这是回溯: 回溯(最近一次通话最后): 在文件“C:\ Python27 \ lib \ py_compile.py”中,第106行用open(file,'U')作为f: IOError:[Errno 22] invalid mode('U')or filename:'' import os, fnmatch start_dir = os.getenv('C:\Test') def excelfiles(pattern): file_list = [] for root, files in os.walk(start_dir): for filename in files: if fnmatch.fnmatch(filename.lower(), pattern): if filename.endswith(".xls") or filename.endswith(".xlsx") or filename.endswith(".xlsm"): file_list.append(os.path.join(root, filename)) return file_list file_list = excelfiles('*SP*') for i […]

Python xlrd返回一个无属性错误

我试图得到列表的列表与我的xlsx工作表中的某些单元格的值,但是当我运行它时,它说,没有称为值的属性。 当我运行没有“.value”方法的代码时,它将返回格式化我想要的列表的列表,但它们都具有值None。 import xlrd gmails = "/home/ro/Downloads/100 Gmail (1).xlsx" def open_worksheet(file_path): wb = xlrd.open_workbook(file_path) ws = wb.sheet_by_index(0) return ws def get_cell(worksheet, row, col): cell = worksheet.cell(row, col) def get_email_list(worksheet): email_list = [] first_gmail = [1, 3] first_password = [1, 3] first_recovery_gmail = [1, 5] for row in range(1, worksheet.nrows): gmail = get_cell(worksheet, first_gmail[0], first_gmail[1]) password […]