Tag: pandas

在Excel表格中循环表格

我试图以特定的方式遍历一组表格,但是我被卡住了。 我的表是multiindex,看起来像这样: #read excel df = pd.read_excel(data_file, header=[0,1], index_col=[0,1]) T Gender Age Total Male Female 16-24 25-34 35-44 45-54 55-75 Q1. Are you? Yes 17.5 26.8 23.4 13.7 20.7 100 – 17.6 No 17.5 26.8 23.4 13.7 20.7 100 11.5 22.6 Don't know 17.5 26.8 23.4 13.7 20.7 100 – – Q2. Are you? Yes […]

计算与使用pandas的专栏

我有excel ID digit count 03a63f1c5a89fb89fcc4d7cf60e2e6b1 131826356 1 1ea192ddd5c042d71910de18595553a5 100897602 5 1ea192ddd5c042d71910de18595553a5 123581809 7 1ea192ddd5c042d71910de18595553a5 137961455 1 1ea192ddd5c042d71910de18595553a5 163217715 4 1ea192ddd5c042d71910de18595553a5 164622895 3 206dcb0a5bfbdbedb77b6f25bbb4b54b 139156767 12 21a27ac254d8b2fe0a52d052bbbd14a5 267483648 1 我需要将所有的sum都count在每个ID ,然后将每个count除以这个值。 我试试 df = pd.read_excel("count_video.xlsx") group = df.groupby('ID')['count'].sum() 但是我不知道,接下来怎么用呢?

通过使用pandas集团

我有数据 ID_panel id_vk Profile Audio Video 03a63f1c5a89fb89fcc4d7cf60e2e6b1 100334438 1 1ea192ddd5c042d71910de18595553a5 100897602 0.25 1ea192ddd5c042d71910de18595553a5 123581809 0.35 0038ccb3a47d51a68de51ffeb9607906 35226722 0.058823529 03a63f1c5a89fb89fcc4d7cf60e2e6b1 100334438 0.003552398 03a63f1c5a89fb89fcc4d7cf60e2e6b1 117790896 0.011545293 18441890537f6d9a0559a5f44c28ff67 39356974 0.974025974 1ea192ddd5c042d71910de18595553a5 123581809 0.15 欲望输出: ID_panel id_vk Profile Audio Video 03a63f1c5a89fb89fcc4d7cf60e2e6b1 100334438 0.003552398 1 117790896 0.011545293 1ea192ddd5c042d71910de18595553a5 100897602 0.25 123581809 0.15 0.35 0038ccb3a47d51a68de51ffeb9607906 35226722 0.058823529 18441890537f6d9a0559a5f44c28ff67 39356974 0.974025974 我尝试使用 […]

在Pandas中创build多层次数据透视表

1.背景 我现在使用的.xls文件中包含了多个不同地点的多种污染物参数。 我在下面创build了一个简化的数据框: 一些声明: 列网站包含监视网站属性。 在这种情况下,站点S1 , S2是唯一的两个位置。 列时间包含不同站点的监视时间段。 物种 A和B代表已经检测到两种化学污染物。 浓度是每个物种的一个关键参数(A&B)代表浓度。 请注意,物种A的浓度应平行测量两次。 P和Q是两个不同的分析实验。 由于物种A有两个样本,分别有P1 , P2 , P3和Q1 , Q2作为分析结果。 物种B只被P分析。 所以, P1 , P2 , P3是唯一的参数。 读了一些关于使用pandas操作pivot_table的post之后,我想尝试一下。 我的目标 我在Excel中手动呈现了我的目标文件结构,如下所示: 我的工作 df = pd.ExcelFile("./test_file.xls") df = df.parse("Sheet1") pd.pivot_table(df,index = ["Site","Time","Species"]) 这是结果: 更新 我想弄清楚的是在它们下面创build两列P & Q和sub_columns。 我在这里重新上传我的testing文件。 任何有兴趣的人都可以下载它。 P和Qtesting分别针对物种A的每个样品。 Conctesting是为他们俩。 任何意见将不胜感激!

将数据从df写入已有其他工作表的excel工作簿

我想从数据框写入数据到Excel工作簿。 该工作簿具有其他工作表与现有的数据。 我想从数据框中写入数据到一个新的工作表 当我使用 df.to_excel('name.xlsx', 'Sheet3') 来自其他清单(工作表)的数据将被删除。 如何将数据写入现有工作簿中的其他工作表而不丢失现有数据?

使用pandas添加一些表名到excel

我有数据 date mail request 2016-06-17 13:27:49 yans.bouts@yandex.ru GET HTTP/1.1 2016-06-17 13:30:46 yans.bouts@yandex.ru GET HTTP/1.1 2016-06-17 12:05:04 titovtanya@yandex.ru GET HTTP/1.1 2016-06-17 12:05:28 titovtanya@yandex.ru GET HTTP/1.1 2016-06-17 12:18:36 titovtanya@yandex.ru GET HTTP/1.1 我需要用mail每个名字创build空的excel文件,并添加到这个sheet1 , sheet2 , sheet3 , sheet4 。 我用 df.groupby('mail').apply(lambda g: g.to_excel(g.name + '.xlsx', u'sheet1')) 但它创build的数据文件(我需要在空),只有sheet1我应该做什么?

如何使用xlwings或pandas得到所有的非空单元格?

最近我需要编写一个python脚本来查找在excel工作表中出现特定string的次数。 我注意到我们可以使用*xlwings.Range('A1').table.formula*来实现这个任务,只有当单元格是连续的。 如果细胞不连续我怎么能做到这一点?

读取在pandas中保存为CSV文件的Excel数据集

有一个非常类似的问题,我要在这里张贴: 使用pandas在Python中读取Excel文件 除了当我试图使用在这里张贴的解决scheme,我反驳 AttributeError:'DataFrame'对象没有属性'read' 我想要做的就是把这张excel表格转换成pandas格式,这样我就可以对表格的一些主题进行数据分析了。 我对这个超级新,所以任何信息,build议,反馈或任何人可以折腾我的方式将不胜感激。 下面是我的代码: import pandas file = pandas.read_csv('FILENAME.csv', 'rb') # reads specified file name from my computer in Pandas format print file.read() 顺便说一句,我也尝试运行相同的查询与文件= pandas.read_excel('FILENAME.csv','rb')返回相同的错误。 最后,当我尝试将文件重新保存为.xlsx时,我无法打开文档。 干杯!

使用pandas生成excel xlsx文件时的索引0

df1=pd.read_csv('out.csv') df2=pd.read_excel('somefile.xls') #put columns from df1 to df2 df2['eer']=df1['eer'] df2['wer']=df1['wer'] df2['zer']=df1['zer'] df2['qer']=df1['qer'] df2['der']=df1['der'] #make a new file with somefile.xls columns + the ones above newfile = input("Enter a name for the combined file: ") writer = pd.ExcelWriter(newfile) df2.to_excel(writer) writer.save() 我在我的程序的末尾使用pythonpandas模块的这部分代码,所以每当我生成所需的所有列的新文件,列A有一些索引从0到最后一行,而不是'名字“这是什么somefile的列A是。 'Name'现在是B列 喜欢这个 0 1 2 3 4 5 6 7 8 9

在python中的csv转换一个假设的excel文件

我有一个问题,试图使用代码转换成CSV文件。 我使用下面的代码作为开始 directory = 'C:\OI Data' filename = 'OpenInterest08-24-16' data_xls = pd.read_excel(os.path.join(directory,filename), 'Sheet1', index_col=None) data_xls.to_csv(os.path.join(directory,filename +'.csv'), encoding='utf-8') 我得到以下错误: 回溯(最近一次通话最后): 文件“”,第1行, 运行文件execfile(filename,namespace)中的文件“C:\ Anaconda2 \ lib \ site-packages \ spyderlib \ widgets \ externalshell \ sitecustomize.py”,第714行, 文件“C:\ Anaconda2 \ lib \ site-packages \ spyderlib \ widgets \ externalshell \ sitecustomize.py”,第74行,在execfile exec(compile(scripttext,filename,'e​​xec'),glob,loc) 在data_xls = pd.read_excel(os.path.join(directory,filename)'Sheet1',index_col = None)文件“C:/ Users […]