Tag: pandas

合并大pandas列(一对多)

我是新的Python大pandas,我想通过一个共同的ID结合几个Excel工作表。 此外,这是一个一对多的关系。 这里是input: DF1 <b>ID Name</b><br/> 3763058 Andi<br/> 3763077 Mark 和 DF2: <b>ID Tag</b><br/> 3763058 item1 <br/> 3763058 item2<br/> 3763058 item3<br/> 3763077 item_4<br/> 3763077 item_5<br/> 3763077 item_6 现在,我想将两个pandasdataframedf1和df2合并到以下输出中(列标记合并在每个ID的单个列中): <b>ID Name Tag</b><br/> 3763058 Andi item1, item2, item3<br/> 3763077 Mark item_4, item_5, item_6<br/> 有人可以帮我吗? 干杯,安迪

从xlsx读取数据到Pandas数据框

情景:我把这个小小的Frankenstein代码(来自SO用户的一些很棒的帮助)放在一起,从excel文件中获取数据并放入pandas数据框中。 我正在尝试做什么:我试图从可能包含一个或多个数据工作表的文件中获取数据。 之后,我打算相应地组织数据框。 例如: date1 identifier 1 bid ask date1 identifier 2 bid ask date1 identifier 3 bid ask date2 identifier 1 bid ask date2 identifier 3 bid ask date3 identifier 4 bid ask date3 identifier 5 bid ask Obs1:每个文件可以具有“Bid”,“Ask”或两者的值,每个文件都在单独的工作表中。 Obs2:标识符和date在文件间可能相同也可能不同。 我到目前为止所做的:我现在的代码读取文件和每个工作表。 如果符合条件,则附加到特定的dataframe。 然后修复列标题。 问题:当我的代码运行时,出于某种原因,会产生两个空的数据框。 问题:如何解释不同的工作表并将相应的值(以上结构)输出到数据框? 当前代码: import pandas as pd import numpy as np […]

在python中alignment数据

我有Excel电子表格,我想连接成一个pandas数据框,但input到电子表格中的表格范围是不规则的。 input的数据可能开始于每个电子表格中的C5,D8,G4等。 下面的例子显示它从B5开始。 我不知道每个电子表格中的表格将从哪里开始,或者指定每个工作簿中的哪个表格,因为有几百个表格。 我打算将所有表单编译成一个数据框,然后提取我需要的数据行。 数据大部分是相同的格式,但我也需要记住电子表格中的任何注释。 如果每个电子表格中的数据alignment在一起,那么会更简单,然后我可以使用索引标签提取所需的行。 是否有办法将每个电子表格中的所有数据alignment,以便在每个电子表格的第一列中开始? 这是我到目前为止: import os import pandas as pd import glob import numpy as np path =r'dir' allFiles = glob.glob(path + "/*.xlsx") frame = pd.DataFrame() list_ = [] for file_ in allFiles: df = pd.read_excel(file_,index_col=None, header=0) list_.append(df) frame = pd.concat(list_) print(list_)

使用颜色pd.ExcelWriter格式化excel文件

我有一个dataframeDF df Out[15]: Subject ID StartDate 2017-11-06 ID1 2017-11-07 ID1 2017-11-08 ID2 2017-11-10 ID3 我把它保存在一个excel文件中 writer = pd.ExcelWriter(os.path.join(folders_path,'summary.xls')) df.to_excel(writer,'Sheet1') writer.save() 不过,我想根据Subject ID格式化行的颜色,即我想为每个ID不同的颜色

在导出为ex​​cel的pandas数据框中给予标题

我有6个数据框(名为a到f ),我想导入到ms.excel,为了使这更容易阅读我想给每个数据框的标签,我尝试使用单元格符号 ,但我得到错误消息,这是我的代码: writer = pd.ExcelWriter('Summary Data Request 8 weeks.xlsx') a.to_excel(writer, sheet_name='Sheet1', startrow=1) b.to_excel(writer, sheet_name='Sheet1', startcol=7) c.to_excel(writer, sheet_name='Sheet1', startrow=11) d.to_excel(writer, sheet_name='Sheet1', startrow=11, startcol=6) e.to_excel(writer, sheet_name='Sheet1', startrow=21) f.to_excel(writer, sheet_name='Sheet1', startrow=21, startcol=6) writer.write('A1', 'Retail Kelontong') writer.write('G1', 'Pulsa') writer.write('A11', 'Minimarket') writer.write('G11', 'Retail dengan barcode') writer.write('A21', 'Retail dengan barcode 2') writer.write('G21', 'Food and Beverage') writer.save() 这里是错误信息: AttributeError Traceback (most […]

在Pythonpandas中用read_excel读空单元

我正在使用Pythonpandasread_excel 。 这是我正在阅读的专栏。 我的问题是,read_excel不计算空细胞作为细胞。 当我使用df2=df1.iloc[0:30] ,我希望它包含这些空单元格,这样最后两个数据项不会包含在我的数据框中(这是因为这些单元格在整个月份每天都会被填充,细胞将存在,直到一个月的最后一天)。 如何确保pandasread_excel在其数据框中包含空白单元格?

从pandas获得csv输出后,Excel函数无法正常工作

最近,我在Microsoft Excel中遇到了一件非常奇怪的事情。 我在Python 3.6中创build了一个数据框,并填充了一些整数,然后我使用“to_csv”函数来获取csv输出。 我用Microsoft Excel打开文件进行基本的统计分析和绘制一些图表,但是; Microsoft Excel不会将数字中的数字识别为数字。 例如,当我添加两个单元格时,无论数字是多less,结果都是零。 这是我的Excel环境中的截图: 在黄色单元格(C101)中,我试图获得列C中的单元格的总和,但正如我所解释的总和函数(和所有其他function,如计数或最大)不能正常工作。 我也不得不说,所有的单元格都有“Number”数据types。 我很困惑,任何build议都会有所帮助。

增加+2pandas,超越

我有一个数据框的列表。 有没有办法每个循环增加+2的增量每次? 所以我的数据框在Excel中看起来像: while True: writer = pd.ExcelWriter("C:\\xzx.xlsx") worksheet = writer.sheets['Sheet1'] df3.to_excel(writer, startrow=0, startcol=+2, index = False) dataframe: AB 2000-01-01 0.469112 -0.282863 2000-01-02 1.212112 -0.173215 2000-01-03 -0.861849 -2.104569 2000-01-04 0.721555 -0.706771 2000-01-05 -0.424972 0.567020 2000-01-06 -0.673690 0.113648 2000-01-07 0.404705 0.577046 2000-01-08 -0.370647 -1.157892 理想: ABCDE 0.469112 -0.282863 0.469112 -0.282863 1.212112 -0.173215 1.212112 -0.173215 -0.861849 -2.104569 […]

pandas:使用分组的数据框to_excel的麻烦

我正在尝试使用to_excel函数将使用groupby创build的数据框保存到excel文件中。 当我在ipython笔记本中预览数据时,它会根据需要显示。 groupby代码很简单: grouped = teach_freq.groupby(['Focal','follow','Activity']) grouped.head() <class 'pandas.core.frame.DataFrame'> MultiIndex: 1797 entries, (10107.0, 192.0, ff, 25220.0) to (53704.0, 142.0, ss.rn, 18823.0) Data columns (total 16 columns): Epoch 1790 non-null values follow 1797 non-null values T_Opp 1797 non-null values T_Dir 1797 non-null values T_Enh 1797 non-null values T_SocTol 1797 non-null values …等等dtypes:float64(3),int64(6),object(7) to_excel代码也很简单: grouped.to_excel('filename.xls', sheet_name='sheet1') 当我运行这个最后的代码时,只有几行数据会将它存储到excel文件中(大约1800行数据中有大约3个),我在ipython笔记本中预览了另一部分数据,如下所示: […]

为什么将数据导出为.xlsx比将.xls或.csv导出要慢得多?

我有一个数据框,我正在导出到Excel,人们希望它在.xlsx。 我使用to_excel ,但是当我将扩展名从.xls更改为.xlsx时,导出步骤大约需要9秒,而不是1秒。 导出到.csv甚至更快,我相信这是由于它只是一个特殊格式的文本文件。 也许.xlsx文件只是添加了更多的function,所以需要更长的时间写入,但我希望有一些事情可以做,以防止这种情况。