Tag: pandas

pandas:根据另一列中的值(x)将x个列添加到一起

testing数据集: df = pd.DataFrame({'A':[2,2,2,], 'B':[2,2,2], 'C':[2,2,2], 'Fields':[3,2,1]}) 我需要根据“字段”列的每一行中的值将“A”,“B”和“C”的值相加。 如果字段数= 3,则返回C.如果字段数为2,则只添加B,C。如果字段数为1,则添加A,B和C.输出I我期待的是: df_correct = pd.DataFrame({'A':[2,2,2,], 'B':[2,2,2], 'C':[2,2,2], 'Fields':[3,2,1],'NewColumn':[2,4,6]) 我想避免如果其他语句,而是通过索引列做些事情。 Excel解决scheme已经工作(每行,假设列是AD):E1 = SUM(OFFSET(A1,0,(D1-1)):C1)

将Excel的DateTime格式转换为DateTime Pandas

从用Microsoft SQL Server执行的查询中,我已经导出了一个我想用pandas加载到数据框中的csv文件。 这里我有一些包含date时间值的列。 在Microsoft SQL中,通常会显示date时间值。 但是,当导出到CSV,date时间值更改为我认为一个浮动。 这是一个示例: DateTime 1 Datetime 2 20/04/16 07:15 13:00.0 15:00.0 13:00.0 15:00.0 13:00.0 15:00.0 13:00.0 15:00.0 13:00.0 15:00.0 13:00.0 15:00.0 13:00.0 15:00.0 13:00.0 15:00.0 13:00.0 在第一行中,您会看到整数后面的date时间值。 当我在excel中input单元格时,它会显示出来,然后按回车键…当我用read_csv将它载入pandas时,15:00.0被加载,而不是20/04/16 07:15。 我试图使用python的xrld包来更改date时间的列,不幸的是它没有预期的输出。 这是什么样的格式是正确的,是否有可能编写代码来自动化date时间列的转换?

pandas阅读Excel:如何按列和行号访问给定的单元格

使用Pandas模块和read_excel函数,我可以给我从excel文件中读取一个数字作为列标题,而不是使用g_int_c=str(df1['Unnamed: 1'][6])参考excel文件中的一段数据,我可以用g_int_c=str(df1[1][6]) ? 示例代码如下: import pandas as pd with pd.ExcelFile(inputFile, sheetname=['pnl1 Data ','pnl2 Data','pnl3 Data','pnl4 Data']) as xlsx: df1 = pd.read_excel(xlsx, 'pnl1 Data ',skiprows=9, parse_cols="B:H", keep_default_na='FALSE', na_values=['NULL'])#assign column headers df2 = pd.read_excel(xlsx, 'pnl2 Data', skiprows=9, parse_cols="B:H", keep_default_na='FALSE', na_values=['NULL']) df3 = pd.read_excel(xlsx, 'pnl3 Data', skiprows=9, parse_cols="B:H", keep_default_na='FALSE', na_values=['NULL']) df4 = pd.read_excel(xlsx, 'pnl4 Data', skiprows=9, parse_cols="B:H", keep_default_na='FALSE', […]

使用Excel或Python在重复序列中基于缺less数字插入行

我有以下格式的csv文件(实际上,重复数大于4): Number, Time, Speed 1, 12, 5.8 2, 11, 6.2 3, 9, 7.0 4, 3, 11.9 1, 6, 9.5 3, 7.5, 8.2 4, 4.2, 8.2 2, 2.3, 8.1 4, 4.6, 9.2 我想输出看起来像这样: Number, Time, Speed 1, 12, 5.8 2, 11, 6.2 3, 9, 7.0 4, 3, 11.9 1, 6, 9.5 2, 0, 0 3, 7.5, […]

使用pythonpandas将字典中的条目sorting为excel

我正在使用pandas将数据写入Excel文件。 我想转储数据,因为它是在一张纸和第二张纸我想要以sorting的方式。 图层是关键,权重是字典中的值。 例如sheet1应该有如下的表(未分类): 而sheet2应该有sorting的条目: 我已经尝试OrderedDict df1 = pd.DataFrame.from_dict(dict_weights, orient="index") df1.columns = ['weights'] df2 = pd.DataFrame.from_dict(collections.OrderedDict(dict_weights), orient="index") df2.columns = ['weights'] df1.to_excel(writer, sheet_name='sheet1') df2.to_excel(writer, sheet_name='sheet2', startcol=3) writer = pd.ExcelWriter(filename, engine='xlsxwriter') writer.save() 问题是这样做sorting,但在两张表。 我只是想要在sheet2和sheet1中sorting数据,它应该保持未sorting。 预期产出: 工作表Sheet1 Layer; weights T1_max_pool; 4 activation_9; 1 sum_9; 3 Merge_2; 4 activation_2; 1 T2_max_pool; 4 Sheet2中 Layer; weights activation_2; 1 activation_9; 1 […]

如何根据列B和C中的值删除Excel中的行

我在下面的电子表格中有15,000行,我需要保留行: 其中status> 0,lastvalidationattemptdistance <50

按列值分组数据

嗨我有数据(在Excel和文本文件以及)像 C1 C2 C3 1 pa 1 qb 2 rc 2 sd 我想要的输出如下所示: C1 C2 C3 1 p,qa,b 2 r,sc,d 如何根据列值对数据进行分组。 我对任何东西都是开放的:任何库,任何语言,任何工具就像Python,bash甚至是excel? 我想我们可以在Python中使用pandas来做到这一点,但是我之前没有使用它。 任何导致赞赏。

pandas:用列中的最后一个非NaN值replaceNaN

我有一个excel文件,列出了篮球队和每个球队的球员。 新队伍的第一排列出队列0中的球队名称和队列1中的队员。下一列在队伍中第1列中只有一名队员(列0中没有任何东西,因为队伍隐含在最后一列说明团队)。 这是每个团队重复。 Warriors Stephen Curry – Klay Thompson – Kevin Durant Clippers Chris Paul – Blake Griffen – JJ Redick Raptors Kyle Lowry – Demar Derozan 我将数据导入pandas数据框并计算每个团队的玩家人数。 import pandas as pd df = read_excel('data.xlsx') print(df) Team Player 0 Warriors Stephen Curry 1 NaN Klay Thompson 2 NaN Kevin Durant 3 Clippers Chris Paul 4 […]

如何读取范围('A5:B10')并使用openpyxl将这些值放入数据框中

能够以类似于excel的方式定义范围,即“A5:B10”对于我所需要的非常重要,因此将整个表格读取到数据框并不是很有用。 所以我需要做的是从Excel工作表中的多个范围读取多个不同的数据框。 valuerange1 = ['a5:b10'] valuerange2 = ['z10:z20'] df = pd.DataFrame(values from valuerange) df = pd.DataFrame(values from valuerange1) 要么 df = pd.DataFrame(values from ['A5:B10']) 我已经搜查,但无论我做了一个非常糟糕的search工作,或者其他人已经得到解决这个问题,但我真的不能。 谢谢。

新的Python和不能找出“AttributeError:'NoneType'对象没有属性'to_excel'”

我是非常新的python所以帮助或解释赞赏。 我已经阅读了一些类似的问题,但还没有足够的经验来理解解决scheme。 我在Spyder中使用Python 3.6。 我想在Excel电子表格的所有其他列之前插入一列,并把date放在该列中,在这种情况下,“2010-01”。 当我运行代码时,出现错误“AttributeError:'NoneType'object has no attribute'to_excel'”。 import os import pandas as pd df = [] for f in ['C:\\file.xls']: data = pd.read_excel(f, 'dspPrintOrExcel') data.index = [os.path.basename(f)]*len(data) class Column(object): def Date(self): print ("2010-01") thing = Column() df = df.insert(0,thing.Date) df.to_excel("C:\\file2.xls")