Tag: 数据框

用另一个数据框覆盖一个数据框，只保留新的或更改的行: 我有两个pandas的数据框，看起来像下面这样： DF1： RecorderID GroupID Location … SomeColumn CT-1000001 BV- Cape Town SomeValue CT-1000002 MP- Johannesburg SomeValue CT-1000003 BV- Durban SomeValue DF2： RecorderID GroupID Location … SomeColumn CT-1000001 BV- Durban … SomeValue CT-1000003 BV- Durban … SomeValue 这两个dataframe实际上很大，有很多列和很多行。我想比较两个dataframe，并以一个dataframe结束以下操作（RecorderID是我的主键）：所有在两个数据框中值不同的行都必须采用df1的值并保留。所有存在于df1但不存在于df2中的行必须被插入。所有包含在两个数据框中且相同的值都必须删除。所以，以上面的例子，我会得到以下的数据框： RecorderID GroupID Location … SomeColumn CT-1000001 BV- Cape Town SomeValue CT-1000002 MP- Johannesburg […]

如何将数据框转换为Python中的数组？: 我从excel中读取数据如下： import numpy as np import pandas as pd Location = r'C:\temp\test.xlsx' data = pd.read_excel(Location, '4bar', header=0, parse_cols=0) data Out[80]: 10V 11V 0 -60.531006 -31.539307 1 -2.547607 -30.776367 2 58.487549 48.569336 3 72.220459 74.509277 4 64.591064 74.509277 5 54.672852 60.013428 我想把“10V”和“11V”列放到两个数组中。为了处理具有滤波器系数的数据。但我不知道如何将列复制到数组或如何直接在DataFrame中访问/操作元素？任何人都可以给我一个提示吗？谢谢。

pandas：如何读取定义多列的excel文件作为多索引？: 我有一个数据框，每行包含一个办公室位置对象与几个属性，如Global Region ， Primary Function ，以及几个能耗数据作为数值遵循。所有列的名称如下所示： ['Global Region', 'Primary Function', 'Subsidiaries', 'T&D Loss Rate Category', 'Type', 'Ref', 'Acquisition date', 'Disposal date', 'Corporate Admin Approver', 'Data Providers', 'Initiative administrator', 'Initiative approver', 'Initiative user', 'Invoice owner', 'Apr to Jun 2012', 'Jul to Sep 2012', 'Oct to Dec 2012', 'Jan to Mar 2013', 'Apr to Jun 2013', […]

使用Pandas Python无法访问excel文件: 嗨，我想通过几个Excel文件运行我的Python代码，并从每个文件中获取数据并保存到数据框架。这是我的代码 import os import glob import pandas as pd path =r'C:\Users\user1\Desktop\test' files = os.listdir(path) files_xls = [f for f in files if f[-3:] == 'xls'] df = pd.DataFrame() for f in files_xls: filename, ext = os.path.splitext(f) data = pd.read_excel(f, filename) df = df.append(data) a = df.describe() print (a) 我得到这个错误..我在工作的文件夹中的第一个文件是test.xls Traceback (most recent call last): […]

在Python中处理excel文件: 我有一个.xlsx文件的文件夹，我需要将每三个文件汇总在一起，并使用Python将结果输出到一个新的.xlsx文件中。有超过一百个文件。什么是最有效的方式来做到这一点？

从excel空细胞到pandasdf: .read_excel() ，我试图使用.isin()但需要包含特定列的空单元格。数据如何被操纵？我读了它的NaN，但也发现NaN != NaN 。我如何访问空的Excel单元格？

在R中阅读两行标题: 我有一个像下面的图片一样的简单结构的excel文件。 AB abcabc 0.42 0.42 0.42 0.42 0.42 0.42 0.42 0.42 0.42 0.42 0.42 0.42 如何获得R中的data.frame如下所示？ col_name abc A 0.42 0.42 0.42 A 0.42 0.42 0.42 B 0.42 0.42 0.42 B 0.42 0.42 0.42 一个重要的补充。样例结构 – 只是整个表的一部分。整个excel看起来像：

基于date的Python VLOOKUP – Pandas: 在pandas df中有一个问题，试图根据date获取“Count”列，代码应该在date列中search“date范围”，如果存在，则应将“Count”复制到“相应date的“post”列，例如：date_range value = 16/02/2017 – 代码在“date”列中search16/02/2017，并使“post”等于该date的“计数”值 – 如果date范围价值不出现 – 职位应= 0。数据示例： Dates Count date_range Posts 0 07/02/2017 1 16/12/2016 (should = 5) 1 01/03/2017 1 17/12/2016 2 15/02/2017 1 18/12/2016 3 23/01/2017 1 19/12/2016 4 28/02/2017 1 20/12/2016 5 09/02/2017 2 21/12/2016 6 20/03/2017 2 22/12/2016 7 16/12/2016 5 我的代码如下所示： DateList = df['Dates'].tolist() […]

按列Python合并不同大小的表: 我有两个这样的表格： Table A: id id2 value 1 1 a 1 2 b 2 1 c 3 1 d Table B: id value2 1 e 2 g 3 h 我需要join他们，所以我得到这样的事情： Table needed: id id2 value value2 1 1 ae 1 2 be 2 1 cg 3 1 dh Excel或Python或R将工作。事实是，我需要，如果表A中的ID匹配表B中的，表B中的值被添加到匹配行（S）。尽pipe如此，两个表的大小都不一样，有时候表b中的id也不存在于表a中。我只需要表格a中的那个。

如何用数据框创build不确定长度的Excel电子表格？: 我是一个Python用户的新用户，我一直在写一个程序，我需要创build一个不确定数量的列的Excel电子表格。所以我之前的代码创build了4列： writer = pd.ExcelWriter(datapath + 'Test#' + str(testcount) + '.xlsx', engine = 'xlsxwriter') df1 = pd.DataFrame({'Species 1' : evolution[0]}) df2 = pd.DataFrame({'Species 2' : evolution[1]}) df3 = pd.DataFrame({'Species 3' : evolution[2]}) df4 = pd.DataFrame({'Species 4' : evolution[3]}) df1.to_excel(writer, sheet_name='Raw Data') df2.to_excel(writer, sheet_name='Raw Data', startcol=2, index=False) df3.to_excel(writer, sheet_name='Raw Data', startcol=3, index=False) df4.to_excel(writer, sheet_name='Raw Data', startcol=4, […]