Tag: python 3.x

如何将带有NaN的合并Excel单元格读入Pandas DataFrame

我想读一个Excel工作表到Pandas DataFrame。 但是,有合并Excel单元格以及Null行(完整/部分NaN填充),如下所示。 为了澄清,John H.命令将“The Bodyguard”中的所有专辑都购买到“Red Pill Blues”。 当我将这张Excel表格读入Pandas DataFrame时,Excel数据无法正确传输。 pandas认为一个合并的细胞是一个细胞。 DataFrame看起来像下面这样:( 注意:()中的值是我想要的值) 请注意,最后一行不包含合并的单元格; 它只为Artist列提供一个值。 编辑:我没有尝试以下向前填写的NaN值:( pandas:阅读与合并单元格的Excel ) df.index = pd.Series(df.index).fillna(method='ffill') 但是, NaN值依然存在。 我可以使用什么策略或方法来正确填充DataFrame? 有没有一个pandas的方法,取消细胞和复制相应的内容?

如何将我的列表导出到Excel兼容文件?

今天,根据我在这里得到的答案,我写了这个小代码来创build一个16个元素的随机列表。 import random sources = ['Prone', 'Supine', 'Halfway', 'HalfInv'] result = [random.choice(sources)] repeats = 0 fail = 0 while len(result) < 16: elem = random.choice(sources) repeats = result.count(elem) print(repeats) if (elem != result[-1]) & (repeats < 4): result.append(elem) else: fail = fail + 1 print(fail) if fail > 100: result = [random.choice(sources)] print(result) 现在我想要做的是:1.创build2个随机列表命名他们不同(我怎么做这个基于for循环计数器?)2.把这两个列表作为列在制表符分隔(txt)文件,一个接一个为了方便复制粘贴到一个Excel文件中。 我看着csv模块,但它似乎只有行的方法。

批量删除具有非常大的数据arrays的空白

所以我最近Dled csv hthat太大,不能使用在互联网上发现的大规模删除。 我怎样才能摆脱位于每个数据点之间的空白。 我可以使用python,并有人build议像这样的东西: for line in open('filename'): line = line.strip() if line.empty(): continue print line 然而,当我尝试它的“空”function似乎并没有工作。 无论是通过Python还是其他任何方式,我都要摆脱这些空白。 谢谢!

python库或代码来读取已经打开的Excel文件

假设我已经打开了一个Excel 2013文件(比如XYZ.xlsx) – 这个文件通过一个DDE链接获取了一些数据。 假设我想从工作表中读取某些单元格(比如A1:B3)(比如Sheet1)。 我怎样才能在Python 3(我正在使用Python 3.4.2.4 / Winpython安装)? 我find了openpyxl包,但是我不明白如何让它读取一个活动的打开工作簿?

获取LibreOffice Calc或Excel导入ISO8601date时间的最简单方法

使用Python3,我做了一堆日志文件,其中包括用iso_format()方法呈现的datetime 。 例如 … 2015-04-09T18:31:56.285000 12.7 2015-04-09T18:31:56.285000 12.6 2015-04-09T18:32:16.662000 12.8 2015-04-09T18:32:36.231000 12.4 2015-04-09T18:32:56.235000 12.6 2015-04-09T18:33:56.242000 12.8 … 我想将这些导入Excel(Excel 2011 for Mac,版本14.4.8)或Calc(LibreOffice 4.4.2.2)。 我感到沮丧的是,这些都不支持IS8601开箱即用,特别是对Calc的开源系统感到惊讶。 我必须相信,有很多分析人员需要从IS8601数据集导入数据,并在这些程序中进行分析。 他们在做什么? 什么是最简单的方法来让我的ISO8601领域快速解释这两个?

Pands.read_excel返回什么数据结构,以及如何引用底层数据框的列?

我正在尝试使用Python 3.4.3在Ipython环境中运行Pandas来绘制列。 使用read_excel函数,我尝试将xls转换为DataFrame,如下所示: import matplotlib.pyplot as plt import pandas as pd data=pd.read_excel('/Path/to/file.xlsx',sheetname='Sheet1') print(sup_sub) 这导致了 {'Sheet1': Day abcd 0 Monday 24 1 34.0 3 1 Tuesday 4 7 8.0 2 2 Wednesday 3 6 3.0 1 3 Thursday 2 6 4.0 0 4 Friday 1 34 -11.5 -1 5 Saturday 0 2 -21.0 -2 6 Sunday […]

sorting多列.csv文件Python

我的数据如下所示: 549 648.077 0.01 552 648.141 0.45 554 647.167 0.1 572 648.141 0.3 530 630.213 0.69 560 670.312 0.70 文件中有几千行 1st行的取值范围是0-1100 2nd排值范围从600-700 3rd行值范围从0-1我需要绘制数据,因此需要sorting和修改数据: 我需要将第三行的值(正常范围0.0-1.0 )分为0.81-1.00 接下来,我需要将1st行(正常范围( 0-1100 ))的段拆分成0-1100段,最多1100段。我想要做的是find所有2nd行值在0.0-0.20和0.0-0.20和0.0-0.20和21-30 。 发现时,我想把它们加在一起,用出现次数除以得到平均值:所以我想要一个在0.0-0.20和0-10之间的区域。 我相当新的python,我认为这是一种方法: import os import csv dataList = [] with open("table.csv") as csv_file: data_reader = csv.reader(csv_file, dialect='excel-tab') for rows in data_reader: if float(rows[2]) <= 0.20: if […]

python XlsxWriter:设置字体不会影响输出excel文件中单元格的外观

我用XlsxWriter python包来从我的数据产生一个excel文件。 我尝试了几种方法将字体'B Nazanin'应用于单元格: title_cell_format.set_font_name('B Nazanin') title_cell_format.set_font_family('B Nazanin') title_cell_format.set_font('B Nazanin') 当我使用这些方法之一时,我可以看到字体名称,但在输出excel文件中字体外观不像“B Nazanin”: 我猜想解决scheme应该是设置文本的方向,可以在Excel中手动完成在下面的菜单。 现在的问题是,我怎么能在我的python程序中设置这个属性!

用另一个数据框覆盖一个数据框,只保留新的或更改的行

我有两个pandas的数据框,看起来像下面这样: DF1: RecorderID GroupID Location … SomeColumn CT-1000001 BV- Cape Town SomeValue CT-1000002 MP- Johannesburg SomeValue CT-1000003 BV- Durban SomeValue DF2: RecorderID GroupID Location … SomeColumn CT-1000001 BV- Durban … SomeValue CT-1000003 BV- Durban … SomeValue 这两个dataframe实际上很大,有很多列和很多行。 我想比较两个dataframe,并以一个dataframe结束以下操作(RecorderID是我的主键): 所有在两个数据框中值不同的行都必须采用df1的值并保留。 所有存在于df1但不存在于df2中的行必须被插入。 所有包含在两个数据框中且相同的值都必须删除。 所以,以上面的例子,我会得到以下的数据框: RecorderID GroupID Location … SomeColumn CT-1000001 BV- Cape Town SomeValue CT-1000002 MP- Johannesburg […]

Pythonpandas; “excel”列操作

我对python相当陌生。 search以前的问题,我找不到这个问题的答案。 对于一个项目,我必须分析大量的.txt文件,并始终对其进行相同的计算。 创build一个数据框pandas被使用,这很好地工作。 我想要在其他列上执行计算的额外列,例如c = a + b。 对于简单的计算,这工作得很好: In [41]: import pandas as pd In [42]: import numpy as np In [43]: df = pd.DataFrame(np.random.randn(10,2),columns=list('ab')) In [44]: df Out[45]: ab 0 0.163138 -1.261099 1 0.094772 -0.553349 2 -1.677519 -0.966680 3 1.732083 -1.118715 4 0.172240 -0.404648 5 0.270712 0.089841 6 0.589787 1.569790 7 0.822016 […]