Tag: pandas

Pythonpandasdf.Unique显示/打印内容

我是非常新的python,并遇到一个问题,当我试图显示我的excel列中的唯一值的数据框。 所以发生了什么是我试图写“aa”我得到 [u'a' u'b' u'c' u'd' u'e' u'f'] 当我想要的是 a, b, c, d, e, f 甚至 [a,b,c,d,e,f] 以较直接的为准。 我的想法是,因为我正在使用str()它正在采取数据框架,但是,如果我没有包括str()时,我写 ∞* p!`!@‹!@˛ 作为输出… 这是我的代码: df = pd.read_excel(open('/Users/keatonmaclean/Desktop/abcc.xlsx','rb'), sheetname='Sheet1') # Set ipython's max row display pd.set_option('display.max_row', 1000) # Set iPython's max column width to 50 pd.set_option('display.max_columns', 50) df.columns = df.iloc[0] df = df[1:] aa = str(df.loc[:,"Supplier"].unique()) #bb […]

在Pandas(python)中编辑和合并excel表单

安装:我正在使用jupyter笔记本,Python版本3.6.2和Excel版本15.36 我有几个Excel文件(每个文件与多张)。 我已经加载了每个excel文件(下面的代码),以便为每个excel文件创build一个文件中表单的有序字典的数据框。 import pandas as pd df1 = pd.read_excel('2014.xlsx', sheetname=None, header=1) df2 = pd.read_excel('2015.xlsx', sheetname=None, header=1) ..等等.. 现在,我要遍历每个文件的每个工作表,向包含工作表名称的工作表的每一行添加一个新单元格,然后将所有文件的所有工作表合并到一个大工作表中。 我是新来的python,并希望听到干净的方式来执行此任务。

在Excel中获取单元格以使用Python与不同行中的单元格合并?

我试图使用pandas创build一个数据框,但由于数据集的结构,我有问题。 我的数据集的标题分为两个不同的行。 我的问题是试图将这些行合并在一起,让每个单元格与它下面的单元格合并。 这是我的数据集的一个例子 – Client 1 | Client 2 ———— | ———— Grand Total | Grand Total ———— | ———— $50 | $100 我正在试图做的 – Client 1 Grand Total | Client 2 Grand Total ——————– | ——————– $50 | $100 我在网上find的所有东西都是关于将多行数据合并到一行中,而不是合并不同行中的单元格。 如何让单元格与不同行中的其他单元格合并? 我显然正在寻找一个解决scheme,我不编辑实际的数据集。 更何况,一个解决scheme,我不必硬编码标题。

用BeautifulSoup刮胡子盒,用pandas导出到Excel

我一直在试图弄清楚如何用Python 3.6以及BeautifulSoup和Pandas模块从Fangraphs中刮取棒球盒子的分数。 我的最终目标是将网页的不同部分保存到Excel中的不同表格中。 为了做到这一点,我想我必须分别拉他们各自的id标签每个表。 这是构成第一个Excel表格的四个表格(在页面上的图表下方)的代码。 运行代码导致这个错误: Traceback (most recent call last): File "Fangraphs Box Score Scraper.py", line 14, in <module> df1 = pd.read_html(soup,attrs={'id': ['WinsBox1_dghb','WinsBox1_dghp','WinsBox1_dgab','WinsBox1_dgap']}) File "C:\Python36\lib\site-packages\pandas\io\html.py", line 906, in read_html keep_default_na=keep_default_na) File "C:\Python36\lib\site-packages\pandas\io\html.py", line 743, in _parse raise_with_traceback(retained) File "C:\Python36\lib\site-packages\pandas\compat\__init__.py", line 344, in raise_with_traceback raise exc.with_traceback(traceback) TypeError: 'NoneType' object is not callable import requests from […]

python:pandas – 如何将前两行的pandas数据框结合到数据框头?

我想读取一个如下所示的Excel文件: 我也有一个脚本,将这个xlsx文件转换成csv文件的名单(如果三张可用,那么它将创build三个不同的csv文件)。 这是csv文件如下所示: Unnamed: 0,Gender A,Unnamed: 2,Gender B,Unnamed: 4,Gender C,Gender D date,Male,Female,Male,Female,Male,Female 2017-01-01 00:00:00,2,3,3,2,3,3 2017-01-02 00:00:00,5,7,7,42,3,5 2017-01-03 00:00:00,4,6,6,12,2,7 2017-01-04 00:00:00,6,7,3,6,4,8 2017-01-05 00:00:00,6,8,8,3,5,3 2017-01-06 00:00:00,54,3,3,6,3,5 2017-01-07 00:00:00,3,4,6,3,6,5 2017-01-08 00:00:00,3,6,6,3,6,4 2017-01-09 00:00:00,2,2,8,7,5,2 2017-01-10 00:00:00,4,3,2,4,5,5 2017-01-11 00:00:00,12,10,10,3,1,6 2017-01-12 00:00:00,9,7,7,3,4,1 所以,我的第一个问题是哪个更好的select来处理这些文件 – xlsx或csv? 接下来,我只想读取前两行作为列标题。 所以我可以理解在哪个性别中有多less男性和女性可用。 预期产出: 0 date Gender A_Male Gender A_Female Gender B_Male Gender B_Female Gender C_Male Gender […]

不能将<function array_str at 0x02F1E978>转换为Excel

即使我试图将所有东西都转换成对象或string,我仍然得到上面的错误。 df['temp'] = df['Date'].apply(lambda x: x.strftime('%m/%d/%Y')) nd = df['Date'].unique() nd = np.array_str 我想获得df的Date列中的唯一值作为列标题。 我想要这个值显示为MM / DD / YYYY。 Python中的结果显示为“0x02F1E978”。 应该是09/25/2017,我可以把文件写入Excel。 import pandas as pd import numpy as np from datetime import date, datetime path = 'C:/Users/tnguy075/Desktop/Inventory Valuation/' file1 = 'AH_INDY_COMBINEDINV_VALUE_TIDL.xlsx' file2 = 'DailyInventoryVal.xlsx' df = pd.read_excel(path+file1, skiprows=1, dtype={'Valuation': np.float64}, parse_dates=['Date']) #open the daily data df['temp'] […]

在导入Excel表格时从string末尾删除空格时出现不正常的行为

我正在导入一个带有空格的excel文件,在大多数需要删除的单元格内容的末尾。 以下脚本适用于示例数据: import pandas as pd def strip(text): try: return text.strip() except AttributeError: return text def num_strip(text): try: return text.split(" ",1)[0] except AttributeError: return text def parse_excel_sheet(input_file, sheet): df = pd.read_excel( input_file, sheetname= sheet, parse_cols = 'A,B,C', names=['ID', 'name_ITA', 'name_ENG'], converters = { 'ID' : num_strip, 'name1' : strip, 'name2' : strip, } ) return […]

你可以使用pandas / python连接基于第2行的.xlsx文件的文件夹吗?

我无法使用pandas连接一个非常大的.xlsx文件文件夹。 问题是我们有一些文字写在每个文档的第一行,无法删除。 我的文件夹的path设置和连接工作。 问题出在第一个文件之后,当连接其余文件时,它将删除前两列中的ID#。 所以不仅数据不匹配每列,但我也失去了我的唯一标识符。 我最好的猜测是这是由于每个文档中的第一行文本。 这是我迄今为止。 files = [f for f in os.listdir(path) if f.endswith('.xlsx')] iep_boy_df = pd.concat([pd.read_excel(os.path.join(path, f), sheetname='Academic Outlier List', encoding='utf-8') for f in files], keys=files, names=['File Name', 'Row']).reset_index() 我已经看到了一些使用Pythonparsing文件的方法,但是你可以parsing50个以上的excel文档来跳过第1行,然后将它们传递到pandas中以转换成DF? 总而言之,我想第1行被排除在串联之外。 这里仍然是一个Python的中间,所以任何帮助将不胜感激!

使用索引x轴标签绘制直方图

我在Python中有以下数据框 Sex Survived 0 female 0.742038 1 male 0.188908 我想绘制一个直方图,其中男性和女性是两个值在X轴和Y轴有其相应的值。 任何想法如何? 。 我是matplotlib和pandas的新手,请帮忙

pandasExcel导入更改date格式

我学习python(3.6与anaconda)为我的研究。 我使用pandas导入2列xls文件:date(dd-mm-yyyy)和价格。 但pandas改变date格式: xls_file = pd.read_excel('myfile.xls') print(xls_file.iloc[0, 0]) 我越来越 : 2010-01-04 00:00:00 代替 : 04-01-2010 or at least : 2010-01-04 我不知道为什么hh:mm:ss被添加,我得到相同的结果从date列的每一行。 我也尝试使用to_datetime不同的东西,但它没有修复它。 任何想法 ? 谢谢