Tag: pandas

Pythonpandasdf.Unique显示/打印内容: 我是非常新的python，并遇到一个问题，当我试图显示我的excel列中的唯一值的数据框。所以发生了什么是我试图写“aa”我得到 [u'a' u'b' u'c' u'd' u'e' u'f'] 当我想要的是 a, b, c, d, e, f 甚至 [a,b,c,d,e,f] 以较直接的为准。我的想法是，因为我正在使用str()它正在采取数据框架，但是，如果我没有包括str()时，我写 ∞* p!`!@‹!@˛ 作为输出… 这是我的代码： df = pd.read_excel(open('/Users/keatonmaclean/Desktop/abcc.xlsx','rb'), sheetname='Sheet1') # Set ipython's max row display pd.set_option('display.max_row', 1000) # Set iPython's max column width to 50 pd.set_option('display.max_columns', 50) df.columns = df.iloc[0] df = df[1:] aa = str(df.loc[:,"Supplier"].unique()) #bb […]

在Pandas（python）中编辑和合并excel表单: 安装：我正在使用jupyter笔记本，Python版本3.6.2和Excel版本15.36 我有几个Excel文件（每个文件与多张）。我已经加载了每个excel文件（下面的代码），以便为每个excel文件创build一个文件中表单的有序字典的数据框。 import pandas as pd df1 = pd.read_excel('2014.xlsx', sheetname=None, header=1) df2 = pd.read_excel('2015.xlsx', sheetname=None, header=1) ..等等.. 现在，我要遍历每个文件的每个工作表，向包含工作表名称的工作表的每一行添加一个新单元格，然后将所有文件的所有工作表合并到一个大工作表中。我是新来的python，并希望听到干净的方式来执行此任务。

在Excel中获取单元格以使用Python与不同行中的单元格合并？: 我试图使用pandas创build一个数据框，但由于数据集的结构，我有问题。我的数据集的标题分为两个不同的行。我的问题是试图将这些行合并在一起，让每个单元格与它下面的单元格合并。这是我的数据集的一个例子 – Client 1 | Client 2 ———— | ———— Grand Total | Grand Total ———— | ———— $50 | $100 我正在试图做的 – Client 1 Grand Total | Client 2 Grand Total ——————– | ——————– $50 | $100 我在网上find的所有东西都是关于将多行数据合并到一行中，而不是合并不同行中的单元格。如何让单元格与不同行中的其他单元格合并？我显然正在寻找一个解决scheme，我不编辑实际的数据集。更何况，一个解决scheme，我不必硬编码标题。

用BeautifulSoup刮胡子盒，用pandas导出到Excel: 我一直在试图弄清楚如何用Python 3.6以及BeautifulSoup和Pandas模块从Fangraphs中刮取棒球盒子的分数。我的最终目标是将网页的不同部分保存到Excel中的不同表格中。为了做到这一点，我想我必须分别拉他们各自的id标签每个表。这是构成第一个Excel表格的四个表格（在页面上的图表下方）的代码。运行代码导致这个错误： Traceback (most recent call last): File "Fangraphs Box Score Scraper.py", line 14, in <module> df1 = pd.read_html(soup,attrs={'id': ['WinsBox1_dghb','WinsBox1_dghp','WinsBox1_dgab','WinsBox1_dgap']}) File "C:\Python36\lib\site-packages\pandas\io\html.py", line 906, in read_html keep_default_na=keep_default_na) File "C:\Python36\lib\site-packages\pandas\io\html.py", line 743, in _parse raise_with_traceback(retained) File "C:\Python36\lib\site-packages\pandas\compat\__init__.py", line 344, in raise_with_traceback raise exc.with_traceback(traceback) TypeError: 'NoneType' object is not callable import requests from […]

python：pandas – 如何将前两行的pandas数据框结合到数据框头？: 我想读取一个如下所示的Excel文件：我也有一个脚本，将这个xlsx文件转换成csv文件的名单（如果三张可用，那么它将创build三个不同的csv文件）。这是csv文件如下所示： Unnamed: 0,Gender A,Unnamed: 2,Gender B,Unnamed: 4,Gender C,Gender D date,Male,Female,Male,Female,Male,Female 2017-01-01 00:00:00,2,3,3,2,3,3 2017-01-02 00:00:00,5,7,7,42,3,5 2017-01-03 00:00:00,4,6,6,12,2,7 2017-01-04 00:00:00,6,7,3,6,4,8 2017-01-05 00:00:00,6,8,8,3,5,3 2017-01-06 00:00:00,54,3,3,6,3,5 2017-01-07 00:00:00,3,4,6,3,6,5 2017-01-08 00:00:00,3,6,6,3,6,4 2017-01-09 00:00:00,2,2,8,7,5,2 2017-01-10 00:00:00,4,3,2,4,5,5 2017-01-11 00:00:00,12,10,10,3,1,6 2017-01-12 00:00:00,9,7,7,3,4,1 所以，我的第一个问题是哪个更好的select来处理这些文件 – xlsx或csv？接下来，我只想读取前两行作为列标题。所以我可以理解在哪个性别中有多less男性和女性可用。预期产出： 0 date Gender A_Male Gender A_Female Gender B_Male Gender B_Female Gender C_Male Gender […]

不能将<function array_str at 0x02F1E978>转换为Excel: 即使我试图将所有东西都转换成对象或string，我仍然得到上面的错误。 df['temp'] = df['Date'].apply(lambda x: x.strftime('%m/%d/%Y')) nd = df['Date'].unique() nd = np.array_str 我想获得df的Date列中的唯一值作为列标题。我想要这个值显示为MM / DD / YYYY。 Python中的结果显示为“0x02F1E978”。应该是09/25/2017，我可以把文件写入Excel。 import pandas as pd import numpy as np from datetime import date, datetime path = 'C:/Users/tnguy075/Desktop/Inventory Valuation/' file1 = 'AH_INDY_COMBINEDINV_VALUE_TIDL.xlsx' file2 = 'DailyInventoryVal.xlsx' df = pd.read_excel(path+file1, skiprows=1, dtype={'Valuation': np.float64}, parse_dates=['Date']) #open the daily data df['temp'] […]

在导入Excel表格时从string末尾删除空格时出现不正常的行为: 我正在导入一个带有空格的excel文件，在大多数需要删除的单元格内容的末尾。以下脚本适用于示例数据： import pandas as pd def strip(text): try: return text.strip() except AttributeError: return text def num_strip(text): try: return text.split(" ",1)[0] except AttributeError: return text def parse_excel_sheet(input_file, sheet): df = pd.read_excel( input_file, sheetname= sheet, parse_cols = 'A,B,C', names=['ID', 'name_ITA', 'name_ENG'], converters = { 'ID' : num_strip, 'name1' : strip, 'name2' : strip, } ) return […]

你可以使用pandas / python连接基于第2行的.xlsx文件的文件夹吗？: 我无法使用pandas连接一个非常大的.xlsx文件文件夹。问题是我们有一些文字写在每个文档的第一行，无法删除。我的文件夹的path设置和连接工作。问题出在第一个文件之后，当连接其余文件时，它将删除前两列中的ID＃。所以不仅数据不匹配每列，但我也失去了我的唯一标识符。我最好的猜测是这是由于每个文档中的第一行文本。这是我迄今为止。 files = [f for f in os.listdir(path) if f.endswith('.xlsx')] iep_boy_df = pd.concat([pd.read_excel(os.path.join(path, f), sheetname='Academic Outlier List', encoding='utf-8') for f in files], keys=files, names=['File Name', 'Row']).reset_index() 我已经看到了一些使用Pythonparsing文件的方法，但是你可以parsing50个以上的excel文档来跳过第1行，然后将它们传递到pandas中以转换成DF？总而言之，我想第1行被排除在串联之外。这里仍然是一个Python的中间，所以任何帮助将不胜感激！

使用索引x轴标签绘制直方图: 我在Python中有以下数据框 Sex Survived 0 female 0.742038 1 male 0.188908 我想绘制一个直方图，其中男性和女性是两个值在X轴和Y轴有其相应的值。任何想法如何？。我是matplotlib和pandas的新手，请帮忙

pandasExcel导入更改date格式: 我学习python（3.6与anaconda）为我的研究。我使用pandas导入2列xls文件：date（dd-mm-yyyy）和价格。但pandas改变date格式： xls_file = pd.read_excel('myfile.xls') print(xls_file.iloc[0, 0]) 我越来越： 2010-01-04 00:00:00 代替： 04-01-2010 or at least : 2010-01-04 我不知道为什么hh：mm：ss被添加，我得到相同的结果从date列的每一行。我也尝试使用to_datetime不同的东西，但它没有修复它。任何想法？谢谢

Tag: pandas

Pythonpandasdf.Unique显示/打印内容

在Pandas（python）中编辑和合并excel表单

在Excel中获取单元格以使用Python与不同行中的单元格合并？

用BeautifulSoup刮胡子盒，用pandas导出到Excel

python：pandas – 如何将前两行的pandas数据框结合到数据框头？

不能将<function array_str at 0x02F1E978>转换为Excel

在导入Excel表格时从string末尾删除空格时出现不正常的行为

你可以使用pandas / python连接基于第2行的.xlsx文件的文件夹吗？

使用索引x轴标签绘制直方图

pandasExcel导入更改date格式

VBA从数组中检索项目返回相同的项目

Excel公式不更新

Excel VBA函数使单元格文本“BOLD”不起作用

从Excel中的一个工作簿复制到另一个工作簿

如何在电源查询中执行COALESCE？

使用范围variables

在Excel中删除第三个“。”右侧的所有内容

确定一组重复并find其最大/最高编号

Excel数据透视表将行标题作为字段而不是列标题

VBA代码用于将附加信息添加到从用户请求位置的单元

VBA Excel从其他工作表返回值

Excel NETWORKDAYS – 这些返回的值看起来更合理吗？

Excel VBA：称为公式的VBA函数运行不同？

在Google文档中重复列中的公式

Excel公式帮助 – 符合一定标准的总和数字