Tag: pandas

用俄文字符写入numpy.ndarray文件

我尝试写numpy.ndarray文件。 我用 unique1 = np.unique(df['search_term']) unique1 = unique1.tolist() 然后再试1) edf = pd.DataFrame() edf['term'] = unique1 writer = pd.ExcelWriter(r'term.xlsx', engine='xlsxwriter') edf.to_excel(writer) writer.close() 和2) thefile = codecs.open('domain.txt', 'w', encoding='utf-8') for item in unique: thefile.write("%s\n" % item) 但是,所有返回的UnicodeDecodeError: 'utf8' codec can't decode byte 0xd7 in position 9: invalid continuation byte

Python的数据框到Excel

我试图使用df.to_excel将dataframe转换为excel文件。 我已经做了一个较旧的项目之前,但现在我有一个数据框,其中包含多个值在某些情况下的表。 例如,我的数据框中有一小部分; 我们可以看到column2最后2行产生了两个值: ———-column 1————–column 2————– 2016-08-05 20:57:58—-[2016-08-05 21:03:24] 2016-08-05 21:03:29—-[2016-08-05 21:03:41] 2016-08-05 21:04:27—-[2016-08-06 02:03:11] 2016-08-06 02:03:16—-[2016-08-06 02:03:27, 2016-08-06 02:12:08] 2016-08-06 02:12:53—-[2016-08-06 02:13:04, 2016-08-06 02:13:12] 我想知道是否有可能将这种东西转换成excel文件,因为我试过,但似乎这些多个值阻止做转换。 我想将每个值转换为string,然后将它们连接成一个唯一的string,但如果有人知道另一个更简单的方法来回答这个问题,我正在听!

如何使用pandas to_exel在.xlsx中以'utf-8'格式保存string(to_csv可以将其保存为.csv)

因为我可以使用'utf-8'编码使用to_csv保存string,所以我希望能够使用to_excel做同样的事情。 在编码方面,这不是我的问题。 我之前看到的线索都没有讨论这个问题。 我在Windows 7(Anaconda)和pandas0.18.1上使用python 2.7.12 我有两个与保存包含特殊字符(编码为“utf-8”)的pandasdataframe相关的.csv或.xlsx文件相关的问题。 例如: import pandas as pd # Create a Pandas dataframe from the data. df = pd.DataFrame({'Data': ['1', 'as', '?%','ä']}) 我可以将数据框保存为一个.cvs文件,没有任何问题: df.to_csv('test_csv.csv',sep=',', encoding='utf-8') 它的工作。 当导入数据时,我需要在Excel中select'utf-8',一切正常。 现在,如果我尝试保存与.xlsx相同的数据框,那么它不起作用。 我有以下代码: # Create a Pandas Excel writer using XlsxWriter as the engine. writer = pd.ExcelWriter('pandas_simple.xlsx', engine='xlsxwriter', options={'encoding':'utf-8'}) # Convert the dataframe to an […]

使用循环创build带有Dataframe Pandas的Excel表格

我正在研究这个function,为幻想足球信息的网站,并写入一个Excel文件。 最终,我希望在Excel工作簿中的每个工作表中有每周的信息。 下面发布的代码完美工作,直到我想将其写入Excel工作簿。 工作手册最后只有17周的数据。 看来,每当我真的希望每次添加表单时,pandasExcelWriter都会覆盖表单。 我无法find任何关于在pandasExcelWriter中使用循环创build工作表的任何信息,所以我不完全确定是否可以按照我想要的方式完成工作。 import bs4 as bs import urllib.request import pandas as pd from pandas import ExcelWriter for week in range(1,18): #IGNORE MOST OF THIS STUFF BELOW BECAUSE IT WORKS AS IS source = urllib.request.urlopen('http://fftoday.com/stats/playerstats.php?Season=2015&GameWeek='+str(week)+'&PosID=10&LeagueID=1').read() soup = bs.BeautifulSoup(source, 'lxml') table = soup.find('table', width='100%', border='0', cellpadding='2', cellspacing='1') table_rows = table.find_all('tr') player_data = {} […]

TypeError:期望数字数据

我很难找出这个错误的意思,因为这个问题已经没有太大的帮助。 难道说我的Oracle表只需要接收数字而不是字母? 这不可能是这样的,因为我的列设置为允许VarChar使数字和字母都适合。 我曾经以为是因为我的DataFrame中有NaN ,所以我用0代替了所有的,我仍然收到这个错误。 最终,我想将所有这些从Excel文件中parsing出来的数据导出到Oracle表中。 任何帮助解决这个将不胜感激。 我的数据框: S USTAINABLE H ARVEST S ECTOR| QUOTA LISTING JUN 11 2013 Unnamed: 1 \ 0 AVAILABLE QUOTA 0 1 DATE TRADE ID 2 6/4/13 130196 3 5/28/13 130158 4 6/4/13 130210 5 5/14/13 130079 6 6/4/13 130187 7 6/4/13 130208 8 6/11/13 130249 9 6/4/13 130204 10 […]

pandas + xlsx:根据另一个dataframe格式化单元格

我有一个数据框的数据透视表: pv=testdata.pivot(index='dose',columns='el_num',values='value').reindex(index=doseann) el_num 1 2 3 4 5 6 7 8 9 10 11 dose 100.0 7.07460 6.37422 19.8883 18.6835 16.5359 59.8294 28.5587 14.18910 39.5265 4.33896 38.0297 11931.0 6.41105 8.27059 19.0014 18.6988 16.4000 59.1123 29.4836 13.25030 36.2842 5.89428 37.9752 25079.0 6.82894 8.11478 19.8956 18.8933 15.8732 58.6548 29.8440 13.25930 36.7238 7.37476 39.1368 49640.0 7.20882 8.17981 19.3958 […]

合并文件擅长覆盖Python中的第一列使用pandas

我有很多文件excel,我想使用下面的代码附加多个excel文件: import pandas as pd import glob import os import openpyxl df = [] for f in glob.glob("*.xlsx"): data = pd.read_excel(f, 'Sheet1') data.index = [os.path.basename(f)] * len(data) df.append(data) df = pd.concat(df) writer = pd.ExcelWriter('output.xlsx') df.to_excel(writer,'Sheet1') writer.save() Excel文件有这样的结构: 输出如下: 为什么python在连接excel文件时改变第一列?

Pandas:在lambda函数可能/反馈的列中更改名称

在从这里获得大量的帮助和大量的networkingsearch之后,我将完成我的Cousera Datascience任务的一部分(10)。 但是因为我对Python和Pandas没有经验,所以我有一种唠叨的感觉,那就是问题可以解决得更好。 任务:从这里导入一个Excel列表: http : //unstats.un.org/unsd/environment/excel_file_tables/2013/Energy%20Indicators.xls用国家名称中的“(”删除数字和所有内容。 (在字典里) 这是工作的代码。 我能做些什么更好/更有效率? energy=pd.read_excel('Energy Indicators.xls', sheetname='Energy', skiprows=[17], skipfooter=38, header=15, index_col=[0], usecols=[2,3,4,5] ) energy.index.names=['Country'] energy.rename(columns={'Renewable Electricity Production': '% Renewable'}, inplace=True) energy=energy.reset_index() energy.Country=energy.Country.replace(to_replace='\d',value='', regex=True) energy.Country=energy.Country.replace(to_replace='( \()(.*)(\))',value='', regex=True) #energy.Country=energy.Country.replace(to_replace='(\.){3}',value='None', regex=True) dicts = {"Republic of Korea": "South Korea", "United States of America": "United States", "United Kingdom of Great Britain and Northern Ireland": […]

如何在逗号数据框列中插入逗号作为千位分隔符?

我试图格式化美元金额栏有一个逗号分隔符为更容易查看,但我一直无法弄清楚。 有人可以告诉我的方式吗? import pandas as pd df = pd.read_excel('filename.xlsx') df['Dollar Amount'].head() Index Dollar Amount 0 5721.48 1 4000.00 2 4769.00 3 824.07 4 643.60 5 620.00 Name: Dollar Amount, dtype: float64

如何在Excel表格中创build具有相应值的新列

我有一个Excel表 和另一个这样的 我想根据这样的product_id在第一张表中添加aisle_id 我需要帮助,最好使用python数据框或sql服务器