Tag: 编码UTF

如何将iso8859_6中的文件名转换为utf-8?

我收到了数千个Excel文件来处理。 当我打开它们时,数据似乎被编码成可以用Python读取和处理的方式。 文件名称,但是,被打乱。 我将文件名导入到sqlite中,然后将它们的列表导出到CSV,然后用适当的编码尝试导入到Excel中。 这是他们在文件系统中的显示方式: 如果我告诉Excel导入为28596: Arabic (ISO) ,我假设映射到iso8859_6 python 3.5编码,这就是名称的显示方式。 Excel本身在导入后不能正确显示它们。 这是他们的样子,我认为这是一个字体问题。 无论如何,如果我将这些文件名导入到Python中,我不能无误地对它们进行编码/解码。 如果我设置错误ignore那么我没有看到文件名。 任何想法如何将这些编码到一个标准的Unicode阿拉伯文,将与我正在使用的所有其他阿拉伯文字一起正确显示? 下面是在Windows上的文件浏览器和MacOS上的Finder中出现的一个例子。 ½ñΘ Ω⌐αε δτßí ñáƒóƒ ƒΘª¼á ƒΘßá∩í Θ¼∞⌐ 4-2016.xlsx 编辑: 这是我在代码中尝试过的…我在sqlite数据库中有文件名,所以我从那里获取它们。 (顺便说一下,我正在处理的阿拉伯语的99.9%没有问题 – 只是这些文件名。) import dataset db = dataset.connect("sqlite:///mydata.sqlite") # Hit on one of the characters that appears in the garbled file names res = db.query("SELECT * FROM files […]

如何使用pandas to_exel在.xlsx中以'utf-8'格式保存string(to_csv可以将其保存为.csv)

因为我可以使用'utf-8'编码使用to_csv保存string,所以我希望能够使用to_excel做同样的事情。 在编码方面,这不是我的问题。 我之前看到的线索都没有讨论这个问题。 我在Windows 7(Anaconda)和pandas0.18.1上使用python 2.7.12 我有两个与保存包含特殊字符(编码为“utf-8”)的pandasdataframe相关的.csv或.xlsx文件相关的问题。 例如: import pandas as pd # Create a Pandas dataframe from the data. df = pd.DataFrame({'Data': ['1', 'as', '?%','ä']}) 我可以将数据框保存为一个.cvs文件,没有任何问题: df.to_csv('test_csv.csv',sep=',', encoding='utf-8') 它的工作。 当导入数据时,我需要在Excel中select'utf-8',一切正常。 现在,如果我尝试保存与.xlsx相同的数据框,那么它不起作用。 我有以下代码: # Create a Pandas Excel writer using XlsxWriter as the engine. writer = pd.ExcelWriter('pandas_simple.xlsx', engine='xlsxwriter', options={'encoding':'utf-8'}) # Convert the dataframe to an […]