Tag: 编码UTF

如何将iso8859_6中的文件名转换为utf-8？: 我收到了数千个Excel文件来处理。当我打开它们时，数据似乎被编码成可以用Python读取和处理的方式。文件名称，但是，被打乱。我将文件名导入到sqlite中，然后将它们的列表导出到CSV，然后用适当的编码尝试导入到Excel中。这是他们在文件系统中的显示方式：如果我告诉Excel导入为28596: Arabic (ISO) ，我假设映射到iso8859_6 python 3.5编码，这就是名称的显示方式。 Excel本身在导入后不能正确显示它们。这是他们的样子，我认为这是一个字体问题。无论如何，如果我将这些文件名导入到Python中，我不能无误地对它们进行编码/解码。如果我设置错误ignore那么我没有看到文件名。任何想法如何将这些编码到一个标准的Unicode阿拉伯文，将与我正在使用的所有其他阿拉伯文字一起正确显示？下面是在Windows上的文件浏览器和MacOS上的Finder中出现的一个例子。 ½ñΘ Ω⌐αε δτßí ñáƒóƒ ƒΘª¼á ƒΘßá∩í Θ¼∞⌐ 4-2016.xlsx 编辑：这是我在代码中尝试过的…我在sqlite数据库中有文件名，所以我从那里获取它们。（顺便说一下，我正在处理的阿拉伯语的99.9％没有问题 – 只是这些文件名。） import dataset db = dataset.connect("sqlite:///mydata.sqlite") # Hit on one of the characters that appears in the garbled file names res = db.query("SELECT * FROM files […]

如何使用pandas to_exel在.xlsx中以'utf-8'格式保存string（to_csv可以将其保存为.csv）: 因为我可以使用'utf-8'编码使用to_csv保存string，所以我希望能够使用to_excel做同样的事情。在编码方面，这不是我的问题。我之前看到的线索都没有讨论这个问题。我在Windows 7（Anaconda）和pandas0.18.1上使用python 2.7.12 我有两个与保存包含特殊字符（编码为“utf-8”）的pandasdataframe相关的.csv或.xlsx文件相关的问题。例如： import pandas as pd # Create a Pandas dataframe from the data. df = pd.DataFrame({'Data': ['1', 'as', '?%','ä']}) 我可以将数据框保存为一个.cvs文件，没有任何问题： df.to_csv('test_csv.csv',sep=',', encoding='utf-8') 它的工作。当导入数据时，我需要在Excel中select'utf-8'，一切正常。现在，如果我尝试保存与.xlsx相同的数据框，那么它不起作用。我有以下代码： # Create a Pandas Excel writer using XlsxWriter as the engine. writer = pd.ExcelWriter('pandas_simple.xlsx', engine='xlsxwriter', options={'encoding':'utf-8'}) # Convert the dataframe to an […]