Tag: 字符编码

如何在Excel中对HTML进行HTML编码或音译“高”字符?

在Excel中,如何将包含重音字符,curl引号等的单元格的内容转换为相同字符的HTML或者音译明文版本? 我们有一个包含一些“高”字符的XLS文件。 数据已经通过数据库连接被引入,看起来Excel正确地处理了不同代码页中的单个单元(或行)。 当我们将这些数据导出到一个CSV文件时,一些高字符的渲染效果不正确 – 看起来,Excel使用单一的编码方式(当然),以及原始代码页中字符的位值(这可能会也可能不会与同一文件中的其他值保持一致)。 由于Excel在导出之前正确地呈现文本,因此我相信我们应该能够将高字符编码为其等效的HTML,然后导出为CSV,从而确保CSV仅为ASCII。 (或者,我们可以将音译转换为纯ASCII,但这似乎是一个糟糕的做法,可能并不容易…)

无法从Excel(UTF8格式)中将正确的字符获取到PHP中

对于所有types的字符编码问题都有很多问题和答案,但是没有一个似乎能够解决我的问题。 我每个月都会得到一个电子表格,需要将其转换为Prestashop数据。 我还是先把.xls转换成.csv,然后自己帮忙,但是如果我一次就可以做到这一点,那就更容易了。 我使用PHP-ExcelReader读取以Unicode(UTF-8)格式保存的.xls文件。 我的问题是,无论输出编码我select,总是有一些字符,将不会正确显示。 我已经创build了一个testing页,以显示在什么条件下发生了什么: http : //www.num1.nl/test.php 希望有人可以帮忙。

为什么我的StreamWriter Response输出在Excel中产生垃圾口音,但在记事本中看起来不错?

我正在使用来自另一个堆栈溢出问题的技术将CSV文件写入用户打开/保存的Response输出。 在记事本中该文件看起来不错,但是当我在Excel中打开它时,重音字符是垃圾。 我认为这是与字符编码有关,所以我尝试手动将其设置为UTF-8( StreamWriter的默认值)。 这里是代码: // This fills a list to enumerate – each record is one CSV line List<FullRegistrationInfo> fullUsers = GetFullUserRegistrations(); context.Response.Clear(); context.Response.AddHeader("content-disposition", "attachment; filename=registros.csv"); context.Response.ContentType = "text/csv"; context.Response.Charset = "utf-8"; using (StreamWriter writer = new StreamWriter(context.Response.OutputStream)) { for (int i = 0; i < fullUsers.Count(); i++) { // Get the record to […]

Excel电子表格中的字符编码(以及用什么Java字符集来解码)

我正在使用JExcel库来读取Excel电子表格。 电子表格中的每个单元格都可以包含任何类似于44种语言(英语,葡萄牙语,法语,中文等)的本地化string。 今天我不告诉API关于它应该使用的编码的任何东西。 它处理中国行,但总是把葡萄牙和德国搞砸了。 不知怎的,默认编码(我的开发箱上的MacRoman,生产上的UTF-8)没有正确解释它从Excel工作簿中抽出的string。 JExcel如何解释文件的字符编码一定有问题。 话虽如此… excel工作簿中的所有string是否使用相同的字符集进行编码? 有工作簿元数据我可以问这个字符集是什么(我还没有find它)? 如果我通过像jchardet(http://jchardet.sourceforge.net/)这样的东西来运行所有的单元格,是否可以为整个工作簿预​​测字符编码(这在第一个问题上就是“是的,在一个给定的工作簿中的所有蜇伤编码相同的字符集“)? 这么多的问题,那么短的时间。

以正确的编码将希腊字符的Excel文件导入到R中

我有一些麻烦导入以下文件: http : //www.kuleuven.be/bio/ento/temp/test.xlsx到R在正确的编码。 尤其是, library("xlsx") read.xlsx("test.xlsx",1,header=F,colClasses=c("character"),encoding="UTF-8") 给我 X1 1 a-cadinol 2 a-calacorene 3 a-caryophyllene alcohol 4 a-curcumene 5 a-elemol 6 a-muurolene 7 a-terpineol acetate 8 ß-4-dimethyl-3-cyclohexane-1-ethanol acetate 9 ß-bisabolene 10 ß-bisabolol 11 ß-bourbonene 12 ß-caryophyllene alcohol 13 ß-cyclocitral 14 ß-farnesol 15 ß-selinene 16 ß-sesquiphellandrene 17 <U+03B3>-cadinene 18 <U+03B3>-Carboethoxy-<U+03B3>-butyrolactone 19 <U+03B3>-ethyl-<U+03B3>-butyrolactone 20 <U+03B3>-eudesmol 21 <U+03B3>-muurolene […]

python package pyExcelerator / xlwt将特殊字符写入Excel表格

任务: 我通过使用python软件包pyExcelerator(与xlwt相当)从csv-files生成了excel表格。 我需要能够写出小于或等于(≤)和大于或等于(≥)的符号。 至今: 我可以将表格保存为带有UTF-8编码的csv文件,以便我可以在我的文本编辑器中查看特殊字符,方法是将以下行添加到我的python源代码中: #! /usr/bin/env python # -*- coding: UTF-8 -*- 问题: 但是,在pyExcelerator的Font类中,不能selectUTF-8作为字体。 唯一的select是: CHARSET_ANSI_LATIN = 0x00 CHARSET_SYS_DEFAULT = 0x01 CHARSET_SYMBOL = 0x02 CHARSET_APPLE_ROMAN = 0x4D CHARSET_ANSI_JAP_SHIFT_JIS = 0x80 CHARSET_ANSI_KOR_HANGUL = 0x81 CHARSET_ANSI_KOR_JOHAB = 0x82 CHARSET_ANSI_CHINESE_GBK = 0x86 CHARSET_ANSI_CHINESE_BIG5 = 0x88 CHARSET_ANSI_GREEK = 0xA1 CHARSET_ANSI_TURKISH = 0xA2 CHARSET_ANSI_VIETNAMESE = 0xA3 CHARSET_ANSI_HEBREW = 0xB1 […]

Python将Excel转换为CSV

似乎有很多关于这个问题的post,我的解决scheme是与最常见的答案似乎是一致的,但是我遇到了一个编码错误,我不知道如何解决。 >>> def Excel2CSV(ExcelFile, SheetName, CSVFile): import xlrd import csv workbook = xlrd.open_workbook(ExcelFile) worksheet = workbook.sheet_by_name(SheetName) csvfile = open(CSVFile, 'wb') wr = csv.writer(csvfile, quoting=csv.QUOTE_ALL) for rownum in xrange(worksheet.nrows): wr.writerow(worksheet.row_values(rownum)) csvfile.close() >>> Excel2CSV(r"C:\Temp\Store List.xls", "Open_Locations", r"C:\Temp\StoreList.csv") Traceback (most recent call last): File "<pyshell#2>", line 1, in <module> Excel2CSV(r"C:\Temp\Store List.xls", "Open_Locations", r"C:\Temp\StoreList.csv") File "<pyshell#1>", line 10, in […]

Excel中不支持泰语,越南语

我创造了一个有泰语和越南语的excel。 我的问题是,它将这些字符显示为问号。 我的代码如下 $worksheet->write($i, 5, iconv("UTF-8", "ISO-8859-1//TRANSLIT", html_entity_decode($text)), $mainquest); 我也尝试了所有其他的ISO标准。 我把ISO-8859-1作为法语语言支持。 我也尝试了mb_convert_encoding但没有进展。 有没有解决scheme?

pandas阅读excel文件时的数据框和字符编码

我正在阅读一个有几个数字和分类数据的Excel文件。 列name_string包含外语中的字符。 当我尝试查看name_string列的内容时,我得到了我想要的结果,但外键字符(在Excel电子表格中正确显示)显示为错误的编码。 这是我有什么: import pandas as pd df = pd.read_excel('MC_simulation.xlsx', 'DataSet', encoding='utf-8') name_string = df.name_string.unique() name_string.sort() name_string 生成以下内容: array([u'4th of July', u'911', u'Abab', u'Abass', u'Abcar', u'Abced', u'Ceded', u'Cedes', u'Cedfus', u'Ceding', u'Cedtim', u'Cedtol', u'Cedxer', u'Chevrolet Corvette', u'Chuck Norris', u'Cristina Fern\xe1ndez de Kirchner'], dtype=object) 在最后一行,正确编码的名字应该是CristinaFernándezde Kirchner。 有人可以帮我解决这个问题吗?

我怎样才能确定一个Excel文件的字符编码?

可能重复: 使用UTF8编码的Excel到CSV 场景:我有一个包含大量全球客户数据的excel文件。 我不知道在创build文件时使用了什么编码。 问题:如何确定excel文件中使用的字符编码,以便将其正确导入到另一个软件中?