PC / MAC / Ubuntu中非英文字符的CSV编码错误

这个问题麻烦了一年。 我的R在打开包含简体中文字符的csv文件时遇到了麻烦。 数据被编码为GBK我相信。 我有三台不同的语言和操作系统的电脑,打开同一个中文csv文件的结果也不一样。 有人能告诉我为什么结果不一样吗?

  • (1)Windows +英文操作系统+英文R和R工作室:即使我将它编码为UTF8,GBK,但无法读取我的csv,并将其命名为中文编码。
  • (2)Mac + EnglishOS +英文R:可以在不强制编码的情况下读取中文csv(更新:重新安装操作系统到El Caption后,无法正确打开我的csv)

  • (3)Windows +中文操作系统+中文R:可以读取csv而不用强制编码或gbk

  • (4)Windows +英文操作系统,+中文R: 无法使用
  • (5)Ubuntu的英文操作系统,英文R: ABLE
  • 在windows的情况下(英文和中文操作系统),笔记本可以正确打开csv,但excel不能在英文的情况下。 当我无法用excel打开我的csv时,我的r也不能。
  • 如果我通过Google工作表收敛csv,我的excel可以打开我的csv,但是R仍然不行。

R中的编码如何工作,为什么结果会随着操作系统语言而改变?

read.csv(...,encoding=) 

这可能与excel csv编码系统有关。 如果你的windows操作系统是Englihs的话。 Excel可能无法正确打开CVS。 解决方法是使用谷歌纯粹或Ubuntu安装工作表汇集到CSV,并尝试使用R打开它。

我已经想出了如何解决。 它处理大小不足800M的简体中文文件。 关键是你应该知道操作系统中默认的中文编码。

Ubuntu使用UTF-8作为默认的中文编码。 所以你应该把它编码为UTF-8,而不是GB18130或其他GB的起始编码。

  • (1)下载Open Office(免费快速安装,比Ubuntu中的Cals具有更高的文件大小)。

  • (2)检测您的CSV编码。 只需使用Open Office打开您的csv,然后select一种显示您的中文字符的编码方法。

  • (3)根据您的操作系统将您的csv保存到正确的编码系统。 默认Windows是中文的GBK,Ubuntu是UTF8。

这应该解决您的文件大小问题和编码问题。 你甚至不强制编码。 正常的read.csv会工作。