在Excel中清理三振/彩色数据

我正在处理数据来源是每月提供的Excel格式的手动更新。

数据的怪癖之一是,一些取消的logging是通过键入数据突出显示红色的单元格,或更改字体为删除指示。 不幸的是,我没有控制数据input源,所以我不得不定期手动search红色单元格文件或删除字体,并手动清理它们(删除或添加状态为已取消列,具体取决于用法)。

有没有人有最好的数据清洗做法的build议呢? 有没有一个自动化的方法,或者我只是不得不放弃logging的步骤,并定期执行?

对于信息,我首选的工具是R,所以如果有一种方法可以从R中清除它,那将是最好的。 我接受其他方法。

有几个与Excel一起工作的R包,但是基于格式化过滤数据将涉及使用rcom和excel的COM接口。 我也不是很熟悉。

我要走的路线是编写一个VBAmacros,它将过滤数据,将该macros包装在VBS脚本中,然后从命令行(或通过R的systemshell函数)调用该脚本,

我会走这条路的原因是,如果你对编程有任何的熟悉,那么VBA和VBS都很容易上手。 另一方面,COM并不是人们很快获得舒适程度的东西。

VBA是什么让你访问Excel格式。 (Visual Basic for Applications)。 VBS是您需要通过命令行而不是从Excel(Visual Basic Sc​​ripting Edition)内自动化macros的。

你可以在Excel中做到这一点。 首先logging一个macros,然后在所需的列上放置一个基于颜色的filter(仅select红色单元格),删除行然后停止macros的logging。

这应该给你一个macros。 你可能需要做一些小的修改,你可以通过谷歌的具体命令获得更多的细节。